AI导师:百万学员背后的技术解密

与爱为舞推出真人级AI导师「爱学」,百万学员使用,揭秘其AI原生教育框架和全栈技术体系,实现个性化教学和高效学习。

原文标题:上线不到一年,收徒百万,首个真人级AI导师技术底牌首次曝光

原文作者:机器之心

冷月清谈:

本文介绍了与爱为舞推出的真人级AI导师产品「爱学」,该产品上线不到一年,已拥有百万学员,完课率高达92.4%。文章深入剖析了「爱学」背后的技术底牌,包括自研的AI原生教育框架,该框架打通了数字人、语音、大模型和工程等全栈技术体系。AI导师通过马尔科夫决策过程(MDP)进行实时教学决策,并利用启发式注入(SFT)和强化学习(RL)进化,模拟真人教学的“教学直觉”,实现因材施教。此外,文章还介绍了如何通过上下文感知的ASR、流式TTS和全双工语音交互,以及高实时性的数字人技术,提升AI导师的教学体验。最后,文章揭示了「爱学」在万人并发下的工程架构优化,确保系统高并发、低延迟,为每个学员提供个性化的学习路径。AI导师不仅仅是搜题工具,而是着重于教学本身,引导学生理解知识的底层逻辑,从而实现更好的学习效果。

怜星夜思:

1、文章中提到AI导师通过模仿真人名师的教学方式来提升教学质量,你认为这种方式是否可持续且有效?未来AI导师是否应该发展出自己独特的教学风格?
2、文章中提到了AI导师在教学过程中会根据学生的状态进行实时调整,这种“因材施教”在实际应用中会遇到哪些挑战?如何确保AI导师能够准确判断学生的学习状态?
3、文章中提到AI导师可以进行全双工语音交互,随时被打断,你认为这种交互方式对提升学习体验有什么帮助?在实际应用中可能会遇到哪些问题?

原文内容


图片
编辑|吴昕


第一次见到「爱学」前,王佳佳(化名)害怕和老师互动。

这个来自安徽阜阳的初三女生,性格内向,在课堂上几乎从不举手。题不会,不敢问,宁愿空着;一被老师点名,就紧张到大脑一片空白。久而久之,数学和英语成了她最不愿面对的两门课。


直到有一天,她开始反复和一个「不会不耐烦」的对象对话。一句没听懂,就一直追问,直到彻底弄清楚。对方有表情,会根据她的反应实时调整讲解节奏,也会在她犹豫、走神时主动追问,把她拉回来。


慢慢地,王佳佳敢开口了,学习也变得主动。最近一次数学随堂考试,她考了 103 分,比上一次整整提高了 40 分。


「爱学」所承载的并不是一位真人老师,而是一个真人级 AI 导师。


2025 年初,成立不到两年的首批 AI 原生应用企业与爱为舞率先落地了国内首个真人级 AI 一对一导师产品「爱学」。App 上线不到一年,已经被超过百万名学员真实使用。


单次课可能持续 1—2 小时,没有任何真人介入,完课率却高达 92.4%。单个学员的最长学习时长已达到 9000 分钟。


在 AI 课堂中,单次课的答题正确率也从 59.1% 提升至 83.2%。


学员小苹果学英语,进步明显。


AI 导师,拒走答题」老路

 

放眼当前的 AI 教育市场,大模型似乎成了基础设施,但真正意义上的突破,却迟迟没有出现。大量产品仍停留在「舒适区」——


 LLM 「套进」学习机或 App ,当作一个更聪明的聊天机器人来用。它擅长预测下一个 token,却没能走进教学本身。


最常见的使用方式是被大量用于搜题、批改。用户卡题了,点一下 AI,答案瞬间生成。所谓「讲解」,只是堆叠冗长而晦涩的推理链,对低龄用户来说如同天书。好一点的情况,会调用提前录制好的人类视频,但交互为零。


例如,一个常见的语法题:My sister plans _____ meether teacher after school tomorrow. 这里的 meet 应该填什么形式?


很多 AI 的回答只是就着答案做解释(尤其像 AI 拍搜):


1.答案:to meet

a.核心原因:固定搭配+非谓语动词用法

b.动词plan的固定搭配规则:plan + to do sth.,即计划做某事

2.语法逻辑解析:

a.plan作为谓语动词,后面需要接“宾语”来表示“计划的内容”

b.英语中,动词原形(meet)不能直接做宾语,需要通过不定式(to+动词原形)构成不定式短语(to meet her teacher),才能充当plan的宾语,表示“计划的具体动作”


更常见的是打着「AI 课程」旗号的产品,本质仍是录播,AI 交互浅到几乎可以忽略。这些产品解决了「有教」的一部分,却仍难以触及「会教」,更别提「因材施教」。


要将 AI 真正引入教育,必须在「教学」这件事上下功夫。与爱为舞认为,新一代 AI 教育范式应该因材施教、授人以渔。这套判断,来自一支典型的「互联网大厂 × 头部教育」跨界团队。公司创始人兼 CEO 张怀亭,曾担任百度商业化系统「凤巢」核心负责人、高途联合创始人。创始人兼 COO 刘威,曾任高途集团副总裁、高途课堂总经理。


就拿前面那道英语题来说,为什么是 to meet,而不是其他形式?


「授人以渔」的 AI ,不会一上来就告诉你答案是 to meet。它会先判断学员卡在哪一层,是不是没搞懂非谓语动词?


随后,通过追问与对比引导学员自己发现:plan 表达的是尚未发生的计划动作,英语里通常用 to do 来承载这种未来意图。


再通过举一反三让学员理解共性规律。当遇到 plan / decide / hope / want 这类动词时,不必死背搭配,也能判断该如何表达。


近两年,AI Agent 概念大热,市场上也出现了一对一 AI 导师的雏形,但仍局限在英语、数学等单一学科 。相比之下,「爱学」已实现全年龄段覆盖、「多学科 + 长课时度陪伴


而支撑这一跨代产品的,是自研的国内首个 AI 原生教育框架——一个打通了「数字人 + 语音 + 大模型 + 工程」的全栈技术体系 。与爱为舞也因此成为国内首个在教育场景下打通全栈技术能力的公司。


那么,一个好的 AI 导师是如何炼出来的?


「爱学」背后的全栈技术能力。

 

「筑魂」:

 ChatBot  MDP 决策


为了打造一个真正「会教」的 AI 导师,与爱为舞自研了三大基础模型体系——从感知的「皮囊」,到负责决策的「灵魂」——完整覆盖 AI 教学的核心能力闭环。


与爱为舞认为,一个优秀的AI导师需要具备上面四个方面的核心能力。


其中,爱学教育大模型,第一次让 AI 拥有了真正的「教学之魂」,更是与竞对拉开身位的关键赛点。


与市面上仍停留在预测下一个 token 的对话系统不同,「爱学」从一开始就被设计成一套实时教学决策系统——


「一对一教学」不再只是问答交互,而被抽象为一个持续演化的马尔科夫决策过程(MDP,一次教学就是一场目标明确的博弈。


  • 学员的状态——包括理解程度、情绪变化、长时间犹豫等——被视作环境;

  • 每一次提问、追问、提示、鼓励与纠偏,都是 AI 导师可选择的教学策略;

  • 系统的奖励,不再是「题对了+1 分」,而是学员是否真的学会了、学得更快、学得更开心。


因此,AI 导师每一次讲解、每一次追问、每一次纠错,都不是「接一句话」,而是在当前学员状态下做出的最优教学决策


数学课上,学员和AI导师一问一答,互动学习。


为了让模型真正具备「师魂」,与爱为舞设计了两个进化阶段:


  • SFT(启发式注入):不只是喂数据,而是通过思维链(CoT)将大量名师的隐性经验系统化。它不只学「说什么」,更在学「为什么要这么教」。

  • RL(强化学习进化):引入定制化 GRPO 算法。围绕教学规划的质量与灵活性构建 Reward 函数,让 AI 在数亿次的模拟试错中,打磨出类似真人的「教学直觉」,做到因材施教。


AI 导师是如何炼成的?这是在真实课堂 + 仿真课堂中持续进化的完整数据闭环与训练体系。


如果说模型架构决定了「导师素质」的上限,那么数据工程则构成了能力的下限。


与爱为舞没有简单堆砌题库或对话语料,而是先搭建了一套可运行的 AI 教学环境,让数据在真实教学逻辑中自然生长。数据被系统性地拆解为三层核心要素。


  • 学科本体。通过构建覆盖各学科的核心知识图谱、关键考点与解题方法,将教材与考纲转化为 AI 可理解、可调用的教学结构;

  • 教学方法。通过名师参与课程设计,沉淀「为什么这么教、先讲什么、后练什么」的课程逻辑;

  • 真实课堂中的学员交互数据。这也是最关键、最稀缺的一层学员的回答方式、犹豫与卡顿、追问与反馈,都被完整记录下来,形成高价值的实时互动样本。


三者共同构成一套「可运行的数字课堂」,也为后续模型训练提供了区别于传统题库与对话数据的核心养料:不仅知道教什么、怎么教,更知道该如何根据学员状态去教。


为补齐真实数据的稀缺与长尾问题,研发团队进一步引入了类似 AlphaGo 的自博弈机制:让「学员模拟器」与「AI 导师」在虚拟课堂中反复对弈,自生成千万级训练样本。


真实课堂每周数万小时的数据持续回流,驱动 SFT  RL 的高速迭代,形成一套稳定运转的数据飞轮。


最终,具备教学判断力的 AI 导师,得以在教学目标、教学路径、课堂交互与作业巩固上,实现真正意义上的个性化学习。


AI 导师从四个方面实现「个性化」施教:教学目标、路径、交互与作业巩固。

 

与爱为舞依靠真实的教学互动数据,通过数据飞轮,推动算法以周为单位迭代。目前已更新 20 多个版本,建立了业界首个在线一对一 AI 教学 Agent,全方位提升了教学效果。


1、持续优化互动频次,每节课 AI 导师都能与学员进行几十次的一对一互动,牢牢抓住学员的注意力。


2、持续优化互动质量,学员在一对一互动中的有效回答率提升到 95% 以上,说明学员的注意力得到显著提升。


3、持续优化个性化教学质量,通过个性化教学目标和个性化教学路径,将学员做题的准确率从不足 60% 提升到 83% ,部分课程正确率超过 95%,说明学员在集中精力学习之后,确实掌握了相关知识点。

 

重做「听说」:

上下文 ASR +流式 TTS + 全双工语音交互

 

在打磨「师魂」的同时,与爱为舞也在感知层完成了一次彻底重构。


原因并不复杂:教学本质上是一种高频互动行为,语音是所有交互的第一道门槛。老师听得准、反应快,学员才愿意继续说下去。


传统 ASR 只会「听写」,至于这句话是在教几何还是教英语,一概不知。于是,因环境嘈杂或学员口音,「four」被听成「for」,「D答案」被听成「第一答案」,「有理数」被听成「有礼数」也就不足为奇。


与爱为舞不再把 ASR 当作「听写」工具,而是把它升级为「课堂参与者」。自研多模态语音理解模型,在解码最底层引入教学语境约束,让「听」从一开始就带着教学目的。约束来自三方面:


  • 教学任务(Task):如当前正在攻克哪一个知识点?

  • 教学进度(Step):目前处于引入、练习还是总结阶段?

  • 学员画像(Persona):学员此前的错误分布和表达习惯。


由于上下文信息直接参与解码路径计算,模型在第一时间就能排除那些在纯语音层面「听起来合理」,但在教学逻辑上完全荒谬的候选结果,ASR 准确率从行业最好开放能力约 80% 左右提升至 95%+


除了「听懂」,AI 导师说话得有人味儿。因此,TTS 也被重做了一番。


自研流式 TTS 大模型将首字延迟压到 300ms 以内,通过语义/声学双 Speech Token + 强化学习联合优化,让语音能随语境动态调整节奏、重音与情绪——讲诗词会留白,讲推导会干净利落,甚至能用少样本快速对齐「名师腔」。


让我们一起听听下面这段音频,猜猜是真人还是 AI



听出来了吗?下面揭晓答案:短短 18 秒的音频,混合了 段真人音频和 段 AI ,是不是完全听不出来?


更关键的是,AI 导师还能被随时打断。通过全双工语音交互,结合流式语义 VAD 与打断拒识模型,实现真正意义上的边说边听,说话过程中即可识别学员插话,打断识别准确率 90%+


 

「肉身」进化:

数字人百 FPS 实时,不出戏

 

在课堂里,声音与「人」必须严格同步。多数数字人 Demo,十几秒足够惊艳,但一旦拉长到 40 多分钟课堂,就会迅速滑向「恐怖片」:


穿模、口型错位、动作僵硬、抖动、表情漂移、声音输出和其唇部动作之间存在明显延迟……


能稳稳 hold 住一整堂课的 AI 导师,对数字人技术提出了近乎苛刻的要求——极致的实时互动能力,以及长期一致性。围绕这些目标,与爱为舞的数字人系统开启了一次从 1.0  6.0 的疯狂进化。



一旦 AI 导师出现卡顿,学习心流就会瞬间崩溃。为了把实时性做到极致,他们先在架构上做了彻底解耦——引入 NeRF  3D Gaussian Splatting 建模,构建实时驱动框架,将口型、表情、身体动作分离建模;音频不再只是驱动嘴巴,而是在毫秒级联动微表情与姿态变化,让反应真正贴合课堂节奏。


再把性能推到百 FPS 级:系统不再「生成完再播放」,而是云端实时「存活」并持续输出;并实现无需训练的秒级生成,仅凭音频输入即可秒级生成高质量视频,内容生产从「提前制作」走向「实时发生」。


在「一致性」上,核心策略只有一个:锁定人格稳定性。


通过构建跨 ID 动作驱动体系,名师动作可稳定迁移;高精度骨骼提取保证复杂姿态下也不穿模、不崩坏,内容生产效率提升 5 倍。


图片

基于真人动作捕捉与骨架识别,将手势与姿态精准映射到虚拟导师,实现自然同步的数字人教学演示。


最新 6.0 架构进一步把语音、文本、动作、情绪与人物 ID 融合进统一多模态模型调度,即便 45 分钟情绪持续变化,外观一致性与动作分布依然自然如初,音素级口型同步也终于告别「永远对不上的嘴型」。


钢铁骨架:

万人并发,1–1.6s 即时响应

 

如果说,「师魂」决定教学逻辑,「皮囊」负责感知,那么,能规模化交付的底线只有两个字:不崩。这意味着高并发、低延迟


现实很残酷。传统方案一旦冲到万人并发,端到端延迟往往直接飙到 3 秒以上,交互体验断崖式下滑。而与爱为舞从零搭建的这套「 AI 课堂操作系统」,硬是把 ASR、教学决策、内容生成、TTS、数字人驱动到音视频推流的整条长链路,压缩到了 1.0–1.6 ——万人同时在线,依然做到即问即答


「爱学」如何真正跑起来?背后一整套工程系统,万人并发下还能实时上课的端到端 AI 教学架构图。

 

为了把时间一分一秒抠出来,他们做了几项工程改造。


第一刀,砍在 ASR。通过ASR 预判 + 并行执行,语音识别链路延迟被压到 100ms 级。


第二刀,打断意图秒识。基于历史先验的意图识别,判断学员是不是要插话、追问、纠错。整条打断链路,1.6 秒内闭环,不会让 AI 导师「慢半拍」。


第三刀,落在缓存体系,把「每问必算」改成「能不算就不算」。用 Prefill Cache 消灭重复计算,用语义 Cache 复用专家答案,真正把响应时间压到人感知不到的区间。


如果说延迟是体验底线,那成本就是商业底线。


数字人渲染,是典型的 GPU 吞噬型任务。如果一张 GPU 只能服务一两名学员,万人并发意味着服务器成本直接失控。


为此,他们一方面通过GPU 显存全共享,榨干单张 GPU 承载极限。另一方面,通过统一调度「大脑」而非模型堆叠,在万人并发下,对不同形象、不同语音素材进行毫秒级自动分配。


真正难的,其实在运营阶段。当系统跑起来,一万个学员就有一万个进度。学习路径高度碎片化,请求分布不可预测——这是任何 AI 教育系统的「噩梦」。


与爱为舞决定拆解「复杂性」——把教学拆成乐高积木一样的零件,原本「随心所欲」的交互,被重构为「按剧本执行」的自动化指令,复杂调度变得可预测、可收敛。


为对抗「意外中断」,系统还引入可重入(Re-entrant)机制,保证 AI 导师不会「断片儿」,随时恢复状态,陪你学。

 

在过去不到一年的时间里,像王佳佳这样的变化,并不只发生在安徽阜阳的一间书房。它出现在佳木斯的清晨,也出现在三沙的落日里。有人甚至死磕同一节课12 次、交互 585 次,从「不知道」走到「全部知道」。真人级 AI 导师正在为天南地北的孩子,持续规划各自独一无二的学习路径。


这不只是一次产品能力的展示,更是一种新范式的显形:AI 以导师的身份,进入真实、复杂、对结果高度敏感的学习现场,并稳定发挥作用。它也为中国AI Agent 的规模化落地,定义了一套清晰的范式,甚至走在了世界前列。


当知识的获取不再是刷题、排名与淘汰的赛跑,而是一段被理解、被引导、被尊重的旅程——学习这件事,永远值得投入,也永远值得期待。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


短期应试肯定是题海战术,但是长期发展肯定是授人以渔更好,不过就目前国内的教育现状来看,很难完全抛弃题海战术,感觉还是得两条腿走路。

医疗健康领域也有很大潜力!AI Agent可以辅助医生进行诊断、制定治疗方案、提供健康建议等等。但需要克服的挑战是,如何保证AI Agent的专业性和可靠性,毕竟人命关天,不能出现任何差错。

必须是“授人以渔”啊!考试的目的不是为了选拔“做题机器”,而是为了考察学生对知识的掌握程度和运用能力。如果只会刷题,遇到稍微变通一点的题目就不会了,那还怎么适应未来的社会发展?

取代?我觉得不会。数字人老师在知识传授、个性化辅导方面有优势,但真人老师的情感关怀、价值观引导是 AI 无法替代的。更可能的是,数字人老师作为辅助工具,帮助真人老师更好地开展教学工作。未来肯定会是人机协同教学的新模式。

说实话,我对这种做法有点担忧。教育的本质是启发和引导,而不是灌输和控制。如果 AI 导师完全按照剧本走,那学生就成了一个被动接受知识的容器,失去了思考和探索的乐趣。

我觉得应该让 AI 导师拥有一定的自主权,鼓励它去尝试不同的教学方法,甚至允许它犯一些错误。只有这样,AI 导师才能不断学习和成长,才能更好地服务于教育。

AI导师可以进行大规模的个性化数据分析,能更精准地定位学生的知识薄弱点,并据此调整教学策略,这比真人教师靠经验判断要靠谱得多。

比起真人,AI导师可以提供7x24小时的不间断服务,任何时候有问题都能立即得到解答,而且AI可以记录下所有的学习数据,方便学生回顾和总结,也方便老师了解学生的学习情况。这对于提高学习效率非常有帮助。

全双工语音交互真的很重要!想想我们平时和老师互动,如果老师不能及时回应我们的问题,或者总是打断我们,那学习体验肯定很差。AI导师能做到随时被打断,意味着它能更自然、更流畅地和学生交流,提升学生的参与感。

这种交互方式最大的问题可能是识别的准确率。如果AI导师经常误判学生的意图,或者听不懂学生的问题,就会导致交流中断,反而会降低学习效率。所以,需要不断优化语音识别和语义理解技术,确保AI导师能够准确理解学生的意图。

我觉得可以结合多种数据来源来判断学生的学习状态,比如学生的答题情况、提问频率、甚至是一些生理指标(如果条件允许)。然后,通过算法对这些数据进行综合分析,才能更准确地了解学生的学习状态。当然,保护学生的隐私也很重要。

最大的挑战应该是如何准确识别学生的情绪和理解程度。虽然现在有很多技术手段,比如面部识别、语音分析等等,但这些技术还不够成熟,可能会出现误判。如果AI导师错误地判断了学生的状态,就可能会导致教学效果下降。

我感觉这个有点像玩游戏,NPC能随时跟你对话,而不是像以前那样只能听完一段对话才能继续。这种即时性互动,能更沉浸式地学习。不过,AI的反应速度和理解能力要跟得上,不然就变成“人工智障”了,哈哈。

这就好比医生看病,不能只看检查报告,还要结合病人的主诉和医生的经验。AI导师也需要不断学习和积累经验,才能更准确地判断学生的学习状态。也许未来AI导师可以像老中医一样,一眼就能看出学生的“病根”在哪儿。

这个就好像武侠小说里的桥段,一开始都是模仿前辈高手,等基础扎实了,才能自创武功。AI导师也是一样,先学好基本功,然后才能结合自己的优势,搞出独门绝技。期待AI导师未来能青出于蓝而胜于蓝!

模仿名师的经验,可以理解为一种“知识蒸馏”,让AI快速掌握优秀的教学技巧。但AI的优势在于可以处理海量数据,发现人类难以察觉的规律。所以,AI导师最终应该超越模仿,创造出更个性化、更高效的教学方案。说不定以后AI教出来的学生,比名师教的还厉害呢!

我觉得一开始模仿名师是很好的策略,可以快速提升AI导师的教学水平。但是长期来看,如果AI导师一直模仿,那就失去了创新的机会。AI应该基于数据分析,找到更高效、更适合不同学生的教学方法,形成自己独特的教学风格。