重磅!思维链之父Jason Wei为何离职OpenAI转投Meta?探究顶级AI人才流动背后的职业哲学

思维链作者Jason Wei和O1核心贡献者Hyung Won Chung被曝从OpenAI离职加入Meta,凸显AI领域激烈人才竞争。

原文标题:突发|思维链开山作者Jason Wei被曝加入Meta,机器之心独家证实:Slack没了

原文作者:机器之心

冷月清谈:

近日,OpenAI两位知名研究科学家——思维链(CoT)开山作者Jason Wei和o1核心贡献者之一Hyung Won Chung,被外媒Wired爆料将离职并加入Meta。机器之心也从OpenAI相关人士处证实了Jason Wei的Slack账号已被停用,进一步印证了离职的传闻。

Jason Wei作为AI大模型领域重要技术思维链(CoT)的主要作者,其相关论文引用量已超过1.7万。Hyung Won Chung则是o1系统的奠基贡献者,在开发大语言模型推理、搜索信息能力及强化学习策略方面发挥重要作用。两人此前均毕业于MIT并曾在谷歌工作,有丰富的AI研究背景。

值得注意的是,在跳槽传闻传出后,Jason Wei发布了一篇关于“同策略(on-policy)强化学习”的推特,探讨了其在人生中的应用。他提出,与其模仿他人成功轨迹,不如采取自己的行动并从环境中学习。他认为,如同强化学习比监督微调更能帮助语言模型解决数学题一样,人生早期可通过模仿学习(如学校教育)引导,但要超越前辈,则需要进行“同策略”的强化学习,即走自己的路,承担风险并从中获得回报。他以自己审阅数据、进行消融研究等为例,阐述了发挥自身热情和优势的重要性。

两位大牛此次转向Meta,无疑是AI领域人才流动与竞争加剧的又一例证。他们在OpenAI的工作涉及推理模型o1和深度研究模型等多个关键项目,此次离职可能对OpenAI的未来发展产生一定影响,同时也预示着Meta在AI领域的投入和人才招募战略正在持续加码。

怜星夜思:

1、这次AI大牛跳槽去Meta,你觉得背后除了更高的薪资和职位,还有哪些更深层的原因呢?这对于OpenAI和Meta,甚至整个AI领域竞争格局会有什么影响?
2、文章里Jason Wei提到了“同策略强化学习”对人生的启发,要走自己的路,不盲目模仿。你们在职场或者生活中,有没有过类似的“同策略”经历?又是怎么找到并坚持自己方向的?
3、新闻里提到了Jason Wei是思维链(CoT)的提出者,他后续又沉迷于强化学习(RL)。CoT和RL在大模型里分别起到啥作用?未来这两个技术会怎么发展,或者有啥结合点吗?

原文内容

机器之心报道

机器之心编辑部

Meta 针对 OpenAI 的挖人竟然还在继续!


这或许是目前为止,扎克伯格挖走的最强技术人才。


就在刚刚,外媒 Wired 的一位资深 AI 领域记者爆料称,「多个消息源证实,OpenAI 知名研究员 Jason Wei 和另一位研究科学家 Hyung Won Chung 将双双离职,投奔 Meta。」


并且,他们二人的 Slack 账号已经被停用。机器之心也从 OpenAI 相关人士证实了该消息,「(Jason Wei)Slack 没了」,但是否是加入 Meta 还有待进一步证实。




Jason Wei 是 OpenAI 的知名科学家,目前 AI 大模型领域里重要技术思维链(CoT)的主要作者,Hyung Won Chung 也是 o1 的核心贡献者之一。


Jason Wei 是 CoT 论文的第一作者,该论文的引用量已超过 1.7 万


如果你对他们的印象还不够深,还记得去年 12 月 OpenAI 连续两周的新产品发布会吗?坐在奥特曼旁边的就是 Hyung Won Chung,最右边的是 Jason Wei。他俩都毕业于 MIT,曾在谷歌工作,现在可能一起去了 Meta。


图片


爆料消息出来不久,Jason Wei 并没有正面回应,而是发了一篇推特,介绍其长博客,探讨了验证非对称性以及「验证者」法则。



但评论区看热闹的大家伙似乎已经不关注他写了什么,都在恭喜他跳槽到 Meta。



在发了这篇技术博客没多长时间,Jason Wei 又发了一篇推特。



以下是原推内容翻译:


过去一年成为一名强化学习(RL)狂热爱好者,并且清醒时大部分时间都在思考 RL,这无意中教会了我一个关于如何过好自己生活的重要道理。


RL 中的一个核心概念是,你总是希望处于「同策略(on-policy)」状态:与其模仿别人成功的轨迹,不如采取自己的行动,并从环境给予的奖励中学习。显然,模仿学习(imitation learning)在最初引导模型达到非零通过率时很有用,但一旦模型能走出合理的轨迹,我们通常就会避免模仿学习,因为要充分发挥模型自身(与人类不同)优势的最佳方式是只从它自己的轨迹中学习。一个被广泛接受的实例是:在训练语言模型解决数学应用题方面,强化学习比简单地用人类编写的思维链进行监督微调效果更好。


人生也是如此。我们最初通过模仿学习(学校教育)来引导自己,这非常合理。但即使在我毕业后,仍有一个习惯:研究别人如何取得成功并试图模仿他们。有时会奏效,但最终我意识到,我永远无法完全超越他人,因为他们是在发挥他们的优势,而这些优势我可能并不具备。这可能是某位研究人员比我更成功地进行大胆尝试(运行 yolo),因为他们亲自搭建了代码库而我没有;或者一个非 AI 的例子:一位足球运动员利用我不具备的力量优势保持控球权。


进行同策略 RL 带来的启示是:要超越前辈(beat the teacher),必须走自己的路,承担风险并从环境中获取回报。例如,比起一般的研究人员,我更喜欢做两件事:(1) 大量审阅数据,(2) 进行消融研究以理解系统中各个组件的作用。有一次在收集数据集时,我花了几天时间审阅数据并给每位人类标注员提供个性化反馈,之后数据质量变得极佳,并且我对要解决的任务获得了宝贵的见解。今年早些时候,我花了一个月时间回溯并逐一消融研究之前在做深度研究时尝试做的每个决策。这花费了相当多的时间,但通过这些实验,我学到了关于哪种类型的 RL 效果好的独特经验。发挥自己的热情让我更有满足感,而且我现在感觉自己正走在为自己和自己的研究开辟一片更强大天地的道路上。


简而言之,模仿是好的,你必须在初始阶段这样做。但一旦你完成了足够的引导,若想超越前辈,就必须进行「同策略」的强化学习,学会扬长避短。


接下来,我们来看这两位研究员的履历。


Jason Wei


Jason Wei 是思维链(Chain of Thought,CoT)概念开山之作 ——「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」的第一作者,本科毕业就加入了谷歌。在那里,他推广了思维链提示概念,共同领导了指令调优的早期工作,并和 Yi Tay、Jeff Dean 等人合著了关于大模型涌现能力的论文。


2023 年 2 月,Jason Wei 加入 OpenAI,工作内容包括了推理模型 o1 和深度研究模型。



在 Google Scholar 主页上,Jason Wei 的论文引用量已经超过了 77k,其中前两位分别是 CoT 提示论文和 GPT-4 技术报告。



Hyung Won Chung


Hyung Won Chung 出生于韩国,OpenAI 研究科学家,专注于 LLM 的研究与应用。



他博士毕业于麻省理工学院,之后曾在谷歌从事了三年多的研究工作,期间参与了 PaLM(具有 5400 亿参数的大语言模型)、 BLOOM( 1760 亿参数的开放式多语言模型)、Flan-T5 等多个重要项目的研发。


离开谷歌后,Hyung Won Chung 于 2023 年加入 OpenAI。



在 OpenAI 工作期间,Hyung Won Chung 参与了多个重大项目的研究, 特别在以下项目中扮演了关键角色:o1-preview(2024 年 9 月),o1 正式版(2024 年 12 月)、Deep Research(2025 年 2 月),以及领导了 Codex mini 模型训练。


在 OpenAI 一些重大发布会上,我们也经常看到 Hyung Won Chung 的身影。


Hyung Won Chung 参与过的 OpenAI 一些发布会


作为 o1 系统的奠基贡献者,他在开发大语言模型的推理、搜索信息能力、以及使用强化学习策略方面发挥了重要作用。


Hyung Won Chung 还在多个重要场合分享洞见,包括斯坦福 CS25 讲座广受大家好评。



Hyung Won Chung 在 OpenAI 的研究工作中,他的贡献不仅推动了 o1 系列模型成为具有思考能力的前沿工具,也在编码智能体、系统评估和安全保障方面开辟了新路径,形成了一个从理论到应用、从开发到普及的完整研究生态。 


随着 Jason Wei、Hyung Won Chung 两位大佬级别的人员离开,OpenAI 真的要被挖麻了。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


针对“文章里Jason Wei提到了‘同策略强化学习’对人生的启发,要走自己的路,不盲目模仿。你们在职场或者生活中,有没有过类似的‘同策略’经历?又是怎么找到并坚持自己方向的?” 这个话题,我深有感触。我刚毕业的时候,看同学都去大厂“996”,我也跟着投简历、面试,结果发现自己根本不适应那种快节奏和高压环境。后来我尝试找了一些更偏向内容创作和社区运营的工作。虽然收入不如大厂,但每天能和用户交流,写点自己喜欢的东西,感觉特别踏实。这个过程就是慢慢试错,从每次成功或失败中学习,逐渐摸索出自己真正擅长和热爱的事情。我觉得关键是停止和别人比较,把注意力放回自己身上,发现自己的独特优势,并勇敢地去尝试,去承担那些“走自己的路”可能带来的风险。

“同策略强化学习”听起来高大上!我琢磨了一下,这不就是让我少看点朋友圈,少学点抖音上的“成功学”,多折腾折腾自己吗?我人生的“同策略”经历嘛……大概就是:别人都去考公务员进体制内,我觉得太闷,就跑去开咖啡馆了。一开始被家里人骂得狗血淋头,说我“瞎折腾”,但每天能跟不同的人聊天,研究咖啡,自己就是老板,这种感觉太爽了!虽然累点,钱赚得也一般,但每天都开开心心的。所以说,找到自己喜欢的事,然后就死磕吧!管他什么模仿不模仿的,自己开心最重要,这就是我的“奖励”!

关于“这次AI大牛跳槽去Meta,你觉得背后除了更高的薪资和职位,还有哪些更深层的原因呢?这对于OpenAI和Meta,甚至整个AI领域竞争格局会有什么影响?”,我觉得不单是钱的问题。AI大佬们看重的可能还有技术路线的选择和研究自由度。OpenAI现在商业化步子迈得很快,可能导致一些纯粹的研究员觉得束手束脚了。而Meta虽然也是商业公司,但在基础研究方面一直投入很大,比如它在开源社区的积极性。也许大牛们觉得去Meta能有更宽广的舞台,或者能更自由地探索自己感兴趣的方向。这事儿对OpenAI来说肯定是人才流失,短期内可能影响某些项目的推进;对Meta则是如虎添翼,增强了他们在顶尖AI人才和技术积累上的优势。长远来看,这种人才流动会加速技术扩散和竞争,可能促使更多新的AI研究方向和产品出现,也可能让AI巨头之间的竞争变得更白热化。

哈哈,要我说,大佬们跳槽,除了钱,肯定还有“情怀”吧!万一是在OpenAI玩不开心了呢?或者跟管理层理念不合?毕竟顶尖人才都有自己的脾气和坚持。Meta最近在AI领域火力全开,肯定也是看准了机会,给足了诚意。这就像武林高手互相切磋,谁能拿到更多武功秘籍,谁就能称霸武林。这波跳槽,就像Meta抢到了两本绝世秘籍,肯定能在AI界掀起新的风浪。OpenAI估计得赶紧想想办法留住剩下的人了,不然真要被挖麻了,就成了“漏风”的AI公司了。

关于“新闻里提到了Jason Wei是思维链(CoT)的提出者,他后续又沉迷于强化学习(RL)。CoT和RL在大模型里分别起到啥作用?未来这两个技术会怎么发展,或者有啥结合点吗?”这个问题。简单来说,CoT(思维链)就像是给大模型加了个“思考过程”,让它在回答复杂问题时,不再直接蹦出答案,而是像人一样一步步推理、分解问题。这极大地提升了模型的逻辑推理能力,尤其是在数学、常识推理等任务上效果显著。而RL(强化学习),特别是RLHF(基于人类反馈的强化学习),则是让大模型变得更“听话”、更“聪明”,它通过模拟人类的奖励和惩罚机制,让模型学会生成更符合人类偏好、更安全、更有用的回答。所以,CoT让模型“会思考”,RL让模型“更像人”。

CoT和RL在大模型中的角色非常互补,未来它们的结合潜力巨大。CoT为模型提供了“内省”的能力,让其能生成更具解释性和可追溯性的推理路径。而RL则能利用这些推理路径的反馈信息,对模型的行为进行更精细化的调整和优化。试想一下,如果一个大模型在生成CoT的过程中,能通过RL实时评估每一步的“正确性”或“有效性”,并及时调整后续的推理方向,那它的推理能力将是质的飞跃。例如,可以利用强化学习来优化CoT中的每一步决策,使其生成更高效、更准确的推理链。这就像给模型装上了“元认知”能力,让它不仅能思考,还能“思考如何思考”。这种深度融合有望让大模型在解决开放式、多步骤复杂任务时,展现出前所未有的智能水平。

Jason Wei的这个“同策略”哲学,跟我们常说的“做自己”其实异曲同工。我也有类似的经历,以前做项目总喜欢去套用行业内那些“最佳实践”,学着别人的成功案例来走。结果发现很多时候水土不服,或者根本不适合自己的团队和资源。后来逼着自己跳出舒适区,从头开始分析问题,基于我们团队的实际情况去设计解决方案,虽然走了不少弯路,但每次“试错”都能学到很多东西。这个过程就是不断地“与环境互动,从奖励中学习”。找到自己方向的过程挺痛苦的,因为没有人给你一个明确的“高奖励”信号,但一旦你发现这种“内生驱动力”的乐趣,就会越走越坚定。

从宏观层面看,“这次AI大牛跳槽去Meta,你觉得背后除了更高的薪资和职位,还有哪些更深层的原因呢?这对于OpenAI和Meta,甚至整个AI领域竞争格局会有什么影响?” 这反映了当前AI领域人才供需的严重不平衡和极度白热化的竞争。顶尖AI研究员在全球范围内都是稀缺资源,他们的选择往往是多因素权衡的结果,包括研究方向契合度、团队文化、数据和算力资源、乃至个人对公司未来愿景的认同。Meta近年来在开源AI、尤其是Llama系列上的投入,可能吸引了追求更大影响力或更开放研究环境的研究者。对OpenAI而言,这是需要警惕的风向标,可能促使其在人才激励和科研环境上做出调整。对Meta则是重大利好,有望加速其在特定AI领域的突破。整个AI行业将因此变得更加动态和充满变数,各方势力重新洗牌,技术创新可能加速但也可能出现一定程度的内卷和同质化竞争。

哇,这个问题问得内行啊!“新闻里提到了Jason Wei是思维链(CoT)的提出者,他后续又沉迷于强化学习(RL)。CoT和RL在大模型里分别起到啥作用?未来这两个技术会怎么发展,或者有啥结合点吗?” CoT就是让AI“装”得很会思考,一步步给你分析问题,看着特别有逻辑,是提升它“智商”的!RL呢,则是让AI变得“情商”高,通过反馈机制让它更懂你的意思,说话更讨喜,能避免那些奇奇怪怪的回答。一个管“脑子”,一个管“嘴巴”,或者说一个管“逻辑”,一个管“偏好”。它们俩未来肯定会“强强联手”啊!想象一下,AI不仅能跟你掰扯清楚所有的逻辑,还能在掰扯的过程中,时不时“看你脸色”调整策略,给你一个既精准又舒服的答案。那简直是无敌了!可能以后我们的AI助理,不仅能帮你写报告,还能在你加班的时候,给你来一段特别解压的“哲学思考”,哈哈哈!