Transformer 之外的新选择:前 OpenAI 研究 VP 创业,探索持续学习模型

前 OpenAI 研究 VP 创立 Core Automation,挑战 Transformer 架构,探索具备“持续学习”能力的新型 AI 模型。

原文标题:挑战Transformer,前OpenAI研究VP宣布创业,拟融资10亿美元

原文作者:机器之心

冷月清谈:

前 OpenAI 研究副总裁 Jerry Tworek 创立了新公司 Core Automation,计划融资 5 亿至 10 亿美元,旨在开发具备“持续学习”能力的新型 AI 模型,即能够从现实世界的实践中即时获取知识。这一理念与 Transformer 架构的创造者 Llion Jones 以及 Safe Superintelligence 等机构的研究方向不谋而合,他们都认为 AI 需要一场“彻底的变革”,目前的模型开发技术难以在生物、医学等领域取得重大突破,且无法根除 AI 犯低级错误的顽疾。Core Automation 计划通过构建全新的架构来取代 Transformer,并整合模型训练步骤,最终目标是实现工业自动化,甚至建造“自我复制工厂”。虽然当前主流的 Transformer 模型仍占据主导地位,但业内对 AI 新方向的探索热情高涨,多家初创公司获得了巨额融资。

怜星夜思:

1、Core Automation 提出的“持续学习”能力,如果真的实现了,会对我们现在的生活和工作带来哪些颠覆性的改变?
2、文章提到 Core Automation 计划使用的数据量比现有模型少 100 倍,你觉得这可能实现吗?如果实现了,对 AI 发展会带来什么影响?
3、文章最后提到 Core Automation 的远景目标包括建造“自我复制工厂”、研制自动生成定制设计的生物机器,甚至改造地外行星的生态。你觉得这些目标靠谱吗?

原文内容

图片
编辑|Panda


Transformer 是当前 LLM 大发展的核心基础,但也有不少顶尖研究者更愿意探索其它道路。在这其中,甚至包括 Transformer 的创造者之一、Sakana AI 创始人联创兼 CTO Llion Jones。他今天还在 Sakana 的官推上发了一篇博客,题目便赫然是《为什么 Transformer 的这位创造者受够了 Transformer》。


https://x.com/SakanaAILabs/status/2016844349188034922


「我不是说我们应该扔掉 Transformer。但就我个人而言, 我正在大幅减少研究它们的时间。我明确地在寻找下一个目标。」他写道,「让我们一起加大探索力度。别再纠缠于同一个地方,去寻找下一座高峰吧。」


也恰在今天,The Information 报道揭示了前 OpenAI 研究 VP Jerry Tworek 创立的一家正在探索「下一座高峰」的新创业公司 Core Automation


在效力 OpenAI 期间,Tworek 曾担任研究副总裁,负责强化学习领域的工作。此外,他还是 OpenAI 推理模型、编程工具和 AI 智能体开发的关键贡献者。


据知情人士透露,Core Automation 刚成立几周时间,目前正寻求 5 亿至 10 亿美元的融资。


报道说,根据向潜在投资者展示的材料,Tworek 计划采用一种与 OpenAI、Anthropic 等大厂截然不同的路径来开发 AI 模型。知情人士称,他希望打造具备持续学习」(Continual Learning)能力的模型,即能够从现实世界的实践中即时获取知识。而现有的 AI 模型尚不具备这种「边练边学」的能力。


目前,这位研究员的创业计划尚处于早期阶段,其融资规模和产品路径仍可能发生变动。如果成功,或许我们可将 Core Automation 与 Safe Superintelligence 和 Thinking Machines Lab 并称为探索非 Transformer 方向的「OpenAI 三子」


事实上,Core Automation 不是孤例,而是代表了业内一个规模虽小但日益壮大的群体。这些研究人员认为 AI 领域需要一场「彻底的变革」。


在他们看来,当前主流的模型开发技术虽然流行,但很难让 AI 在生物、医学等领域取得重大突破,且无法根除 AI 经常犯低级错误的顽疾。


据了解,Tworek 本月初离开 OpenAI,并在 X 上写道,此举是为了「探索那些在 OpenAI 内部难以推进的研究方向」。



在融资材料中,Core Automation 表示仍会使用大型神经网络 —— 这是当今前沿模型底层的数学基础。但公司将重新审视模型开发的每一个环节,甚至包括训练神经网络的最基本方法「梯度下降」(Gradient Descent)。


知情人士表示,Tworek 计划开发一种对数据量和计算资源需求更低的模型。他们将通过构建全新的架构来取代目前统治市场的 Transformer 架构。此外,Tworek 还希望将原本割裂的模型训练步骤整合为单一的流程。


Transformer 架构


在追求「续学」这一目标上,Core Automation 与另一家实验室 Safe Superintelligence(由前 OpenAI 首席科学家 Ilya Sutskever 共同创立)不谋而合。Sutskever 此前也表达过类似的愿景,即希望模型能够通过在现实世界中的部署来不断进化。此外,从 Meta 离职的 Yann LeCun 也在探索类似的方向。


当然,OpenAI 和 Anthropic 等巨头也并未忽视「持续学习」。


一些研究者认为,通过对现有基于 Transformer 的模型进行微调,同样可以实现类似的学习特性,而无需彻底推倒重来。


媒体表示,Tworek 宏大的融资目标反映了资本市场对「新实验室」的持续狂热。近几个月来,尽管许多此类公司尚无收入甚至没有产品,但动辄就能拿到数亿美元的投资。


例如:初创公司 Humans& 本月以 44.8 亿美元的估值拿下了 4.8 亿美元种子轮融资,投资者包括英伟达和贝佐斯;Mira Murati 的 Thinking Machines Lab 最近也在洽谈一笔 40 亿至 50 亿美元的融资,投后估值预计超过 500 亿美元。不过相比之下,Thinking Machines 进展更快,去年已推出了模型定制产品并产生了部分收入。


Tworek 早在 2019 年就加入了 OpenAI。在他的构想中,Core Automation 的研究团队将围绕一个名为「Ceres」(取自罗马谷物女神及矮行星之名)的单一算法和模型展开工作。这与主流厂商的做法大相径庭。通常,大型模型的训练会分为预训练(使用海量互联网数据)、中期训练和针对编程、医疗等领域的后期微调。


按照 Tworek 的目标,这款模型所需的数据量将比现有最先进模型少 100 倍


模型研发成功后,公司将开发 AI 智能体来自动化生产自己的产品。其远景规划首先是工业自动化,最终目标甚至包括建造「自我复制工厂」、研制自动生成定制设计的生物机器,乃至于改造地外行星的生态。


你看好这些新方向的探索吗?


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我感觉 Transformer 虽然强大,但它的参数量太大了,训练成本高得吓人。而且,它对数据的依赖性也很强,需要海量数据才能训练出一个不错的模型。像医疗、生物这种数据不好搞的领域,Transformer 可能就没那么好使了。

就像文章里说的,Transformer 可能在某些方面遇到了瓶颈,难以突破,所以才会有这么多人想另辟蹊径。

“持续学习”简直就是 AI 的圣杯啊!想想看,如果 AI 能够像人一样不断学习新东西,那它就能更好地适应变化的环境,解决各种复杂的问题。像自动驾驶,医疗诊断,金融分析,这些需要不断更新知识的领域,都会迎来质的飞跃!

从学术的角度来看,“持续学习”如果实现,意味着AI模型可以更好地适应动态变化的环境,而不需要像现在这样频繁地重新训练。这意味着模型可以更快地部署到新的应用场景中,例如,在医疗领域,AI可以根据患者的实时数据进行诊断和治疗方案的调整,从而提高治疗效果。此外,持续学习还可以帮助AI更好地理解人类的语言和行为,从而实现更自然的人机交互。

这些目标听起来像是科幻小说里的情节啊!建造“自我复制工厂”?这不就是《终结者》里的天网吗?改造地外行星的生态?这难度也太大了!不过,梦想还是要有的,万一实现了呢?也许几十年后,我们真的可以看到这些奇迹发生。当然,前提是我们要确保 AI 的发展是可控的,不要让 AI 变成人类的威胁。

这些目标并非完全不切实际,但实现难度极高。建造“自我复制工厂”涉及到机器人学、材料科学、控制理论等多个领域的突破。研制自动生成定制设计的生物机器则需要对生物学、遗传工程等领域有深入的理解。改造地外行星的生态更是需要考虑到行星环境、生命科学等复杂因素。这些目标代表了人类对未来的美好愿景,也需要我们在科技发展的同时,关注伦理和社会责任。

我觉得吧,最直接的影响就是我们的学习方式要变了。现在我们是先学知识,再用知识。以后可能就是直接上手干,AI在旁边实时指导,就像一个超级厉害的师傅一样。想想都觉得刺激!不过,也有点担心,会不会让我们变得越来越依赖AI,失去了独立思考的能力?

哇,这个问题很有意思!如果AI真的能像人一样边做边学,那很多需要重复性劳动的工作可能就真的要被取代了。比如,流水线工人、客服等等。但是,也会创造出更多新的岗位,比如AI训练师、AI系统维护员等等。另一方面,教育方式也会发生改变,学校可能不再是学习知识的主要场所,更多的是培养学生的思考能力和创新能力。细思极恐啊!

减少 100 倍的数据量?这听起来有点像天方夜谭啊!现在的模型都是靠海量数据喂出来的,数据量少了,效果肯定会打折扣吧?不过,如果他们真的能找到一种更高效的算法,也许就能用少量的数据达到同样的效果。如果真的实现了,那就能大大降低 AI 的训练成本,让更多的企业和个人都能用得起 AI。这样一来,AI 就能更快地普及到各行各业了。

从理论上讲,这是有可能的。目前很多研究都在探索如何提高数据的利用率,例如,通过知识蒸馏、迁移学习等方法,可以将大型模型的知识迁移到小型模型中,从而在少量数据上也能获得较好的效果。此外,如果 Core Automation 能够开发出一种更强大的模型架构,也许就能更好地利用数据中的信息,从而减少对数据量的依赖。当然,这也需要解决很多技术难题,例如如何避免过拟合、如何保证模型的泛化能力等等。

我觉得这些目标就像是挂在驴子面前的胡萝卜,用来激励研究人员不断前进。虽然这些目标可能遥不可及,但正是这些看似不可能的目标,推动着科技的进步。也许最终我们无法完全实现这些目标,但在追求这些目标的过程中,我们会发现许多新的技术和知识,从而改变我们的世界。

我觉得这事儿有点像炼丹。现在大家都在追求“大力出奇迹”,觉得数据越多越好。但是,真正的炼丹高手,可能只需要几味关键的药材,就能炼出绝世神丹。Core Automation 也许就是想找到这几味“药材”,用最少的数据,发挥最大的效果。如果他们成功了,那就是 AI 界的“四两拨千斤”啊!