扩散模型新突破:Inception Labs推出商业级dLLM,编程速度提升显著

Inception Labs推出商业级扩散LLM——Mercury,编程速度大幅提升,效率更高,或将革新AI应用。

原文标题:不要自回归!扩散模型作者创业,首个商业级扩散LLM来了,编程秒出结果

原文作者:数据派THU

冷月清谈:

Inception Labs推出首个商业级扩散大型语言模型(dLLM)Mercury,该模型由扩散模型发明者之一Stefano Ermon联合创立的公司打造。Mercury在NVIDIA H100上运行速度超过1000 token/秒,性能媲美甚至超越现有速度优化的LLM。与自回归模型逐个生成token的方式不同,dLLM采用“从粗到细”的生成方式,通过并行修改多个token来提高答案质量,从而显著提高速度并降低推理成本。其编程模型Mercury Coder在标准编码基准测试中表现出色,超越了GPT-4o Mini和Claude 3.5 Haiku等模型,且速度提升高达10倍。该模型已上线试用,并提供API和内部部署服务,预示着扩散模型在文本和代码领域的巨大潜力。

怜星夜思:

1、扩散模型在文本生成方面的主要优势是什么?为什么之前自回归模型更受欢迎?
2、Mercury Coder在编程任务上的速度优势,是否意味着所有类型的代码生成任务都更适合使用扩散模型?
3、Inception Labs的Mercury模型商业化前景如何?它可能会对现有的LLM市场格局产生什么影响?

原文内容

来源:机器之心
本文约2200字,建议阅读5分钟
本文介绍首个商业级扩散LLM,编程秒出结果。


当前的 AI 领域,可以说 Transformer 与扩散模型是最热门的模型架构。也因此,有不少研究团队都在尝试将这两种架构融合到一起,以两者之长探索新一代的模型范式,比如我们之前报道过的 LLaDA。不过,之前这些成果都还只是研究探索,并未真正实现大规模应用。


近期,首个商业级扩散大型语言模型(dLLM)来了!该模型名为 Mercury,其表现非常卓越,在英伟达 H100 上能以每秒超过 1000 token 的速度运行,同时性能也并不比现有的经过速度优化的 LLM 差。



下面是官方展示的一个对比示例。让一个自回归 LLM 与 Mercury 编写一个 LLM 推理函数。自回归模型迭代了 75 次,而这个 dLLM 却仅迭代了 14 次就完成了任务,速度要快得多。


图片


打造 Mercury 系列模型的是一家创业公司,名为 Inception Labs,该公司的创始人之一 Stefano Ermon 实际上也正是扩散模型(diffusion model)的发明者之一,同时他也是 FlashAttention 原始论文的作者之一。Aditya Grover 和 Volodymyr Kuleshov 皆博士毕业于斯坦福大学,后分别在加利福尼亚大学洛杉矶分校和康乃尔大学任计算机科学教授。



Inception Labs 今天发布的 Mercury 具有巨大的性能和效率优势,据 Kuleshov 推文介绍,基于来自 MidJourney 和 Sora 等图像和视频生成系统的灵感,该公司为 Mercury 引入了一种新的语言生成方法。相比于现有的 LLM,这种方法的运行效率显著更高(速度更快、成本更低),并且还可将推理成本降低 10 倍。


性能表现上,Mercury 系列中的编程模型 Mercury Coder 可比肩 Claude Haiku 和 GPT4o-mini 等针对速度指标优化过的前沿模型。但是,它的硬件效率要高得多,因为它使用了利用 GPU 的并行生成机制。这使得模型能以远远更快的速度和更低的成本运行(可以在同样的硬件上为更多用户提供服务)。



目前 Mercury Coder  已上线,可公开试用。该公司表示还可为企业用户提供代码和通用模型的 API 和内部部署服务。


试用地址:https://chat.inceptionlabs.ai


如此高效且达到商业级的新型语言模型自然吸引了不少关注,著名 AI 研究科学家 Andrej Karpathy 发帖阐述了这项成果的意义。他表示,不同传统的自回归 LLM(即从左到右预测 token),扩散模型是一次性向所有方向进行预测 —— 从噪声开始,逐渐去噪成 token 流。虽然之前的研究似乎表明文本好像更适合自回归范式,而扩散模型更适合图像与视频,但业界对此其实并没有定论。而这项研究更进一步表明,扩散模型在文本模态上也具有极大的潜力。



下面我们就来看看 Mercury 究竟是怎么打造的及其实际表现。


让扩散模型驱动下一代 LLM


当前的 LLM 都是自回归模型,也就是说它们是从左到右生成文本,一次生成一个 token。


这种生成过程本质上是顺序式的 —— 在生成某个 token 之前,必须先生成它之前的所有文本。而每个 token 的生成都需要评估一个包含数十亿参数的神经网络。前沿的 LLM 公司正在研究通过测试时计算来提高模型的推理和纠错能力,但生成长推理轨迹的代价是推理成本的急剧上升和更长的延迟。为了使高质量的 AI 解决方案真正普及,需要进行范式转变。


而扩散模型提供了这样的范式转变。


扩散模型的生成过程是「从粗到细」,即输出是从纯噪声开始的,然后通过一系列「去噪」步骤逐步细化。


由于扩散模型不受到仅考虑之前输出的限制,因此它们在推理和结构化响应方面表现更好。而且,由于扩散模型可以不断细化其输出,它们能够纠正错误和幻觉。因此,扩散模型是当前所有主要的视频、图像和音频领域的生成式 AI 的基础,包括 Sora、Midjourney 和 Riffusion。然而,扩散模型在文本和代码等离散数据上的应用从未成功过。而现在,情况变了。


Mercury Coder:每秒 1000+ Tokens


Mercury Coder 是 Inception Labs 向公众开放的第一个 dLLM。


它将 AI 能力推向了另一个高度:比当前一代的语言模型快 5 到 10 倍,并能够以低成本提供高质量的响应。


dLLM 作为典型自回归 LLM 的直接替代品,其支持很多用例,包括 RAG、工具使用和智能体工作流。


其工作流程是这样的,当接收到查询提示时,它并不是逐 token 生成答案,而是以「从粗到细」的方式生成。对答案的改进是由一个神经网络提供 —— 在文章示例中是一个 Transformer 模型 —— 在大量数据上进行了训练,并通过并行修改多个 token 来提高答案的质量。


Mercury Coder 性能非常出色,在标准编码基准测试中,Mercury Coder 超越了像 GPT-4o Mini 和 Claude 3.5 Haiku 这样的自回归模型,而这些模型专为速度进行过优化,同时速度还提高了多达 10 倍。



dLLM 的突出特点在于其速度。


即使是经过速度优化的自回归模型最多也只能达到每秒 200 个 token,但是该研究可以在商用的 NVIDIA H100 上以每秒超过 1000 个 token 的速度提供服务。与一些前沿模型相比,这些模型的运行速度可能还不到每秒 50 个 token,dLLM 提供的加速超过了 20 倍。


dLLM 这样的高吞吐量以前只能使用专门的硬件来实现,比如 Groq、Cerebras 和 SambaNova。现在算法改进也跟上了硬件进步,并且在更快的芯片上,加速效果会更加显著。


下图为 Mercury Coder 在 NVIDIA H100 上实现了每秒超过 1000 个 token 的处理速度。这意味着即使在没有使用专用芯片的情况下,dLLM 也能达到极快的生成速度!


速度比较;每秒输出 token


Mercury Coder 能以极高的速度达到相当高的编程指数,注意这里仅有 Small 和 Mini 版的数据


除了速度,Mercury 的代码补全功能也非常出色。在 Copilot Arena 上进行基准测试时,Mercury Coder Mini 并列第二,超过了 GPT-4o Mini 和 Gemini-1.5-Flash 等模型性能,甚至超过了 GPT-4o 等更大的模型。同时,它也是速度最快的模型,比 GPT-4o Mini 快约 4 倍。



我们也做了一些简单的尝试,速度果真是超级快!


提示词:Write a solar system simulator that rotates(写一个旋转的太阳系模拟器)


可以看到,Mercury Coder 几乎眨眼之间就完成了所有代码的编写,并还附赠了相关说明。


图片
未编辑的实测速度


运行看看效果,有一个 RED 参数未定义的报错,简单修正后即可运行。可以说是超出预料了。


图片


虽然目前 Inception Labs 只发布了 Mercury Coder 模型,但着实让人开始期待起来了呢。


参考链接:
https://www.inceptionlabs.ai/news
https://x.com/karpathy/status/1894923254864978091
https://x.com/volokuleshov/status/1894852582075703509

编辑:于腾凯
校对:林亦霖


关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

商业化前景取决于很多因素,包括模型性能、易用性、定价策略、市场推广等等。如果Mercury能够在实际应用中证明其优势,并解决一些潜在问题(比如生成代码的可靠性和安全性),那么它很有可能在LLM市场中获得一定的份额。但要颠覆整个市场格局,还需要更多的努力和创新。此外,监管政策和伦理考量也会对Mercury的商业化产生影响。

谢邀,个人认为自回归模型更符合人类写作习惯,更易于控制文本的连贯性和逻辑性。扩散模型更像是“先有结果,再逐步细化”,这种方式在图像生成等领域效果显著,但在文本生成方面可能需要更精细的算法和训练才能保证质量。此外,自回归模型在长文本生成和对话系统方面已经有很多成熟的应用,而扩散模型在这方面的应用还有待探索。

Mercury的商业化前景相当乐观啊!速度快、成本低,对于需要大量token生成的应用场景(比如代码补全、RAG)来说,吸引力巨大。如果Inception Labs能持续优化模型性能,并提供稳定可靠的API服务,很有可能在LLM市场中占据一席之地,甚至颠覆现有格局。毕竟,谁不喜欢又快又好的东西呢?

自回归模型胜在起步早,技术积累深厚,而且在理解上下文方面有天然优势。扩散模型虽然现在看起来潜力巨大,但文本生成领域的研究相对较少,之前大家都觉得扩散模型更适合图像这种连续性数据。但Inception Labs的成果证明Diffusion Model在文本上也有搞头,而且性能出乎意料地好,期待后续发展!

扩散模型在编程任务上的应用还处于早期阶段,我们需要更多的数据和实验来评估其在不同类型代码生成任务中的表现。虽然Mercury Coder展现出了令人印象深刻的速度优势,但我们不能简单地认为它适用于所有场景。代码生成任务的复杂性各不相同,需要根据具体情况选择合适的模型。未来,我们需要关注扩散模型在代码质量、可维护性和安全性等方面的表现,才能更全面地评估其价值。

目前来看,Mercury Coder在特定编码基准测试中表现出色,速度优势明显,但并不意味着所有代码生成任务都适合扩散模型。例如,对于需要高度精确和逻辑严密的代码(比如操作系统内核),自回归模型可能更可靠。扩散模型可能更适合处理创意性、容错率较高的编程任务,比如快速原型设计和AI辅助编程。最终选择哪种模型,还是要看具体任务和需求。

扩散模型的主要优势在于其“从粗到细”的生成方式,可以并行处理多个token,从而大大提高生成速度和推理效率。而之前的自回归模型由于其从左到右的生成方式,更符合人类的文本阅读习惯,且在早期技术发展阶段更容易实现。简单来说,以前是觉得文本就该按顺序写,现在发现也不是不行,换个思路性能还能提升!

我觉得要看情况。扩散模型适合并行处理,可能在生成框架代码或者一些模式化的东西上有优势,速度快,节省时间。但是,如果需要精细控制代码逻辑,或者有大量的依赖关系,自回归模型可能更稳妥。毕竟现在Mercury Coder主要展示的是速度优势,还没有看到在复杂项目中的表现。

我觉得Mercury的出现可能会逼着其他LLM厂商加速技术创新,尤其是在推理效率方面。如果扩散模型真的能大规模降低成本,那对整个行业都是好事,可以降低AI应用门槛,让更多人能用得起高质量的AI服务。当然,Inception Labs也面临挑战,比如如何建立完善的生态系统,吸引开发者,以及应对潜在的竞争对手。