DeepSeek开源推理引擎,OpenAI发布周将至,AI领域新动态

DeepSeek开源推理引擎,OpenAI开启发布周,或将发布多款模型及智能体软件工程师,AI领域迎来新进展。

原文标题:刚刚,DeepSeek公布了推理引擎开源路径,OpenAI也将开始连续一周发布

原文作者:机器之心

冷月清谈:

DeepSeek宣布开源其内部推理引擎,尽管面临代码库差异和基础设施依赖等挑战,DeepSeek选择与现有开源项目合作,提取功能模块并共享优化方案,以回馈开源社区。同时,OpenAI也宣布将开始一轮发布周,引发了关于可能发布的新模型和产品的猜测,包括o3、o4-mini、GPT-4.1系列模型,甚至可能开源与DeepSeek-R1比肩的模型。此外,OpenAI还在开发智能体软件工程师(A-SWE),旨在实现自主完成软件开发任务。这些进展预示着AI领域新一轮的技术发展和开源合作。

怜星夜思:

1、DeepSeek选择以合作而非完全开源的方式发布推理引擎,你认为这种策略的优劣势分别是什么?对于其他公司是否有借鉴意义?
2、OpenAI 发布周预告了多个模型,你最期待哪个?为什么?你认为哪个模型会对现有市场格局产生最大影响?
3、OpenAI 正在开发的智能体软件工程师 (A-SWE) 如果真的能够实现,会对软件开发行业带来哪些颠覆?你认为程序员会被取代吗?

原文内容

机器之心报道

编辑:Panda


今天下午,DeepSeek 默默地在自己的 open-infra-index 库中发布了一份题为「开源 DeepSeek 推理引擎的路径」的文档,宣布将开源自己的内部推理引擎(internal inference engine)并与开源社区建立更广泛的合作。有意思的是,该文档发布之后不久就经历了两次修改,对一些措辞和表述进行了更加中立和宽泛的处理。



在其中一次修改中,DeepSeek 提到了与 SGLang 和 vLLM 项目的合作关系,但这两个具体的项目名称在新版本中被替换成了「现有的开源项目」。修改原因是为了强调「未来的开源合作是面向整个开源社区的,不局限于具体某些项目。」因此,DeepSeek 与 SGLang 和 vLLM 这两大开源项目的合作关系应该是已经确定了。


图片


不得不说,DeepSeek 非常 GOAT(Greatest of All Time)!



而就在不久前,Sam Altman 才宣布 OpenAI 将开始一轮发布周。犹记得上一次,在 OpenAI 一连 12 个工作日的连续发布中,o1 满血版、Sora、强化微调技术、Canvas 更新、o3-mini 等产品和服务纷纷问世。不知道,这一次,OpenAI 又将发布什么东西?



事实上,各路网友已经开始根据各种草蛇灰线的线索开始猜测这一周将会发布的东西了。说实在的,有一些颇具说服力,而且还有证据。


下面我们首先将介绍「开源 DeepSeek 推理引擎的路径」,然后将简单盘点一番网友对 OpenAI 这周发布内容的预测。


开源 DeepSeek 推理引擎的路径



文档地址:https://github.com/deepseek-ai/open-infra-index/blob/main/OpenSourcing_DeepSeek_Inference_Engine/README.md


以下为 DeepSeek 发布的文档的原文译本:


几周前,在开源周期间,我们开源了多个库。社区的反响非常积极 —— 激发了鼓舞人心的合作、富有成效的讨论以及宝贵的错误修复。受此鼓舞,我们决定更进一步:将我们的内部推理引擎回馈给开源社区


我们非常感谢开源生态系统,没有它,我们不可能在通用人工智能 (AGI) 方面取得进展。我们的训练框架依赖于 PyTorch,我们的推理引擎基于 vLLM,这两者都对加速 DeepSeek 模型的训练和部署起到了重要作用。


鉴于部署 DeepSeek-V3 和 DeepSeek-R1 等模型的需求日益增长,我们希望尽己所能回馈社区。在我们起初考虑将完整的内部推理引擎开源时,我们发现了一些挑战:


  • 代码库差异:我们的引擎基于 vLLM 一年多前的一个早期分支。虽然结构相似,但我们针对 DeepSeek 模型对其进行了大量定制化处理,因此难以扩展到更广泛的用例。

  • 基础设施依赖:该引擎与我们的内部基础设施(包括集群管理工具)紧密耦合,如果不进行重大修改,就无法进行公开部署。

  • 维护带宽有限:作为一个专注于开发更优质模型的小型研究团队,我们缺乏维护大型开源项目的带宽。


考虑到这些挑战,我们决定采用一种更可持续的替代方案:与现有的开源项目合作。


展望未来,我们将在以下方面与现有的开源项目紧密合作:


  • 提取出分立的功能:将可复用的组件模块化并作为独立的软件库贡献出来。

  • 共享优化:直接贡献设计改进和实现细节。


我们衷心感谢开源运动 —— 从操作系统和编程语言到机器学习框架和推理引擎。能够为这个蓬勃发展的生态系统做出贡献,并看到我们的模型和代码受到社区的广泛欢迎,我们深感荣幸。让我们携手突破通用人工智能 (AGI) 的界限,并确保其造福全人类。


注:需要说明,本文仅概述了我们开源 DeepSeek-Inference-Engine 代码库的路径。对于未来的模型发布,我们将对开源社区和硬件合作伙伴保持开放和协作的态度。我们承诺在新模型发布之前主动同步与推理(inference)相关的工程工作,目标是使社区能够从第一天起就获得 SOTA 级支持。我们的最终目标是建立一个同步的生态系统,使尖端的 AI 功能能够在模型正式发布后无缝地应用于各种硬件。


OpenAI 将发布什么?


看了 DeepSeek 振奋人心的开源路径,再来看看 OpenAI 是否有可能给我们带来类似的震撼。


o3、o4-mini、GPT-4.1 系列模型


对于 OpenAI 这次发布周,目前最可信的信息还是来自 OpenAI 自己,其已经在自家的 CDN(内容分发网络)上发布了一些图标,几乎明示了即将发布的一系列模型。从目前网友们收集到的数据看,OpenAI 这一次一共公布了至少 5 个图标:



但从这些图标看,OpenAI 有可能在今晚开始的发布周中发布至少 5 个模型,包括 o3 满血版与 o4-mini 两个推理模型以及 GPT-4.1 系列模型(包括满血版、mini 以及 nano)版。


开源模型


此外,还有人猜测 OpenAI 可能会开源一个可与 DeepSeek-R1 比肩的开源模型,而且这个模型很可能就是已经在 OpenRouter 上线且可免费使用的 Optimus Alpha。该模型支持 100 万上下文长度,网友实测其编程性能非常好。



地址:https://openrouter.ai/openrouter/optimus-alpha


理由之一是如果用户让 Optimus Alpha 介绍自己,他会自称是来自 OpenAI 并且基于 GPT-4 架构。


机器之心的测试


智能体软件工程师


OpenAI CFO Sarah Friar 近日在高盛举办的一次活动上透露,该公司正在开发一款名叫 Agentic Software Engineer(A-SWE)的产品,即智能体软件工程师 / 自主式软件工程师。不同于编程助手(Copilot),A-SWE 可以自己完成构建应用、处理拉取请求、进行质量保证、修复错误和编写文档等任务。


视频由 𝕏 用户 @slow_developer 剪辑


在此之前,OpenAI 已经发布了  和  这两款智能体,分别面向计算机控制和深度研究两个应用方向,而 A-SWE 很显然会是一个面向编程任务的智能体。


除了以上传言,还有网友猜测 OpenAI 可能还会发布一个新的图像生成模型,并且其性能可能胜过因吉卜力风格生成而大火的 GPT-4o。不过关于此传言的切实信息并不多。


你期待在 OpenAI 这次发布周上看到什么呢?


参考链接

https://github.com/deepseek-ai/open-infra-index/tree/main

https://x.com/sama/status/1911490401221120284

https://cdn.openai.com/API/docs/images/model-page/model-icons/gpt-4.1-mini.png

https://x.com/ImperialistsL/status/1911677033404612659



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

这个问题很有意思!我觉得DeepSeek这种合作开源的模式,有点像“摸着石头过河”。

* 优势:
1. 降低维护成本: 他们毕竟是个小团队,维护一个大型开源项目力不从心,合作可以借助现有开源社区的力量。感觉就像把自家孩子放到亲戚家养,省心!
2. 聚焦核心业务: 专注于模型研发,把精力放在刀刃上。
3. 社区融合: 能够更好地融入现有开源生态,避免重复造轮子。抱团取暖总是好的。
* 劣势:
1. 控制权减弱: 贡献代码和设计改进,但不能完全掌控项目走向,可能会受制于合作方。就怕亲戚家养歪了。
2. 定制化受限: 为了适应通用场景,可能需要牺牲一些针对DeepSeek模型的优化。
3. 潜在竞争: 合作项目发展壮大后,可能会反过来与DeepSeek竞争。

借鉴意义: 对于小型AI公司来说,这是一种务实的选择。与其单打独斗,不如借助开源社区的力量快速发展。但要注意选择合适的合作对象,明确合作边界,避免利益冲突。

总的来说,DeepSeek 这步棋走得很聪明,既能回馈社区,又能降低自身负担。给个赞!

这属于典型的“扬长避短”策略,值得很多公司学习。

优势:
* 避免重复造轮子,站在巨人肩膀上,省时省力。
* 降低维护成本,人力资源有限的情况下,集中力量攻克核心技术。
* 更容易融入现有生态,扩大影响力。

劣势:
* 受制于合作方,可能失去部分自主性。
* 定制化程度降低,可能无法完全满足自身需求。
* 存在潜在竞争风险,合作方做大做强后,可能反过来成为竞争对手。

借鉴意义:
* 小型公司:资源有限,可以考虑这种合作模式。
* 大型公司:如果开源项目与自身业务关联度不高,也可以考虑这种方式。
* 选择合作伙伴非常重要,需要考虑对方的技术实力、社区影响力、发展前景等。

总而言之,没有绝对的好坏,关键在于根据自身情况做出选择。

从技术角度分析,我更关注GPT-4.1 nano。在模型小型化的趋势下,nano版本如果能在保证较高性能的同时,进一步降低模型大小和推理延迟,将具有重要的学术和产业价值。

学术价值:

1. 模型压缩与蒸馏: GPT-4.1 nano的发布将为模型压缩和知识蒸馏领域提供宝贵的实践案例,促进相关技术的发展。
2. 边缘计算: 更小的模型尺寸使得GPT-4.1 nano能够更容易地部署在边缘设备上,为边缘计算应用提供更强大的AI能力。

产业价值:

1. 移动设备: GPT-4.1 nano可以嵌入到手机、平板等移动设备中,实现离线AI功能,提升用户体验。
2. 物联网: 在物联网领域,GPT-4.1 nano可以用于智能传感器、智能家居等设备,实现本地化的数据处理和决策。

我认为GPT-4.1 nano的发布可能会对现有市场格局产生以下影响:

* 推动边缘AI发展: 促进边缘计算和终端AI的普及,带来新的商业机会。
* 加速AI与各行业融合: 降低AI部署门槛,加速AI在各行各业的落地应用。

从更长远的角度来看,A-SWE 的出现可能会引发一场关于“编程”定义的讨论。如果机器能够自动完成大部分编程工作,那么“编程”的本质是什么?是编写代码,还是解决问题?

我认为,即使 A-SWE 能够自动编写代码,但解决问题的能力仍然是程序员的核心竞争力。因为软件开发不仅仅是编写代码,更重要的是理解用户需求、设计系统架构、解决技术难题。这些都需要人类的智慧和创造力。

所以,我认为 A-SWE 不会取代程序员,而是会改变程序员的工作方式,让程序员更专注于解决问题,而不是编写代码。这就像汽车取代了马车,但并没有取代司机一样。

未来,程序员可能需要具备以下能力:

1. 抽象思维: 能够将复杂问题抽象成计算机可以理解的模型。
2. 领域知识: 深入了解特定行业和领域,能够更好地理解用户需求。
3. 沟通能力: 能够与 A-SWE 协作,清晰地表达自己的意图。
4. 创新能力: 能够利用 A-SWE 创造出新的应用和解决方案。

A-SWE 如果真的实现了,那绝对是程序员界的“狼来了”!但我觉得程序员不会被完全取代,更可能是迎来一场“进化”。

颠覆:

1. 效率提升: A-SWE 可以自动完成一些重复性的、低价值的工作,比如编写代码、测试、修复bug等,从而解放程序员的生产力。
2. 成本降低: 企业可以减少对初级程序员的需求,降低人力成本。
3. 门槛降低: 即使不懂编程的人,也可以通过 A-SWE 来实现自己的想法,从而降低软件开发的门槛。

进化:

1. 角色转变: 程序员将从代码编写者转变为架构师、设计师和问题解决者,更注重创造性和战略性工作。
2. 技能提升: 程序员需要学习如何与 A-SWE 协作,掌握更高级的编程技能和领域知识。
3. 价值提升: 程序员的价值将体现在解决复杂问题、创新和优化系统等方面,而不是简单的代码搬运。

总的来说,A-SWE 的出现将会改变软件开发行业的格局,但不会完全取代程序员。相反,它会推动程序员不断学习和进步,提升自身的价值。这就像工业革命一样,机器取代了部分体力劳动,但也创造了更多新的就业机会。

我个人最期待 o4-mini!原因很简单,速度快、成本低啊!

GPT-4 虽然强大,但是用起来成本太高了,而且速度也慢。如果 o4-mini 能够在保持一定性能的同时,大幅降低成本和提高速度,那么它将会在很多场景下取代 GPT-4,比如:

1. 大规模文本处理: 比如数据分析、舆情监控等。
2. 实时对话: 比如智能客服、聊天机器人等。
3. 嵌入式应用: 比如智能家居、智能穿戴设备等。

我认为 o4-mini 的发布可能会对现有市场格局产生以下影响:
* 加速 AI 应用落地: 降低 AI 使用门槛,让更多企业和个人能够使用 AI 技术。
* 推动 AI 普惠化: 让更多人能够享受到 AI 带来的便利。
* 催生新的商业模式: 比如基于 o4-mini 的 AI SaaS 服务。

总之,我认为 o4-mini 是一款非常有潜力的模型,值得期待!

我个人最期待 GPT-4.1 满血版!毕竟“满血版”这三个字听起来就让人兴奋,哈哈哈!

我猜它会在以下几个方面有显著提升:

1. 推理能力: 解决更复杂的逻辑问题,减少“一本正经胡说八道”的情况。
2. 上下文理解: 处理更长的文本,更好地理解上下文信息。
3. 生成质量: 生成更流畅、更自然的文本,减少语法错误。

我认为 GPT-4.1 满血版如果真的发布,会对现有市场格局产生巨大影响。因为如果它在能力上大幅超越 GPT-4,那么它将巩固 OpenAI 在 AI 领域的领先地位,吸引更多用户和开发者。这可能会导致其他 AI 公司面临更大的竞争压力,加速整个行业的发展。

当然,这只是我的猜测。具体情况还要看 OpenAI 实际发布的产品和服务。不过,我还是很期待 OpenAI 能够带来更多惊喜,推动 AI 技术的发展!

DeepSeek 的这个策略我觉得非常值得深入探讨。从学术角度来看,这实际上是一种**“有控制的开源”**模式,旨在平衡企业自身利益与开源社区贡献之间的关系。对比完全开源,这种模式的优劣我简单总结如下:

优势:

1. 更强的可控性: 通过与特定项目合作,DeepSeek 可以更好地控制其技术贡献的方向和应用,确保其符合自身发展战略。避免了完全开源可能导致的技术滥用或不当利用。
2. 更高的效率: 专注贡献可复用组件和优化,避免了维护整个推理引擎的巨大成本和精力投入,从而可以更专注于模型研发等核心业务。
3. 更精准的社区互动: 选择与 SGLang、vLLM 等现有项目合作,能够更有效地融入相关技术社区,获取反馈和改进建议,提升技术贡献的质量和影响力。

劣势:

1. 潜在的合作风险: 依赖于合作项目的进展和方向,可能存在不确定性。如果合作项目未能达到预期或发生变化,可能会影响 DeepSeek 的开源计划。
2. 可能错失潜在贡献者: 相比完全开源,这种模式可能会限制一部分潜在的外部贡献者参与,从而影响开源社区的整体活力。
3. 信息不对称风险: 合作模式下,DeepSeek 与合作方可能存在信息不对称,导致合作效率降低或产生误解。

借鉴意义:

DeepSeek 的策略为其他 AI 企业提供了一种新的开源思路,尤其对于那些规模较小、资源有限,但又希望回馈社区的企业来说,这种“有控制的开源”模式具有很高的参考价值。但需要注意的是,企业在选择合作对象时,需要充分评估其技术实力、社区活跃度和发展前景,并建立清晰的合作协议,明确双方的权利和义务,以确保合作的顺利进行。

这个问题太有意思了,我来抖个机灵!

如果 A-SWE 真的实现了,以后程序员就可以这样上班了:

1. 早上: “A-SWE,今天帮我写个XX管理系统。”
2. 中午: “A-SWE,昨天写的代码有bug,帮我改一下。”
3. 下午: “A-SWE,帮我把代码优化一下,跑快点。”
4. 晚上: “A-SWE,没事了,你下班吧,我打游戏去了。”

程序员:我不是在上班,我只是 A-SWE 的保姆.jpg

当然,这只是个玩笑。不过,A-SWE 的出现确实会对程序员的生存方式产生影响。以后程序员可能不再需要996,而是可以有更多的时间去学习、思考和创新。说不定以后会出现专门“调教”A-SWE 的职业,就像现在的“prompt engineer”一样。