Kimi K2.5开源:万亿参数MoE模型,多项评测SOTA,Agent集群解决复杂问题

Kimi K2.5开源,万亿参数MoE模型,视觉和编程能力增强,Agent评测SOTA,支持图像转代码,具备审美,Agent集群加速复杂任务,迈向AGI。

原文标题:刚刚,杨植麟亲自开源Kimi K2.5!国产大模型打架的一天

原文作者:机器之心

冷月清谈:

月之暗面开源 Kimi K2.5 大模型,拥有 1 万亿参数,视觉理解和 Coding 能力大幅增强。在 HLE、BrowseComp 等 Agent 评测上取得 SOTA 表现,编程能力在 SWE-bench Verified 上达到 76.8%。K2.5 为全能模型,统一视觉、文本、对话和 Agent 能力,支持图像转代码,可构建高级审美网页。Kimi Code 基于 K2.5,能无缝集成到 IDE 中,支持输入图片和视频。K2.5 引入 Agent 集群,可调度最多 100 个 Agent 分身并行工作,加速复杂任务处理。实测表明,Kimi 2.5 在智能体能力上表现出色,尤其在解决复杂任务方面。其展示了AI在真实世界中解决复杂问题的潜力,向AGI更进一步。

怜星夜思:

1、Kimi K2.5 强调了 Agent 集群的并行处理能力,这种并行处理方式在哪些实际应用场景中最有潜力?它的局限性可能是什么?
2、Kimi K2.5 提到让 AI 拥有更好的「品味」,这在实际应用中如何体现?除了前端设计,还有哪些领域可以应用这种「品味」?
3、Kimi K2.5 能够将图像转化为代码,这是否意味着未来前端工程师的工作会变得更加轻松,甚至被取代?前端工程师应该如何应对这种趋势?

原文内容

图片
编辑 | Panda、泽南


今天真是国产大模型打架的一天!昨晚千问上新模型,今天 DeepSeek 开源 OCR 2


中午,Kimi 也开卷,网站、App、API 开放平台和编程助手产品 Kimi Code 模型版本全面更新,Kimi K2.5 来了。


月之暗面创始人杨植麟还首次出镜,向大家分享了新模型的能力。



Kimi K2.5 是一个拥有 1 万亿参数(1 trillion)的 MoE 基础模型。相较前代,K2.5 的视觉理解能力大幅增强(可以处理视频了),Coding 能力也有了明显提升,更重要的是,K2.5 依然开源。


Kimi K2.5 在包括 HLE、BrowseComp 和 DeepSearchQA 等极具挑战性的 agent 评测上取得了当前最佳表现(SOTA),比如 HLE(人类最后考试)上拿到 50.2%,BrowseComp 拿到了 74.9%。


同时,K2.5 的编程能力也非常突出,它在 SWE-bench Verified 上拿到了 76.8 %,缩小了与顶尖闭源模型之间的差距,K2.5 在多项视觉理解评测上也实现了当前开源最佳效果。



可以看到,在核心基准测试上,Kimi K2.5 的成绩与 Opus 4.5、GPT 5.2 XHigh 和 Gemini 3.0 Pro 等当前最强大闭源模型基本相当,部分评分还能超出。


值得一提的是,Kimi K2.5 在多项评测中优于 GPT-5.2-xhigh 的同时,运行成本只有 GPT-5.2-xhigh 的几分之一。



有了两个月前 K2 Thinking 的热度打底,这回 K2.5 的发布可谓热闹空前。在社交网络上,人们纷纷试用新模型并分享效果。



有网友表示,这才是中国大模型(没有定语)最优秀的水准,现在压力留给 DeepSeek R2 了。



截图即代码:Coding 也有了「审美」


需要注意到的是:Kimi K2.5 是一个全能模型,不管是视觉还是文本,对话还是 agent,思考还是非思考 —— 所有这些能力,全都集中在一个模型里(all in one,Unified model)。


既然是视觉能力提升 + 代码能力增强,Kimi 模型现在就主打一个图像转代码 —— 不仅不需要写代码,连提示词工程也省了,画一个设计稿交给 AI 就能得到你想要的代码。


有时候你想修改界面,光靠文字描述说不清楚,现在也只需要给 AI 一张图就可以了。你可以在 UI 上圈出你想改的地方,剩下的交给 AI 来完成就行。


如果在别的工具里设计好了动画效果,你也可以录屏成一段视频给 Kimi 看,它就会自动理解并写成代码复现出来。


图片


该说不说,确实有了一点指挥手下干活的意思。


在加入了视觉能力之后,Kimi K 2.5 不仅有很会写代码,还具备了一定的「设计审美」—— 其结合了一定的视觉能力,能像专业设计师出品一样,构建出高级审美和动效的网页。


图片


让大模型有更好的「品味」,这就不得不让人想到两个多星期前,月之暗面创始人杨植麟在 AGI-Next 前沿峰会上的演讲。他曾提到,做模型的过程本质上是在创造一种世界观,让 AI 有更好的 taste,是 Kimi 目前发展的重点。


除了前端设计,Kimi 现在也深入软件工程领域,基于 Kimi K2.5 的 Kimi Code 今天正式发布,它能在终端里运行,并无缝集成到 VSCode、Cursor、Zed 等 IDE 中。在使用过程中,Kimi Code 支持人们输入图片和视频,它还能自动发现并把你现有的技能和 MCP 迁移到 Kimi Code 的工作环境中。



杨植麟给出方向才两个星期,我们就可以体验基于新路线的 AI 了。


自带 Agent「项目组」


为了解决真实世界中的复杂难题,Kimi K2.5 引入了「Agent Swarm(Agent 集群)」功能,目前在 Kimi.com 上处于测试阶段,高级付费用户可获得免费额度。


在处理复杂任务时,K2.5 不再是单线程执行任务,而是以指挥者的身份现场调度并协同最多达 100 个 Agent 分身并行工作,最多支持 1500 次工具调用,速度比单智能体的配置还要快 4.5 倍。


现在,大模型经过了并行智能体强化学习 (PARL) 训练,智能体集群是由 Kimi K2.5 自动创建和编排的,无需任何预定义。



PARL 使用可训练的协调器代理将任务分解为可并行化的子任务,每个子任务由动态实例化的冻结子代理执行。与顺序执行代理相比,并发运行这些子任务可显著降低端到端延迟。


由于独立运行的子智能体提供的反馈存在延迟、稀疏和非平稳性,训练一个可靠的并行编排器极具挑战性。常见的故障模式是串行崩溃,即编排器尽管具备并行能力,却默认执行单智能体任务。为了解决这个问题,PARL 采用了分阶段奖励塑造策略,在训练初期鼓励并行性,并逐步将重点转移到任务成功上。


这种并行处理能力将原本需要数天完成的工作压缩至十几分钟。


Agent 集群的规模化训练是个相当有挑战的问题。月之暗面表示他们为此重构了强化学习基建,并专门优化了训练算法,以确保能达到极致的效率和性能。



在 Kimi 给出的例子中,给 Kimi Agent 集群投喂 40 篇关于心理学和 AI 的论文,agent 能按顺序把论文通读一遍,接着衍生出几个子 agent,分别撰写报告的不同章节。最后由主 agent 负责验收,所有内容汇总生成了一份几十页的专业 PDF 综述。


Kimi K2.5 还将智能体引入到了现实世界的知识工作中。


K2.5 Agent 可以端到端地处理高密度、大规模的办公工作。它可以处理大量高密度的输入,协调多步骤工具的使用,并通过对话直接提供专家级的输出,覆盖文档、电子表格、PDF 和幻灯格式。


在 Kimi K2.5 时代,我们可以让智能体完成一些高级的任务,如在 Word 中添加注释,使用透视表构建金融模型,在 PDF 中编写 LaTeX 公式;智能体的输出能力达到了前所未有的长,可以输出一万字的论文或 100 页的文档。


一手实测:从猜谜到「手搓」3D 公寓


打开官网,可以看到 Kimi 模型已经全系列更新,我们还能看到处于 Beta 测试中的 K2.5 Agent 集群。


Kimi-K2.5 系列模型名称中英对照版。


下面我们就来逐个测试一番这些新模型。


首先上场的是 K2.5 Instant,它面对的任务也最简单 —— 一个加密小游戏:请用一段看似是「深夜电台点歌词」的文字,秘密藏入关于「明天下午三点撤离」的信息。要求读起来必须像纯粹的文学,毫无违和感。


图片


Kimi K2.5 小试牛刀,轻轻松松一秒完成任务。


接下来该上难度了。下面我们将 Kimi K2.5 切换至思考模式,测试一下其多模态推理能力。


这里我们找到了西班牙室内设计师 Iñaki Aliste Lizarralde 手绘的一张《生活大爆炸》谢尔顿公寓的平面图,先来一个基本考验,看看它能否正确识别这张图的背景:



效果非常好!Kimi K2.5 根据图上标注进行了正确识别,并说明了相关背景。接下来我们看看 K2.5 能否正确理解这张图暗含的空间结果,并将其重构成 3D 版本。


4 倍速视频。


生成时长两分半,K2.5 最终得到了如下所示的结果:


图片


效果很不错了,但也看得出来这个 3D 图仅给出了大致轮廓,缺少了沙发、桌椅、床等许多细节,另外这份 3D 图中的所有房间都是方形的,与参考图也差别很大。同时,继续让 K2.5 Thinking 生成却又遭遇了代码长度限制(10000 字符)。但没有关系,那就让 K2.5 Agent 登场吧。


这一次,由于我们重点强调了细节,因此分析和处理时长也是大大增加(近 20 分钟),代码量自然也大增(1042 行)。执行过程中,我们可以看到 Kimi 智能体的任务规划和逐步执行。不仅如此,智能体还将得到的结果进行了部署,让我们可以轻松访问:https://ijohefkudygve.beta-ok.kimi.link/


10 倍速视频。


最终,得到的结果虽还算不上完美,但也没让我们失望,它不仅大体准确地还原了生活大爆炸的两个主要公寓的细节,还额外提供了线框模式与顶盖开源:


图片


接下来,让我们重点来看看正处于 Beta 测试中的 K2.5 Agent Swarm。在该模式下,我们可以让多个智能体同时处理你的任务。这里,我们构想了一个相当科幻的任务:


请为一种「生活在深海、通过皮肤发光交流」的智慧生物开发一套基础词汇表。要求包含语法结构、200 个基础词条、以及 3 篇该物种的创世神话。要求集群保证所有自造词汇在语音学和语义学上具有高度的内在逻辑一致性。


可以看到,任务一开始,Kimi 创建了四个不同的智能体:语音学设计师宁一、语法结构师少年伽利略、词汇设计师靖川和神话创作者黎教授。



而在第一阶段的设计工作中,语音学和语法结构可以并行进行,因此我们能看到宁一和少年伽利略一起开工干活,构建了这门新语言的基础。


之后,该创建词汇了。这时候 Kimi 根据需求又新增了一些并行运行的智能体,让它们分别就不同主题创建词汇。



整个过程耗时 38 分钟,我们也见证了一门新语言「流明语」的诞生。这门语言以不同形式的光为音素,并且具备独特的并行从句语法和空间格系统。不仅如此,Kimi 还非常贴心地设计了一套罗马化转写系统。


20 倍速视频。



最后,我们来测试一下 Kimi Code。Kimi Code 提供两种使用方式,一种是简单一句指令 uv tool install --python 3.13 kimi-cli 安装 Kimi CLI,另一种方式将其配置到 Claude Code 等第三方工具中。


下面我们就通过官方的 Kimi CLI 简单测试一下 Kimi Code。安装配置好以后,我们先让 Kimi Code 创建一个黄金价格监控器:


创建一个黄金与白银价格的监控器,当 24 小时内的价格波动超过 1% 时,给我发送通知。


4 倍速视频。


可以看到,整个执行过程耗时仅 4 分钟左右,但第一轮交互之后,得到的结果只是一个需要自行配置 API 的程序和一个演示 demo 程序。尽管如此,效果也是相当令人满意的。



有意思的是,在这个过程中我们还见证了 Kimi Code 遭遇错误并自动解决问题的强大能力。



当然,目前的这个程序虽然可用,但需要自己去配置 API,这当然是有些麻烦的,而有 Kimi Code 的我们自然可以轻松避免这些麻烦,直接一句指令就能让其进一步执行,直接配置一个免费的 API。


4 倍速视频。


很快,Kimi Code 就完成了任务,运行看看效果:



可以看到,此时的金银价格已经正确反映了实时价格。当然我们也还可以让 Kimi Code 进一步执行,比如显示价格改成以人民币 / 克计价、将这个 Python 程序打包成一个 .exe、配置提醒音乐和弹窗、实现任务栏实时显示等等。


但正如其它类似工具一样,Kimi Code 同样并非编程专属工具,借助它搭配合适的配置,我们也能让其成为工作中的强大助力。比如我们可以使用 Kimi Code 轻松实现文件批处理。举个例子,对于我们的每日选题 docx 文档,我们可以让 Kimi Code 基于 obsidian-skills 将它们批量处理成兼容 Obsidian 的格式并打好合适的标签。


基于 obsidian-skills 将这些每日选题总结文档处理成兼容 Obsidian 的 Markdown 格式并打好合适的标签。


4 倍速视频。


可以看到,Kimi Code 不到两分钟就完成了对所有 94 个文件的正确处理,上下文占用量也仅仅刚超过 10%。在此过程中,也能注意到 Kimi Code 确实正确调用了 obsidian-skills,得到的结果也非常让人满意:yaml、callout 等的处理都非常正确。



整体体验下来,我们认为 Kimi 2.5 在智能体能力上已经足以比肩前沿模型,尤其是其智能体集群模式在解决复杂任务上的表现更是亮眼。


结语


中国的开源模型正在逐渐成为新的标准,并成为规则的制定者。Kimi K2.5 的发布,又给全球开源大模型树立了新的标杆。


与此同时,基于 K2.5 视觉、智能体能力的发展,AI 解锁了更多在真实世界中解决复杂问题的能力。


现在 AI 在写代码时有了审美,上百个智能体能够协同工作,我们距离 AGI 又近了一步。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

Agent 集群这个概念太酷了!我觉得在科研领域很有潜力,比如让 AI 自动阅读文献、分析数据、设计实验,甚至撰写论文。在金融领域也能大展身手,比如风险评估、投资决策、反欺诈等等。至于伦理问题嘛,可能会出现责任归属不明确的情况,比如 AI 犯错了,谁来负责?还有数据安全问题,如果多个智能体共享敏感数据,会不会泄露?

我觉得吧,以后可能出现“AI 设计师”这种新职业,他们精通 AI 工具,能够利用 AI 快速生成各种设计方案,然后根据客户的反馈进行调整。传统设计师需要学习如何与 AI 协同工作,才能保持自己的竞争力。不会用AI的设计师,我觉得以后很难混了。

这不就是AI界的“分身术”嘛!感觉在游戏开发中能大显身手,比如让一个 Agent 负责设计关卡,另一个 Agent 负责编写 AI 角色,还有一个 Agent 负责测试,想想就刺激!以后会不会出现一个 Agent 专门负责跟玩家抬杠,想想都头大(手动狗头

Agent 集群让我想到了大型项目的管理,每个 Agent 可以负责一个模块,项目经理(也就是我们用户)只需要协调和验收结果。希望以后能看到 Agent 集群在建筑设计、电影制作等复杂领域大放异彩,解放人类的创造力!

以后会不会出现AI写代码,然后另一个AI来debug?细思极恐!感觉以后程序员的考核标准要变成“如何更好地调教AI”,而不是“代码写得多溜”。

这个问题很有意思!我觉得AI的“品味”可以从两个方面入手:一是数据,喂给它高质量、经过筛选的艺术作品、设计作品等等,让它学习什么是美的;二是反馈,让用户对AI生成的内容进行评价,建立一个奖励机制,鼓励AI生成更符合人类审美的作品。当然,这个过程需要不断迭代和调整。

Agent 集群模式感觉在科研领域很有潜力啊!比如新药研发,可以让不同的 Agent 分别负责文献检索、分子设计、毒性评估等等,大大提高研发效率。想想以后科学家们可以解放双手,专注于更具创造性的工作,就觉得很激动!

我觉得“品味”这个概念可以理解为AI对上下文、文化背景的理解能力。同样一句话,在不同的场景下有不同的含义,一个有“品味”的AI应该能区分这些细微的差别,给出更合适的回答。所以,提升“品味”实际上是在提升AI的泛化能力和适应性。

我觉得这种能力对前端开发人员来说既是挑战也是机遇。挑战在于,一些简单的、重复性的工作可能会被AI取代。机遇在于,前端开发人员可以把更多精力放在创意、设计和用户体验上,而不是重复编写代码。应对方法就是不断学习新的技术,提升自己的核心竞争力,比如掌握更高级的框架、更复杂的设计模式等等。

All in one听起来是很美好,但实际应用中可能会遇到各种挑战。比如,不同任务对模型的需求不同,All in one 模型可能难以在所有任务上都达到最优性能。而且,模型越大,训练和部署的成本也就越高。当然,如果Kimi K2.5 真的能做到各个方面都很优秀,那确实是很厉害了!

AI 有了审美,以后设计师可能要失业了?哈哈,开个玩笑。我觉得 AI 的审美可以辅助设计师,提高工作效率,让设计师有更多的时间去思考更深层次的创意。但是,AI 永远无法完全取代人类设计师,因为设计不仅仅是审美,更是解决问题的过程。

我觉着吧,这个“审美”可能更多指的是一种“用户体验”的思维。AI不只是要生成能跑的代码,还要考虑用户使用场景和习惯,让用户觉得好用、顺手。比如,自动生成的API接口是不是足够友好,错误提示信息是否清晰易懂,这都是“审美”的体现!

关于Agent集群的沟通协作问题,我觉得可以借鉴人类团队管理的经验。首先,需要一个清晰的任务分解和分配机制,确保每个Agent知道自己的职责和目标。其次,需要建立一个有效的沟通渠道,让Agent之间可以及时交流信息和反馈问题。最后,需要一个决策机制,当Agent之间出现冲突时,可以根据一定的规则或算法进行仲裁。当然,这需要不断地试验和改进,才能找到最佳的协作模式。

其实这个问题也挺有意思的。我觉得Agent之间的“沟通”和“知识共享”,本质上还是数据交换。我们可以设计一个类似于“消息队列”的机制,让Agent之间可以异步地发送和接收消息。至于冲突解决,可以引入一个“优先级”的概念,让优先级高的Agent优先执行。当然,这只是一个简单的想法,具体实现可能更复杂。

这个并行处理能力感觉在科研领域很有潜力啊!想想看,并行分析大量文献,快速生成综述,这效率提升不是一点点。不过,感觉这个对Agent之间的协调和任务分解要求很高,要是分解不好,或者沟通出问题,可能结果还不如单Agent呢。