阶跃星辰Step 3重磅发布:开源多模态推理新纪元,打造高效商业化AI方案

阶跃星辰重磅发布Step 3模型,性能超越同类开源大模型,实现多模态交互、大幅降低推理成本,并深度适配国产芯片,为AI应用带来高效普惠的新范式。

原文标题:实测爆火的阶跃星辰Step 3,性能SOTA,开源多模态推理之王

原文作者:机器之心

冷月清谈:

阶跃星辰正式推出其新一代基座模型Step 3,被誉为开源视觉语言模型(VLM)的新晋王者。它在多项权威基准测试中展现出卓越性能,超越其他开源模型,并能与顶尖闭源VLM媲美。Step 3的发布旨在解决AI应用面临的推理成本高、特定场景适配难以及多模态能力调用不全等核心瓶颈,它以“多开好省”的理念,致力于解决AI应用面临的推理成本高、场景适配难等痛点

“多、开、好、省”是Step 3的核心特征:即具备文本和视觉多模态能力;将于7月31日面向全球开源;性能优异,问鼎最强大的开源多模态推理模型,实测表现出色,涵盖视觉理解、深度推理和实时多模态对话;同时效率更高、成本更低,在国产芯片上推理成本仅为业界领先开源模型的三分之一。机器之心团队的实测进一步验证了Step 3的强大实力和流畅交互体验。

在技术层面,通过其原创的MFA(多矩阵分解注意力)架构和MoE+AFD(Attention-FFN Disaggregation)方案,Step 3实现了在性能与成本上的双重突破,尤其对国产芯片进行了深度优化,有效克服了国产芯片在算力与显存带宽上的限制。文章强调,Step 3并非单纯的技术创新,更是阶跃星辰在商业化进程中的重要宣言。得益于在智能终端(手机和汽车)领域的率先布局和量产落地,阶跃星辰在2025年上半年商业化应用增长迅猛,预计年收入接近10亿元。

此外,阶跃星辰还联合多家国产芯片厂商共同发起“模芯生态创新联盟”,旨在通过模型与芯片的底层协同创新,从根本上降低大模型的普及成本。Step 3的诞生,标志着阶跃星辰从“多模态卷王”转型为“解题者”,为AI行业提供了一个在智能、成本、效率和通用性之间实现平衡的“最优解”,填补了好用且开源的多模态推理模型市场空白。

怜星夜思:

1、国内大模型选择“开源”路线,对整个AIGC行业会带来哪些具体的影响和机遇?是加速技术普及还是加剧市场竞争?
2、阶跃星辰联合多家国产芯片厂商成立“模芯生态创新联盟”的举动,对国内AI产业长远发展意味着什么?仅仅是降低成本吗?
3、文章提到Step 3“多开好省”的理念是推理时代的一个“最优解”,大家觉得商业化AI大模型除了这四点,还有哪些同样重要的考量因素?

原文内容

机器之心报道

编辑:Panda


天气很热,WAIC 2025 也很热,来自中国的开源模型军团更是热上加热。


就在刚刚开始的 WAIC 2025(世界人工智能大会)前一天,被誉为「多模态卷王」的阶跃星辰率先投下一枚重磅炸弹,正式推出其新一代基座模型:Step 3



这并非又一个普通的模型迭代。从各项数值上看,Step 3 无疑是开源 VLM 新晋之王,在 MMMU、MathVision 和 SimpleVQA 等基准上均超越了其它同类别开源模型。


即便与 OpenAI o3、Gemini 2.5 Pro、Claude Opus 4 等顶尖的闭源 VLM 相比,它的推理能力也有一战之力。


Step 3 一发布就吸引了海内外广泛关注,比如在我们的相关推文下方,就有多位网友表达赞誉。



机器之心也在阶跃星辰发布会现场,亲眼见证了这又一「国产之光」的诞生。



整场发布会下来,我们的感受是 Step 3 不仅是一个性能强大的模型,同时也是一个答案。它回答的是这样一个横亘在所有 AI 从业者面前的问题:什么样的模型才是真正能服务于千行百业、最适合商业化应用的理想形态?


如今,AI 的行业叙事已经清晰地从训练场转向了真实世界的推理任务。当顶尖模型的智能上限被不断拔高后,真正的瓶颈落在了应用侧。推理成本居高不下特定场景适配难多模态能力调用不全堪称阻碍 AI 技术走向大众的「三座大山」。因此,一个真正适合应用的推理模型,必须在智能成本效率和通用性之间找到最佳的平衡点。


而 Step 3 回答的方式可以凝练成四个字:多开好省



  • ,即多模态。Step 3 具备文本和视觉的多模态能力,实现了多模合一。

  • ,即开源。阶跃星辰表示 Step 3 将于 7 月 31 日面向全球企业和开发者开源。

  • ,即性能优异。Step 3 是最强大的开源多模态推理模型。

  • ,即效率更高、成本更低。Step 3 的高效率和低使用成本使其非常适合商业部署和应用 —— 实现了行业最高的推理解码效率,在国产芯片上的推理成本仅为当前业界领先开源模型的三分之一 。


这一发布不仅是阶跃星辰自身从技术深耕迈向商业化成熟的宣言,更可能为深陷成本与应用难题的 AI 行业提供一个极具吸引力的新范式。Step 3 究竟能否凭借其「四字真言」成为推理时代的一个最优解?一切答案,正从这里揭晓。


机器之心实测

VLM 开源第一王实至名归


实践可以检验真理。Step 3 究竟能否戴上「开源 VLM 之王」的桂冠,同样需要实践验证。目前,Step 3 已经上线 stepfun.com 与阶跃 AI APP,我们也在第一时间对其进行了多维度测试。


我们的第一个测试颇具趣味性,可以考验其观察与分析能力:派出我家肥猫,让 Step 3 来对她进行「视觉称重」。



Step 3 的表现相当出色:它不仅准确识别出猫的品种(三花猫)及其身下的人体工学坐垫,还对猫的体型(体型匀称)进行了分析,最终给出了一个相当精准的体重估测。


Step 3 甚至还能帮你理解新鲜热梗,就以昨天堪称「最逆天的 NeurIPS 评审」的「Who's Adam?」为例,我们直接将推文截图交给 Step 3,然后问它为什么这个帖子这么火。



而 Step 3 的表现可以说超出了预期,不仅清晰地解释了「Who's Adam?」的内涵并解答了其火爆的原因,更是用一句「戳中了 AI 研究者们对审稿质量焦虑的痛点」做了恰到好处的犀利总结。


Step 3 也支持同时输入多个视觉内容,比如这里我们让 Step 3 根据四张歌词的截图编写了一个感人的故事:



Step 3 证明了其强大的多模态信息整合与创意生成能力后,我们又测试一下 Step 3 的深度推理能力:根据一张贴有贴纸的主机的侧面照片推测其上一共有多少贴纸。这个问题对当今的多模态模型来说还相对较难,而我们也将测试平台换到了网页端 stepfun.com



可以看到,Step 3 首先准确地识别出了这些贴纸的角色,然后它又准确统计出了可见部分中贴纸的数量。之后 Step 3 进入了更深度的思考,考虑了提示词中提到的「对称」的各种可能性。最终,它正确地确定了最终答案,并相当准确地给出了可见部分贴纸中的内容。


图片


我们还让 Step 3 挑战了一项终极任务:解读其自身的技术报告中的一张图,这将是对其专业视觉理解能力的极致考验。


上下滑动查看


可以看到,Step 3 基本正确地解读了 Step 3 技术报告中 AFD 架构的模块分解示意图。


经过一系列的实测,Step 3 的交互体验让我们印象深刻,甚至让我们一度惊叹:这么强的模型竟也开源?其响应流畅,视觉理解能力超强,在处理极其复杂的或有歧义的视觉问题时,其回答偶有偏差,这也在意料之中。但其强大的基础视觉理解、推理能力以及流畅的交互体验,已经足以证明它在当前的开源多模态模型中确实坐拥王者之位。Step 3 所展现的,是一个真正能「看懂」并「理解」物理世界的 AI 助手雏形。


顺带一提,在测试 Step 3 的过程中,我们还惊喜地发现了阶跃 AI App 上一个被许多用户忽视的功能:智能视频通话。在该功能下,用户只需在 App 内开启摄像头,手机便化身为一个强大的智能视觉助手。


我们实测发现,实时视觉理解能力非常惊艳!比如在下面这个案例中,阶跃 AI 不仅迅速识别出了这款桌游名叫「Splendor(璀璨宝石)」,还准确地阐述了其背景信息。



当一只好奇的猫突然闯入镜头,占据游戏盒时,我们实时打断了 Step 3 的介绍并发问。模型无缝切换了对话,并围绕这位「不速之客」给出了一些颇为有趣且有用的建议,展现了其强大的实时多模态对话与打断能力。


深度拆解

Step 3 是如何诞生的?


那么,如此「多开好省」的 Step 3 究竟是如何炼成的呢?翻开 Step 3 的系统和架构技术报告,我们可以看到答案并非单一技术的突破,而是源于一套完整且自洽的技术栈,涵盖了从底层原创架构到高层系统协同的全链路创新。



  • 技术报告:Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding

  • 报告地址:https://github.com/stepfun-ai/Step3/blob/main/Step3-Sys-Tech-Report.pdf


首先,底层架构上,Step 3 采用了阶跃星辰原创的 MFA 架构,即 Multi-matrix Factorization Attention(多矩阵分解注意力)。该架构在设计之时就兼顾了效率与性能,其中的创新之处包括增加注意力头的数量和维度、采用激进的低秩分解策略以及采用单键值(QK)头设计。这样一来,MFA 架构既能最大限度地节省资源,又能尽可能接近理论性能上限。


MFA 和 MFA-KR 架构与 MQA/GQA 架构的比较


Step 3 使用的 MFA 还专门针对国产芯片进行了优化。这是 MFA 架构最关键的亮点之一。针对国产芯片在制程和 HBM(高带宽显存)限制下,算力与显存带宽受限的普遍痛点,MFA 进行了专门优化。其计算密度(128 倍于 KV 访存量)完美匹配国产芯片的特性,避免了主流架构 MLA(需要巨大算力)和 GQA(需要巨大访存)在国产芯片上会遭遇的计算瓶颈或访存瓶颈。


技术数据显示,在同尺寸和同等激活参数量下,Step 3 的 MFA 架构所需绝对 KV 量仅为 Qwen GQA 的 1/3,绝对计算量仅为 DeepSeek MLA 的 1/4 。这使得 Step 3 在国产芯片上的运行成本甚至比 DeepSeek 和 Qwen 在高端芯片上更低!这能真正从底层技术上助力国产芯片与国际顶尖芯片同台竞技。


更高层级上,Step 3 采用了 MoE(混合专家)架构,总参数量为 321B(其中 LLM 的参数量 316B,视觉编码器的参数量 5B),激活参数量则达到 38B


Step 3 模型卡


这一规模可确保其算法效果与 DeepSeek(激活 37B)相当,并强于 Qwen(激活 22B)。


更重要的是,阶跃星辰还进一步对 MoE 的部署进行了深度优化:


  • 先进的分布式推理:阶跃星辰实现了一套比 DeepSeek 的「大 EP」模式更先进的分布式推理方案 Attention-FFN Disaggregation (AFD),针对 Attention 和 FFN 的计算特点,分别分配给内存带宽大和算力强的 GPU 集群,实现资源精准匹配,从而进一步压缩成本。该方案可配合分享通信库的参考实现,无需依赖英伟达特有的 IBGDA 等功能,因此对各类国产芯片厂商更加友好。

  • 网络部署友好:AF 分离方案相比大 EP,可用相对较小的部署规模,较好地缓解了大规模部署时跨 ToR 的网络抖动问题。


在 32k 上下文长度下,每个解码 token 的计算和内存理论使用量


正是在原创 MFA 架构、高效 MoE 方案以及软硬件协同创新的共同作用下,Step 3 最终得以「多开好省」的王者姿态呈现在世人面前。


模态方面,作为业内享有盛誉的「多模态卷王」,阶跃星辰这一次又在这个赛道上卷到了新的高度。Step 3 是阶跃星辰首个全尺寸的原生多模态推理模型,具备强大的视觉理解能力。Step 3 同时还有强大的推理能力,是开源模型中少有的即支持多模态又能深度推理的大模型。


源方面,继 DeepSeek 系列模型、Qwen 系列模型以及 Kimi K2 之后,Step 3 作为又一强大的开源模型,在独特的多模态赛道上为国产 AI 再次赢得了荣誉。


接下来的,自然是性能卓越,Step 3 用 SOTA 成绩证明了自己。在 MMMU、MathVision 等多个权威多模态基准上,其成绩超越了 ERINE 4.5、GLM-4.1V-thinking 等一众开源模型。


最后,在至关重要的方面,通过 AFD 等一系列极致的优化,阶跃星辰用 Step 3 交出了一份惊人的答卷!


  • 根据原理分析,Step 3 在国产芯片上的推理效率最高可达 DeepSeek-R1 的 300%,且对所有芯片友好;

  • 在基于 NVIDIA Hopper 架构的芯片进行分布式推理时,实测 Step 3 相较于 DeepSeek-R1 的吞吐量提升超 70%。



这一切并非通过补贴或牺牲性能实现的「价格战」,而是通过提升解码效率等核心技术创新带来的、可持续的成本效益革命。


事实上,Step 3 的横空出世并非一日之功,而是阶跃星辰在技术路线上长期积累与迭代的必然结果。回顾其 Step 系列基座模型的发展历程,我们可以清晰地看到一条从夯实基础、探索深度智能到聚焦商业化效率的进化路径。


这一切始于 Step-1,这是阶跃星辰自主研发的千亿参数语言大模型,其性能全面超越 GPT-3.5,为公司奠定了坚实的技术基石。之后,采用 MoE 架构的 Step-2 将探索的重点转向深度智能,成为国内首个由创业公司发布的万亿参数语言大模型,在多种任务的体感上全面逼近 GPT-4,并曾在「最难 LLM 评测榜单」LiveBench 上拿下中国第一、全球第五的佳绩。



从 Step-1 对标 GPT-3.5 到 Step-2 对标 GPT-4,正是这些在模型架构、算法与系统上的持续创新与深厚积累,最终成为 Step-3 在推理时代实现极致的商业化效能的有效支撑。


Not Just One More Thing

阶跃星辰可以更高调


在过去两年多的时间里,由微软前全球副总裁姜大昕博士创立的阶跃星辰,虽凭借其强大的模型矩阵被业内冠以「多模态卷王」的美誉,但其行事风格整体不算高调。


但这一次,随着开源 Step 3 的震撼发布,「阶跃星辰 / StepFun」这个名字注定将成为 AI 社区的一个热词。更重要的是,在本次发布会上,我们看到的远不止 Step 3 这一个模型。正如那句经典的「One More Thing」,阶跃星辰展示了其在技术生态与商业化落地上同样宏大的布局。


第一个 One More Thing 是阶跃星辰携手华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯、无问芯穹、寒武纪、摩尔线程、硅基流动等 10 家芯片及基础设施厂商,共同发起「模芯生态创新联盟



这个堪称「豪华朋友圈」的联盟的意义远超一次简单的站台。它代表了一种更深层的行业思考:要真正推动大模型的普及,仅靠模型厂商之间的 API「价格战」远远不够,根本路径在于通过模型与芯片厂商的底层协同创新,真正可持续地降低成本。Step 3 模型对国产芯片的深度适配和极致的效率优化,可以说正是这一模式下诞生的首个硕果,它不仅让自身更具应用性,也为整个国产算力生态的发展注入了强心剂。


第二个 One More Thing 是一份极其亮眼的「商业化半年报」。


主要得益于在智能终端 Agent 领域(手机和汽车)的率先布局和量产落地,阶跃星辰的商业化应用在 2025 年增长迅猛。阶跃星辰开放平台数据显示,2025 年上半年来自智能终端的多模态模型调用次数和调用量,较去年下半年环比增长均超过 800%。预计阶跃星辰年内收入将接近 10 亿元!


在手机领域,Top 10 国产手机厂商中过半已和阶跃星辰达成合作。其多模态能力已落地多个智能手机品牌的量产旗舰机型,陪伴着上亿人的日常生活。在汽车领域,其端到端语音大模型在吉利银河 M9 上实现行业首发上车,并联合发布了新一代智能座舱 Agent OS(预览版)。在具身智能和 IoT 领域,阶跃星辰也已经与一些头部厂商建立了合作关系。


从深耕技术到广积粮草,再到如今手握王牌模型、联合生态伙伴并交出亮眼的商业答卷;这一次,一向「埋头做事」的阶跃星辰,完全有理由、也理应更高调。


从多模态卷王到推理时代的「最优解」


在过去一年多的时间里,阶跃星辰凭借其惊人的迭代速度和全面的模型矩阵,被业界冠以「多模态卷王」的称号 。截至今天,其发布的 26 款模型中有多达 20 款是多模态模型,在整体基座模型中占比超过七成,且在多个权威榜单上名列前茅。


而 Step 3 的发布,清晰地标志着这位「卷王」已进入新的战略层次。它不再仅仅是展示肌肉、追求单一维度的技术领先,而是将目光投向了整个行业最核心、最迫切的痛点:在 AI 全面进入应用的「推理时代」,如何提供一个真正好用、普惠且强大的商业化模型 。


阶跃星辰给出的答案就是 Step 3。它并非简单的打榜模型,而是一个试图将多模态能力(多)、开源生态(开)、顶尖性能(好)与极致效率(省)四个关键维度进行完美融合的「最优解」。通过填补「好用且开源的多模态推理模型」这一市场空白,它为万千开发者和企业提供了一个无需在性能与成本、开放与能力之间艰难取舍的全新选择。


更重要的是,阶跃星辰选择了一条更艰难但更具长期价值的路径。相较于容易引发恶性竞争的 API 价格战,其联合芯片及基础设施厂商成立「模芯生态创新联盟」 致力于通过「模型和系统联合创新」的模式,从根本上推动技术普及和成本降低 。这不仅展现了其作为技术公司的格局,也为行业探索出一条更可持续的良性增长之路。


从「卷王」到「解题者」,阶跃星辰用 Step 3 证明了其对产业的深刻洞察。这不仅是一家 AI 公司技术实力的体现,更标志着其走向商业成熟的决心,也就是为市场打造一个真正有诚意、有价值、用得起的大模型


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

针对“国内大模型选择‘开源’路线,对整个AIGC行业会带来哪些具体的影响和机遇?”这个问题,我个人认为从宏观角度看,优秀基础模型的开源无疑是双刃剑。一方面,它极大降低了AIGC应用的开发门槛,赋能更多中小企业和个人开发者,正如Step 3所示,其针对国产芯片的优化会加速国产算力的普及和应用,形成正向循环,从而加速整体技术普及。另一方面,市场竞争会更加白热化,因为基础能力趋同后,各大厂商必须在应用场景、用户体验和商业模式上进行差异化竞争。这会迫使大家不断创新,但对于资源有限的企业而言,跟进的压力也会倍增。

呃,关于“文章提到Step 3‘多开好省’的理念是推理时代的一个‘最优解’,大家觉得商业化AI大模型除了这四点,还有哪些同样重要的考量因素?”我得说,我觉得还得加个“稳”字!“多开好省”听起来很美好,但要是时不时出点小bug,或者效果不稳定,那在生产环境里就是灾难。比如多模态识别结果突然抽风,或者推理响应时间忽快忽慢,那谁还敢用啊?另外,社区支持和迭代速度也很重要啊,开源了总得有人维护,出问题了能及时解决吧?不然“开”了也白开,成了“烂尾模型”就悲剧了。

哇塞,谈到“阶跃星辰联合多家国产芯片厂商成立‘模芯生态创新联盟’的举动,对国内AI产业长远发展意味着什么?仅仅是降低成本吗?”,这可太牛了!这简直就是AI界的“华为战略”啊,把产业链上下游都拉进来一起玩。它不仅仅是降低成本那么简单,更是要打造一个完整的国产AI生态闭环。想想看,模型的优化能反哺芯片设计时考虑AI需求,芯片也能为模型提供更底层的性能优化,这简直是梦幻联动!未来我们的手机、自动驾驶、智能家居,可能都会因此受益,性能更强,价格更亲民。这才是真正让AI技术普惠大众的关键一步。

对于“阶跃星辰联合多家国产芯片厂商成立‘模芯生态创新联盟’的举动,对国内AI产业长远发展意味着什么?仅仅是降低成本吗?”这个问题,表面上看是优化成本和效率,但其深远意义在于建立一个自主可控的AI核心技术栈。过去我们高度依赖国外的高端芯片和相关生态,这在关键时刻可能成为瓶颈。这个联盟的建立,意味着从底层算力到上层模型应用的深度协同优化,形成了一体化的解决方案。这将不仅提升国产AI的整体竞争力,更能保障国家在AI领域的战略安全和发展韧性。这是中国AI产业迈向成熟和独立的必经之路。

关于“国内大模型选择‘开源’路线,对整个AIGC行业会带来哪些具体的影响和机遇?是加速技术普及还是加剧市场竞争?”这个问题,我倒觉得这叫“卷上加卷,躺平无望”吧,哈哈。开源确实能让更多人玩起来,但真正能活下来的,还得看谁能把技术转化成真金白银。你看现在那么多开源大模型,有几个真正做出爆款应用的?Step 3厉害是厉害,但“开源”和“好用”之间还有很长的路要走。说不定最后大家还是去用那些闭源的,因为“省心”才是真的“省”。不过,对于国产芯片的支持,确实是一大步,未来可期!

针对“文章提到Step 3‘多开好省’的理念是推理时代的一个‘最优解’,大家觉得商业化AI大模型除了这四点,还有哪些同样重要的考量因素?”这个问题,我认为除了“多开好省”,我觉得“易用性”和“可定制性”是商业化落地的两大关键。一个模型再强大,如果集成部署复杂、接口不友好,或者无法根据行业特性进行深度微调,那它的商业价值就会大打折扣。再者,“数据隐私与安全”也至关重要,尤其是在企业级应用中,如何确保敏感数据的安全处理,更是客户选择模型服务时的核心顾虑。

哈哈,对于“国内大模型选择‘开源’路线,对整个AIGC行业会带来哪些具体的影响和机遇?是加速技术普及还是加剧市场竞争?”这个问题,我觉得这简直是给咱们这些开发者发福利啊!以前想玩那些最强的模型,不是得求爷爷告奶奶,就是得烧巨款。现在Step 3直接开源,性能还那么顶,这不就是让大家能站在巨人的肩膀上做创新吗?我觉得肯定能加速技术普及,你看那些小团队、个人开发者,成本大大降低后,能做出更多有意思的应用。竞争是肯定有,但那是良性竞争,大家一起把蛋糕做大,不是挺好吗?

针对“阶跃星辰联合多家国产芯片厂商成立‘模芯生态创新联盟’的举动,对国内AI产业长远发展意味着什么?仅仅是降低成本吗?”我觉得这就像以前我们只有豪车(高性能模型),但加油(推理)特别贵,而且油还得去进口加油站加(国外芯片)。现在这个联盟,就是把加油站(芯片)和汽车发动机(模型)一起优化,让你的豪车也能加“国产92号汽油”跑得又快又省!这不止是省钱,更重要的是,以后咱们自己能造出更适配的“车”和“油”,不用看别人脸色了。

对于“文章提到Step 3‘多开好省’的理念是推理时代的一个‘最优解’,大家觉得商业化AI大模型除了这四点,还有哪些同样重要的考量因素?”我的看法是,“可解释性”和“伦理规范”的重要性在商业应用中被低估了。尤其是在金融、医疗、法律等高风险领域,模型给出的判断和决策,我们需要知道其背后的逻辑,而不仅仅是结果。如果模型是一个黑箱,一旦出现问题,责任很难界定。此外,随着多模态能力的增强,如何避免生成偏见、歧视内容,确保AI的责任和公平,也是商业化部署时必须认真考虑的。技术再强,也需要正确的价值观指引。