阶跃星辰发布 Step 3.7 Flash:面向 Agent 工作流的高效率多模态模型

Step 3.7 Flash 发布,主打低成本、高速、多模态 Agent 工作流。

原文标题:阶跃发布Step 3.7 Flash:一款为「烧钱时代」准备的Agent模型

原文作者:机器之心

冷月清谈:

阶跃星辰推出 Step 3.7 Flash,定位不是旗舰模型的低价替代品,而是为高频、多步骤、低延迟的 Agent 工作流重新设计的 Flash 模型。该模型总参数 196B,采用稀疏 MoE 架构,推理激活参数 11B,配备 1.88B ViT 视觉编码器,支持 256K 上下文,推理速度最高 400 TPS。

文章重点强调,真实 Agent 任务会频繁调用模型、搜索、工具、代码执行和验证,成本与延迟容易快速累积,因此模型的速度、稳定性和成本控制与能力同样关键。Step 3.7 Flash 在多模态理解、搜索检索、工具调用、GUI 操作、代码生成等方面形成较完整的 Agent Loop 能力。

测评部分展示了其在视觉理解、Deep Research、多 Agent 并行、知识图谱构建和安卓手机 GUI 操作中的表现,例如跨 App 查询天气、规划路线、整理笔记,以及从小红书检索耳机推荐并跳转京东购买。文章认为,Flash 模型正在成为 Agent 时代的独立品类,其核心价值在于可持续调用、低成本运行和任务链路稳定完成。

怜星夜思:

1、Flash 模型会不会真的成为 Agent 应用的主力,而不是旗舰模型的“缩水版”?
2、Agent 成本越来越高,企业应该优先优化模型价格、调用次数,还是任务流程设计?
3、多模态和 GUI 操作能力成熟后,普通用户会更愿意让 AI 直接操作手机和电脑吗?
4、Step 3.7 Flash 这类模型强调“搜索进入推理循环”,会不会带来更可靠的 Deep Research?

原文内容

图片
编辑|杨文、冷猫

今年 3 月份,奥特曼公开表示:


「我们看到这样一个未来:智能将成为一种公用事业,就像电力或自来水一样,人们会按表从我们这里购买它。」


https://x.com/Vivek4real_/status/2059058179955380493?s=20


这个未来来得比预想更快,也比预想更贵。


米哈游员工为了冲项目,搭了几十个 Agent,一晚上烧掉 200 万元 token。


https://x.com/wayen_ai/status/2058786389009854868?s=20


Uber 四个月烧光了 2026 年全年 AI 预算,微软财大气粗也扛不住 token 消耗,直接把 Claude Code 权限砍了。


就连英伟达副总裁都直言:「我们团队用 AI 的花费比请真人还贵。现在 AI 的成本已经超过人类员工了。」


https://x.com/Vivek4real_/status/2058607634182537496?s=20


这背后有其结构性原因。


真实的 Agent 工作流和普通对话式任务不同,模型进入生产环境后,一个 Agent 任务动辄触发数十次模型调用,搜索、工具调用、代码执行、结果验证…… 每一轮都在累积延迟,token 消耗呈指数级增长。


开发者的实践已经验证,在选择 Agent 核心模型时,任务场景、响应速度和成本,与工具调用能力同等重要。盲目追求大参数量,在工程上并不可取


于是今年以来,Flash 模型集中爆发。


Gemini 3.5 Flash、GPT-5.4 mini、Claude Haiku 4.5、Qwen3.6-Flash、DeepSeek-V4-Flash…… 头部厂商几乎同步押注轻量高效路线。


但在这场轻量模型竞赛中,很多厂商的思路是削减参数、压缩成本、牺牲部分能力。阶跃星辰则不同,它不把 Flash 模型当旗舰平替,而是专门为 Agent 工作流重新设计一款模型。


继 Step 3.5 Flash 后,阶跃星辰最近又推出新一代高效率 Flash 开源模型 ——Step 3.7 Flash


该模型最大特点就是(模)、(速)、(用)、(钱)。总参数 196B,采用稀疏 MoE 架构,推理激活参数仅 11B,配备 1.88B ViT 视觉编码器,推理速度最高 400 TPS,支持 256K 上下文。


作为一款面向真实 Agent 工作流设计的高效率模型,它具备原生多模态理解能力,并打通了搜索、工具调用、GUI 感知、代码生成等完整 Agent Loop 执行能力。


从 benchmark 来看,Step 3.7 Flash 没有明显短板。在通用 Agent 能力上,ClawEval-1.1 以 67.1% 拿下参测模型第二,Toolathlon、GPDval、HLE w. Tool 三项也均处于领先梯队;Agentic Coding 方向,SWE-PRO 达到 56.3、Terminal-Bench v2.1 达到 59.5;多模态方向则是 SimpleVQA(search)以 79.2 位居榜首,V*(python)以 95.3 排在第三。

柱状图中左一为 Step 3.7 Flash、左二为 Step 3.5 Flash(Multimodal 除外)


接下来,我们就将 Step 3.7 Flash 放进真实的工作场景测评下。


原生多模态:它能「看懂」任务现场吗?


先来试试原生多模态能力


为了压缩成本削减参数,有些轻量模型最先被牺牲的往往是多模态能力。


而在真实任务里,大量输入根本不是干净的结构化文本,还包括 GUI 截图、扫描文档、网页内容,Agent 要进入这些场景,视觉理解是绕不开的前提。


Step 3.7 Flash 新增多模图像理解、识别、推理、感知,可处理复杂视觉信息,并在跨模态上下文中进行联合推理。


比如让它分析 Pinterest 界面帖子的设计特点,它不仅能识别 UI 元素,还能理解应用界面的内容结构、设计逻辑与信息组织方式。



再比如框选驾驶舱界面,让它生成起飞操作说明。


模型需要同时识别大量专业仪表、按钮与状态信息,并理解「如何起飞」背后的操作逻辑,什么时候推油门、何时收起起落架等。


相比传统多模态模型的描述画面, Step 3.7 Flash 完成的是「环境感知 → 状态理解 → 任务推理 → 操作指导」的完整闭环。



在处理视觉任务时,常规做法是把大量视觉常识和感知能力硬塞进模型权重,但对 11B 激活量级的 Flash 模型来说,这条路天然受限。阶跃选择在权重里只留最核心的推理引擎,把感知边界推到推理阶段动态解决。


具体而言,模型可在推理中途自主对图像进行裁切、缩放和重读,告别「一眼定生死」的单步感知局限,当任务超出自身视觉常识边界时,还能主动发起检索、交叉验证。「重新看」和「去查证」在同一个推理循环内自主闭环,能力上限不再受任何单点工具约束。


Deep Research:快速检索,结构化交付


在 Deep Research 测评中,我们让 Step 3.7 Flash 围绕「2026 年第一季度中国新能源汽车市场」这一主题,检索 3-5 个高可信度来源,对比比亚迪、特斯拉、理想、小鹏四个品牌的市场表现,生成一份结构化调研简报。


模型快速完成检索和信息整合,从销量数据、价格区间、主要优缺点以及购车建议等方面进行结构化输出。


图片


在 Step 3.7 Flash 的工作方式里,搜索真正进入了推理循环本身,不再是外挂的辅助工具。


它能在推理中途主动判断「当前信息是否足够」,不足则自主发起新一轮检索,检索回来再判断是否可信,再决定下一步怎么做。这种「搜 - 理解 - 再搜 - 验证 - 再推理」的循环,让模型在任务执行过程中能持续锚定真实世界的信息。


多 Agent 并行:400 TPS 能承载多少并发?


下面这个场景则是多个 Agent 并行推理测试。


40 个不同身份的虚拟角色扮演产品评测团,对一个产品问题进行并行判断,然后实时汇总它们对 5 个 MVP 方向的偏好。


这群虚拟专家可以同时分析,分工执行,最终给出更稳健、更可解释的结果。



对于需要大量并发推理的 Agent 场景,模型推理速度直接决定整个工作流能跑多快、能承载多少并行任务。


此外,模型还能依托精准推理能力和丰富知识储备,快速构建结构清晰、关联明确的知识图谱。



GUI 操控:从「理解界面」到「操作设备」


Step 3.7 Flash 在 GUI 理解能力不仅限于多模态识别和规划,作为一个基座模型,已经具备实时操作设备的能力。


我们找来一台安卓测试机,不做任何额外的模型微调或本地推理配置,直接以 Step 3.7 Flash 作为决策大脑,看它在真实手机上能做到什么程度。


注:本次测试采用小米手机,使用小米互联服务「妙享桌面」同步至电脑录屏,敏感信息马赛克处理。


第一关:信息汇总模型顺利完成,基本流畅:


「帮我看看微博文娱热搜上有哪些内容,总结一下给我」。


视频开启倍速


第二关:出行规划。任务涉及多个条件判断和跨 App 操作:


我明天早上 9 点要到「北京国贸大厦」开会。帮我查一下明天早上的天气, 如果下雨就帮我叫一个网约车(不用真的下单,截图到确认页面即可),如果不下雨就查一下地铁路线。打车和查线路均使用百度地图。最后,把天气情况、出行方案和预计出发时间整理成文字输入到笔记中。


视频开启倍速


Step 3.7 Flash 在复杂逻辑的 GUI 操作中表现游刃有余,甚至能理解地图导航中查看地铁线路的细节,最终成功从多个 App 采集信息,整理进备忘录。


第三关:社媒 + 电商跨平台任务


我想了解一下最近新出的降噪耳机。帮我在小红书上搜「2026 降噪耳机推荐」,找 3 篇点赞超过 300 的笔记,提取每篇推荐的型号、价格区间和博主提到的优缺点,找到最合适的一款帮我在京东购买。


视频开启倍速


社交媒体内容多样、电商平台 UI 结构复杂、逻辑判断难度高,但最终结果超出预期,全程只有电商平台的安全验证环节需要真人配合操作,其余一切流畅执行。


Agent 时代,Flash 模型不是旗舰版平替


过去,Flash 模型常被视为旗舰模型的「轻量替代品」,用在不那么重要的场景,或作为成本兜底选项。


这个认知正在被打破。


随着推理、规划、工具调用、长上下文和环境反馈能力持续增强,模型越来越多地承担起任务拆解、工具选择、执行反馈和结果修正等 Agent 核心环节。


Flash 模型由此成了专为高频、多步骤、低延迟的 Agent 工作流优化的独立品类。


当然,这里有一个关键前提,Flash 模型必须足够「能干」,否则省下来的成本会以任务失败率的代价偿还回去。如何在压缩推理成本的同时,不丢掉完成复杂任务的能力,才是 Flash 模型赛道真正的技术分水岭。


阶跃星辰正是沿着这条路线突破的。今年 2 月,Step 3.5 Flash 上线,主打在 Agent 场景实现「更快、更强、更稳」的执行效果,上线两天登顶 OpenRouter Trending 榜,一个月后拿下 OpenClaw 调用量月榜全球第一。


在此基础上,Step 3.7 Flash 进一步迭代,兼顾更多能力的协同效率,并在成本、稳定性与部署形态上进一步满足长期运行的要求。


这正是 Agent 工作流的本质要求。拿着有限预算跑完整条任务链,谁能在每一步调用中少犯错、少超时、少超支,谁才是生产环境的真正赢家。在这个维度上,最好的模型未必是单次推理能力最强的,但一定是能被持续调用、稳定运行、成本可控的


正如阶跃星辰联合创始人、CTO 朱亦博所言:「我们相信未来的大模型应用方式,不是一个超大尺寸的模型解决所有问题。人类社会有不同的任务,我们追求的是许多不同模型的矩阵,Agent 是解决任务的方式。」


而 Step 3.7 Flash 证明,Flash 模型不是旗舰的廉价替代品,它可以有自己的完整能力矩阵,「多快好省」地成为 Agent 时代的主力。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

回答这个问题:会更可靠一点,但别神化。它像一个手脚很快的研究助理,可以帮你翻资料、列框架、找矛盾点;但如果你让它直接当投委会拍板,那可能就从 Deep Research 变成 Deep Regret 了。

2 个赞

我站调用次数优化。Agent 最恐怖的是你以为只问了一次,其实背后搜了十次、总结五次、验证三次。价格便宜一半不如调用次数砍掉三分之二。尤其多 Agent 并行那种,看起来很酷,账单也很酷。

1 个赞

关于 Flash 是不是“缩水版”,我感觉要分场景。写复杂论文、搞前沿数学,旗舰模型还是更稳;但如果是客服、运营自动化、数据整理、GUI 操作这种高频任务,Flash 模型反而更像专用工具,不是低配,是另一个赛道。

1 个赞

我回答“Flash 模型会不会成为 Agent 主力”这个问题:我觉得会,但前提是任务不是纯拼智商上限。Agent 场景里很多成本花在反复调用、查资料、点按钮、校验结果上,单次推理最强未必最划算。能稳定跑完流程、延迟低、价格低,可能比偶尔神来一笔更重要。

3 个赞

说实话,如果 AI 能帮我关掉各种 App 的弹窗、自动找会员取消入口、整理相册,我愿意立刻交出手机控制权三分钟。但要是它敢替我给前任点赞,那就不是 Agent,是事故。

1 个赞

回答这个问题我想到了公司里的实习生和专家:不是所有活都要专家亲自干。Flash 模型像能干活的实习生,便宜、反应快、可以多开几个;旗舰模型像专家,关键方案和疑难杂症再上。Agent 真落地大概率是混合编队。

3 个赞

这个问题其实涉及信任设计。技术上能识别界面和执行动作,只是第一步;产品上要做到可解释、可回滚、可授权。比如每一步显示它为什么点这里、下一步要做什么,用户才可能慢慢放心。

2 个赞