阶跃星辰携手吉利开源两款多模态大模型:300亿参数Step-Video-T2V及产品级Step-Audio

阶跃星辰与吉利开源两款多模态大模型:300亿参数视频生成模型Step-Video-T2V和产品级语音交互模型Step-Audio。

原文标题:最大参数 300 亿!阶跃星辰与吉利联合开源两款多模态大模型

原文作者:AI前线

冷月清谈:

2025年2月18日,阶跃星辰与吉利汽车集团宣布开源两款合作研发的Step系列多模态大模型:Step-Video-T2V和Step-Audio。

Step-Video-T2V是目前全球参数量最大(300亿)的开源视频生成模型,可直接生成204帧、540P分辨率的高质量视频,在复杂运动、人物美感、视觉想象力等方面表现突出,并支持原生中英双语输入。阶跃星辰同时开源了针对文生视频质量评测的新基准数据集Step-Video-T2V-Eval,评测结果显示Step-Video-T2V的性能显著优于现有开源模型。

Step-Audio是业内首款产品级开源语音交互模型,可根据场景需求生成不同情绪、方言、语种、歌声和个性化风格的语音,并具备高质量对话能力。在多个公开测试集和HSK-6评测中,Step-Audio均取得了优异成绩。阶跃星辰还自建并开源了多维度评估体系StepEval-Audio-360,用于全面评估语音模型的各项能力。

吉利汽车集团CEO淦家阅表示,吉利致力于推动AI科技在智能汽车领域的普及,星睿AI大模型已与Step系列大模型完成深度融合,将提升用户智能座舱和智驾出行体验。阶跃星辰CEO姜大昕博士表示,开源旨在分享技术成果,推动多模态模型技术发展和产业落地。

怜星夜思:

1、参数量达到 300 亿的 Step-Video-T2V 生成视频的清晰度只有 540P,这是否意味着模型的参数量和生成视频的清晰度之间并非简单的线性关系?
2、Step-Audio 被称为“更懂中国话”,这具体体现在哪些方面?除了 HSK-6 评测,还有哪些指标可以衡量 AI 模型对中文的理解程度?
3、阶跃星辰和吉利合作开源这两款大模型,对国内的 AI 生态和智能汽车行业会带来哪些影响?

原文内容

作者 | 冬梅

2025 年 2 月 18 日,阶跃星辰和吉利汽车集团联合宣布,将双方合作的阶跃两款 Step 系列多模态大模型向全球开发者开源。其中,包含 目前全球范围内参数量最大、性能最好的开源视频生成模型阶跃 Step-Video-T2V(https://github.com/stepfun-ai/Step-Video-T2V),以及行业内首款产品级开源语音交互大模型阶跃 Step-Audio(https://github.com/stepfun-ai/Step-Audio)。即日起可在跃问 APP 内体验。

吉利汽车集团 CEO 淦家阅表示:“吉利致力成为智能汽车 AI 科技的引领者和普及者,早在 2021 年,吉利就围绕芯片、软件操作系统、数据和卫星网搭建了端到端的自研体系和生态联盟,构建了完善的‘智能吉利科技生态网’,驱动用户在智能驾驶、智能座舱上的体验不断进化。目前,吉利全栈自研的星睿 AI 大模型已经与阶跃 Step-Video-T2V、Step-Audio 等大模型完成了深度融合,将为用户带来更智能、更高阶的座舱交互与智驾出行体验,推动 AI 科技在智能汽车领域的普及。”

据了解,这也是阶跃星辰首次开源其 Step 系列基座模型。阶跃星辰创始人、CEO 姜大昕博士表示:“阶跃星辰一直以实现 AGI 为目标坚持研发基座大模型。我们深知 AGI 的实现离不开全球开发者的共同努力,开源的初心,一方面是希望跟大家分享最新技术成果,为开源社区贡献一份力量;另一方面,我们相信多模态模型是实现 AGI 的必经之路,但目前尚处于早期阶段,期待与社区开发者集思广益,共同拓展模型技术边界,并推动产业落地。”

阶跃 Step-Video-T2V:
300 亿参数,可直接生成高分辨率视频

阶跃 Step-Video-T2V 是目前全球范围内参数量最大、性能最好的开源视频生成大模型。阶跃 Step-Video-T2V 模型的参数量达到 300 亿,可以直接生成 204 帧、540P 分辨率的高质量视频,这意味着能确保生成的视频内容具有极高的信息密度和强大的一致性。

从生成效果来看,阶跃 Step-Video-T2V 在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力,且语义理解和指令遵循能力突出,能够高效助力视频创作者实现精准创意呈现。用户可以在跃问网页端和跃问 App 上体验阶跃 Step-Video-T2V 的视频生成能力 。

为了对开源视频生成模型的性能进行全面评测,阶跃星辰还发布并开源了针对文生视频质量评测的新基准数据集 Step-Video-T2V-Eval。该测试集包含 128 条源于真实用户的中文评测问题,旨在评估生成视频在运动、风景、动物、组合概念、超现实、人物、3D 动画、电影摄影等 11 个内容类别上质量。

Step-Video-T2V-Eval 评测结果

评测结果显示,阶跃 Step-Video-T2V 的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面的表现,均显著超过市面上既有的效果最佳的开源视频模型。

据了解,目前在 跃问网页端 和跃问 App 上,都可以体验 阶跃 Step-Video-T2V 的视频生成能力 。

阶跃 Step-Audio:
业内首款产品级开源语音交互模型

据阶跃星辰介绍,这款阶跃 Step-Audio 是行业内首个产品级的开源语音交互模型,能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地高质量对话。模型生成的语音具有超自然、高情商等特征,同时也能实现高质量的音色复刻并进行角色扮演,满足影视娱乐、社交、游戏等行业场景下应用需求。

在 LlaMA Question、Web Questions 等 5 大主流公开测试集中,阶跃 Step-Audio 模型性能均高于行业内同类型开源模型,取得了最高得分。阶跃 Step-Audio 在 HSK-6(汉语水平考试六级)评测中的表现尤为突出,是更懂中国话的开源语音交互大模型。

StepEval-Audio-360 基准测试

此外,由于目前行业内语音对话测试集相对缺失,阶跃星辰自建并开源了多维度评估体系 StepEval-Audio-360 基准测试,从角色扮演、逻辑推理、生成控制、文字游戏、创作能力、指令控制等 9 项基础能力的维度对开源语音模型进行全面测评。通过人工横评后的结果显示,阶跃 Step-Audio 的模型能力十分均衡,且在各个维度上均超过了此前市面上效果最佳的开源语音模型。

 直播预告

2 月 11 日至 2 月 27 日,AI 前线视频号、InfoQ 视频号、霍太稳视频号带来 DeepSeek 系列直播,解析 DeepSeek 爆火背后的技术突破、商业化路径与行业影响。从 纯强化学习复现 o1 能力到算力控制,从创新文化到 AI 竞争格局,每场直播都深度解析一个关键问题。

📅欢迎扫码二维码预约直播,一同探索 DeepSeek 如何引领 AI 领域的创新与未来!

 会议推荐

在 AI 大模型技术如汹涌浪潮席卷软件开发领域的当下,变革与机遇交织,挑战与突破共生。2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,以 “智能融合,引领未来” 为年度主题,汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。现在报名可以享受 8 折优惠,单张门票立省 1360 元,详情可联系票务经理 18514549229 咨询。


今日荐文





图片
你也「在看」吗?👇

“更懂中国话”应该指的是 Step-Audio 对中文语境、语义、文化背景等方面的理解更加深入,而不只是简单的词汇和语法识别。除了 HSK-6,还可以考虑一些中文特有的语言现象,例如成语、歇后语、方言等,以及对中文复杂句式、修辞手法的理解能力,来评估 AI 模型对中文的理解程度。

我觉得最大的影响在于打破了国外巨头在AI领域的垄断,为国内自主研发的大模型提供了发展空间,有利于构建自主可控的AI技术体系。同时,也促进了产学研的结合,加速了AI技术在汽车行业的应用落地。

我觉得可以从实际应用场景来评估,比如在中文语音助手、智能客服、机器翻译等场景下的表现,看它能否准确理解用户的意图,并给出合适的回应。还可以进行一些图灵测试,看看 Step-Audio 生成的对话是否能让人误以为是真人。

楼上说的有道理,参数量和分辨率的关系就像汽车的排量和最高速度,排量大不等于速度一定快,还受变速箱、风阻等因素影响。Step-Video-T2V可能在其他方面做了优化,比如帧率、色彩、动态范围等,这些因素综合起来才能决定最终的视频质量。

补充一下,除了应用场景,还可以从技术层面进行评估,比如分析模型在处理中文文本时的词向量表示、句法分析、语义角色标注等方面的准确率和效率。还可以参考一些中文NLP相关的学术评测,例如CLUE、DuReader等。

开源模型降低了AI技术门槛,有助于促进国内AI生态的繁荣,更多开发者可以基于这些模型进行二次开发和创新应用。对于智能汽车行业,这两款模型可以提升智能座舱和自动驾驶的体验,推动更丰富的车载交互和更智能的驾驶辅助功能的落地。

开源也带来了一些挑战,比如模型的安全性、可控性、伦理问题等都需要关注。此外,如何平衡开源和商业化也是一个需要思考的问题。但我相信,开源的积极影响是主要的,它将推动国内AI产业的快速发展。

对,模型参数量和视频分辨率并非简单的线性关系。更大的参数量通常意味着模型有更强的学习能力,可以理解更复杂的场景和生成更细节的内容,但分辨率的提升涉及到更多的像素信息,需要模型在更高维度上进行处理,这不仅仅是参数量的问题,还涉及到模型的架构设计、训练数据和优化策略等方面。可以理解为建更大的房子(参数)不一定能建更高的楼层(分辨率),还需要更先进的建筑技术(架构)。

我觉得这个问题可以从两个方面来看,一方面,参数量大确实可以提升模型的表达能力,但分辨率提升带来的计算量增长是指数级的,300亿参数在540p下可能表现最佳,如果硬要上更高的分辨率,算力消耗和训练成本都会急剧上升。另一方面,分辨率只是一方面,Step-Video-T2V在语义理解、内容连贯性等方面可能表现更好,这比单纯追求分辨率更有意义,毕竟清晰但逻辑不通的视频也没啥用。