百度蒸汽机2.0重磅升级:音视频一体化,引领中文AIGC视频创作新范式

百度蒸汽机2.0实现多人有声视频一体化生成,中文适配度高,价格降至行业70%。独特商业模式促进生态价值增长,非简单调用收费。

原文标题:百度用50天将视频价格打到行业70%!内部负责人:成本优化还有空间

原文作者:AI前线

冷月清谈:

百度蒸汽机(MuseSteamer)音视频一体化模型近期迎来重大升级,首次实现了多人有声视频的一体化生成。该模型作为全球首个中文音视频一体化的I2V模型,不仅支持环境音效,更能够一体化生成多角色语音,创作者只需一张图和提示词即可完成AIGC视频创作。此次升级的核心在于五大技术突破,包括语音与唇形、表情、动作的毫秒级精准对齐,以及首创多模态潜在空间规划技术,确保复杂场景下的叙事连贯性。模型对中文场景深度适配,还原度超98%,并能生成端到端电影级画质与大师级运镜。团队通过端到端训练而非模块化路径,解决了多角色一致性等核心挑战,但仍面临音色与人物匹配、以及视频长时长的生成成本问题。

在定价方面,百度蒸汽机同步推出了极具竞争力的价格体系,低至行业同类产品的70%。之所以能实现大幅成本下降,得益于百度团队多年来在GPU算力积累和工程优化上的深厚经验,以及策略工程架构与底层算力、百度智能云百舸平台和自研昆仑芯片的协同作用。团队强调,成本优化仍将是未来的重点方向,且不认为会引爆单纯的价格战。

百度蒸汽机的商业模式独特,并非单纯依赖调用次数收费,而是由内部需求驱动,着眼于提升整个生态的价值。自上线以来,模型的内部调用量与分发量稳步上升,并通过广告投放间接促进商业收益,显著提升了用户留存和整体体验。文章指出,目前百度搜索流量中已有超过60%融入AIGC内容,视频质量和分发量均有明显增长,这种生态价值的提升被认为比单纯的降本更具意义,其整体带动规模远超单次调用费用。

怜星夜思:

1、文章提到AI视频生成未来将朝着更长时长、实时生成与交互方向发展,但当前以扩散模型为主的技术架构在延长时长时成本会呈平方级增长。除了成本,你认为实现更长、更自然、更具叙事连贯性的AI生成视频,目前还有哪些核心技术挑战?
2、百度蒸汽机将视频生成价格打到行业70%的水平,并且其负责人表示“不认为这样的低价会爆发单纯的价格战”。你如何看待这个观点?在AI视频生成这个新兴市场,价格竞争最终将走向何方?
3、百度蒸汽机的商业模式不仅限于“按调用次数收费”,而是通过促进内部业务调用和生态价值提升来间接创收。这种模式对整个AI内容创作行业,尤其是中小型创作者和用户,会带来哪些影响?

原文内容

作者 | 褚杏娟

8 月 21 日,百度蒸汽机(MuseSteamer)音视频一体化模型完成重大升级,在行业内首次实现多人有声视频一体化生成。其 Turbo 版、Lite 版、Pro 版及有声版全面开放,用户可通过百度搜索“百度蒸汽机”或登录“绘想”平台体验,企业用户可在千帆平台享受高性能视频生成服务。

据介绍,百度蒸汽机是全球首个中文音视频一体化生成的 I2V 模型,不仅支持环境音效,更支持多角色语音的一体化生成。百度蒸汽机 2.0 有声版模型让 AIGC 视频创作彻底告别了配音,创作者对完美视听语言的一切想象,只需要一张图和提示词。

以中文切入,五大技术突破

在生成技术方面,百度蒸汽机 2.0 版本进行了更深入的探索和拓展。根据介绍,此次升级有五大核心技术突破:

  • 行业首次实现多人有声音视频一体化生成,语音与唇形、表情、动作的毫秒级精准对齐,复杂场景下依然稳定;

  • 首创多模态潜在空间规划技术(Latent Multi-Modal Planner),自主协调多角色身份、情感与互动逻辑,保障电影级叙事连贯性;

  • 中文场景深度适配,以超 98% 的还原度精准呈现中文语音细节与情感表达;

  • 端到端电影级画质生成,通过精准主体动态刻画,打造真实细腻的人物表现力;

  • 大师级运镜控制,内置数十种专业镜头语言,精准响应文本指令,实现视觉细节与创意意图的完美对齐。

“我们推出的模型是首个支持中文的音视频一体化生成大模型。”百度商业研发首席架构师李双龙表示。在面向中文用户的设计中,团队重点关注中文特有的发音习惯和语境表达。通过大规模的中文语料训练以及本地化数据润色,模型能更好地理解并生成符合中文语言特点的内容。

李双龙介绍,研发中的核心难点首先在于实现“形、声、音容”一体化的生成效果,尤其是在多角色场景中,画面要连续自然,声音要真实可信,更重要的是口型、表情、动作与语音节奏要完全对得上,实现自然互动。这是一项复杂的技术任务。

目前,模型还存在一些可优化的方面,例如音色与人物的匹配度。 百度商业体系商业研发总经理刘林表示,当前在音色方面,团队采用生成加检索的方式逐步构建音色库,未来将持续扩充和优化,以实现更匹配人物、场景和情境的声音表现。

其次,端到端训练是实现一体化生成的关键。与业内常见的“模块化”路径不同,蒸汽机团队采用一体化的方式直接生成完整内容,这要求模型在技术架构上具备更高的集成能力和整体优化能力,也带来了显著的工程挑战。尤其在多角色一致性方面,传统方法通常依赖人工预设,比如提前安排发言顺序、内容及音色,而蒸汽机通过统一的潜在空间规划,让模型在生成过程中自主决定人物的对话逻辑与互动情绪。

未来,视频生成技术将朝着更长时长、实时生成与交互方向发展。

当前生成内容以短片段为主,限制在 5 秒到 10 秒,而实际应用如数字人直播或电影长镜头,需无限时长生成能力。但当前主要受限于以扩散模型为主的技术架构——延长生成时长会导致成本呈平方级增长。例如,从 10 秒增至 20 秒甚至 100 秒,成本可能增加上百倍,因此现有架构难以支撑无限时长视频的生成。

扩散模型在一致性和生成质量上具有优势,但在实时生成上存在瓶颈;自回归模型虽适合序列生成,但存在误差累积问题,将两个架构结合起来也不能解决误差累积问题。据悉,蒸汽机团队在结合两者优点的基础上进行了创新,目前已取得内部突破,既保持生成一致性,也提升流畅度和叙事合理性,同时减少误差累积,相关进展将在后续版本中发布。

如何做到定价低至行业 70%

随着百度蒸汽机全系版本开放,百度同步公布了极具竞争力的价格体系。针对不同需求用户,平台提供了梯度会员服务,价格低至行业同类产品的 70%。

“刊例价之外,我们还面向 B 端和 C 端用户,包括绘想平台的会员体系提供各类优惠定价,所有价格均控制在市场水平的七折或更低。”百度副总裁、移动生态商业体系负责人陈一凡说道。

“蒸汽机让好莱坞级大片镜头不再需要百万预算。”曾参与《黑客帝国 3》《变形金刚 3》《三体》等视效工作的国际知名视效指导姚骐,用百度蒸汽机 2.0 制作的科幻短片《归途》共有 40 多个镜头,每个镜头生成 3 次,共用 AI 生成超 120 个片段素材,成本低至百元。

陈一凡表示,在收集需求的过程中发现,除了质量,成本更是用户是否愿意使用的决定性因素。成本若不下降,用户拒绝使用,那根本无从谈及质量提升。因此,团队在模型训练过程中高度重视成本控制。

之所以能够实现如此力度的定价,源于团队多年来在 GPU 算力和工程优化上的积累。如今,利用 GPU 进行搜索、广告和推荐已十分普遍,但自 2016、2017 年起刘林团队便率先推进,因此团队对基于 GPU 的计算架构极为熟悉。得益于此,团队能够精准优化训练过程,包括调整训练集、优化算子等多项工作,显著提升了效率。

“与以往更侧重算法和策略的思路不同,当前大模型的工程实践至关重要,而我们商业团队在工程方面拥有丰富经验,因此在短短几十天内既提升了生成质量,也实现了成本下降。”具体来说,团队依托策略工程架构与底层蒜粒相结合,以及百度智能云百舸平台与自研昆仑芯片的专业适配,共同推动成本下降。

“在发布前的测试中,我们就已经发现成本仍有下探空间,团队将持续优化。我们认为当前用户创作门槛仍不低,即使价格从 2 元降至 1.4 元,生成单条视频的成本仍有一定压力,因此成本优化仍是未来的重点方向。”陈一凡表示。

此外,陈一凡也表示,这一市场不可能像文字生成那样达到极低的成本,因为涉及较重的算力投入。因此,他认为这样的低价不会爆发单纯的价格战。“在一定周期内,降价仍将持续,各家将依据自身商业模式应对经营压力。”

不依赖调用次数的商业模式

”早在两三个月前,我们就已明确:无论是 ToB 还是 ToC 业务,都已有成熟的盈利模式。但对我们而言,最根本的出发点始终是内部需求的驱动。”陈一凡说道。

不同于技术驱动的模式,百度蒸汽机的研发是由应用和需求驱动的新范式。自 7 月初上线以来,百度业务的内部调用量与分发量稳步上升。

据悉,在过去发布的 50 多天中,蒸汽机模型一直提供免费版本,表面上看未带来直接收入,但广告主已经实际使用并开始投放广告,这间接促进了商业收益。同时,创作者在搜索和信息流场景中应用 AIGC 内容,也使用户留存和整体体验有了明显提升。这些变化正是陈一凡所看重的“收入”来源——它不只体现在单次调用费用,而是源于生态价值的整体增强。

“如果这项技术能够帮助用户留存提升哪怕一个百分点,那都将是一个极其显著的进步,而我们目前已经初步观察到了这样的积极信号。这样的提升可以直接反映在百度搜索收入的增长上,其整体带动规模将是相当可观的。”陈一凡说道。

根据百度最新财报,目前搜索流量中已有超过 60% 融入了 AIGC 生成的内容,视频质量显著提升,分发量迅猛增长。通过更精准的分发和更友好的创作者体验,收益提升比降本更具意义。目前百家号日更达数百万条,其中 AIGC 应用占比不断扩大,甚至出现完全由 AIGC 生成的高热度视频。

“我们并非为了替代原有站点内容而生硬切换,而是因为切实带来了用户体验的提升才进行迭代。”陈一凡表示,“这种收益模式与单纯按调用次数收费的方式完全不同,它带动的是整个平台生态的升级和增长。从规模上看,这类收益相比于仅依靠调用量产生的收入,大约高出两个数量级。”

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

会议推荐

10 月 23 - 25 日,QCon 上海站即将召开,现在 8 折优惠最后 3 天,单张门票立省 1360 元,详情可联系票务经理 18514549229 咨询。


今日荐文

图片

你也「在看」吗?👇

哈哈,这不就是互联网的“羊毛出在猪身上,狗买了单”嘛!对普通用户来说,能刷到更多有意思的、高质量的AI视频,体验肯定会更好。对小创作者,如果百度真的能通过这种方式,让我的AI作品流量暴涨,甚至能间接接到广告,那当然是好事啊!但如果只是给百度平台导流,而我作为创作者最终收益平平,那这种“免费”就变成了工具的租赁费,用我的内容去壮大你的生态,而我成了免费劳动力。所以,关键还得看这个生态怎么分配流量和收益,是不是真的对创作者友好。

要理解百度不认为会爆发单纯价格战的观点,需要审视其核心竞争力与成本结构。百度拥有深厚的GPU算力积累、自研昆仑芯片以及整合的智能云平台,这构成了一个垂直整合的AI基础设施。这种全栈式能力使其能在成本优化上具备独特的优势,降低单位生成成本。其他不具备类似基础能力的厂商短期内难以复制其低价策略而仍保持盈利。因此,未来的价格竞争可能不是简单的“比谁更低”,而是效率与技术壁垒的竞争。最终市场可能会形成少数几家拥有全栈技术的巨头和众多专注于特定垂直应用或提供差异化服务的‘小而美’公司并存的格局。

我觉得最难的是语义连贯性和情感表达的深度。短视频可能还好,但如果AI要生成一部完整电影,人物的眼神、微表情、肢体语言要怎么才能自然衔接,而不是突兀地变化?比如一个角色从震惊到悲伤,这个情感曲线的演绎,AI真的能把握到位吗?而且,电影是有故事逻辑的,AI要怎么“理解”剧情,并把这些理解在视觉上呈现出来,这可不是简单地拼接画面就能解决的问题。

这就像当年打车软件大战一样,先烧钱抢市场,价格肯定是最直接的手段。百度说不打价格战,大概意思是它有自己的‘护城河’,不怕别人跟。但实际情况是,只要有利可图,总会有竞争者想分一杯羹,哪怕是局部市场。我觉得AI视频生成最后会变成高端定制化服务和大众化免费或低价工具并存的局面。简单、快速的AI视频生成可能会越来越便宜,甚至免费,而那些需要特定风格、高精度或者复杂叙事的,就会是高附加值的服务。

害,我只关心什么时候我能用AI免费生成一部我自己的《三体》小电影。除了那些深奥的技术,我觉得AI还挑战在如何避免“千篇一律”的生成风格。现在很多AI画图作品都隐隐有种“AI味儿”,那AI视频会不会也这样?如果大家都用同一个模型生成,最后出来的视频都长一个样,那还有什么看头?电影大师的运镜和分镜可不是靠算法硬凑出来的哎!

关于实现更长、更自然的AI生成视频,除了文中提到的成本问题,我认为主要挑战在于多模态时间一致性与非显式知识编码。目前的模型在局部一致性上表现不错,但难以在长时间序列中维持角色身份、情绪、画风、光照、动作连贯性,尤其是当场景或角色发生复杂交互时。这需要模型对“世界知识”和“叙事逻辑”有更深层次的理解与记忆能力,而不仅仅是像素级的生成。

这种“生态价值”优先的商业模式,对整个AI内容创作行业而言,预示着平台化、集成化和流量变现的深度融合。对于中小型创作者,一方面,它可能降低了AI工具的初期使用门槛,使其能够免费或以更低成本获取高质量内容生成能力。但另一方面,这种模式也可能强化平台对内容的掌控力,创作者的流量和收益将更多地受制于平台分发策略和生态规则。对于用户来说,则意味着能接触到更多由AI生成的高质量内容,提升了搜索、信息流等体验,但同时也可能面临内容同质化、个性化推荐受限等挑战。

价格战嘛,嘴上说不打,身体却很诚实。百度有资本和技术优势,当然可以说‘我们不会打价格战’,因为它有底气去降价。但对于其他刚起步或者资源没那么充足的AI公司来说,百度一下降这么多,市场压力肯定山大。我觉得,短期内肯定会有一些价格波动,甚至洗牌。长期来看,**价格会趋于稳定,但核心竞争会转向谁能提供更高的视频质量、更强的定制化能力,以及更人性化的交互体验。**毕竟,用户最终还是追求好内容,而不是一味的低价。