PresentAgent:AI智能体如何将长文档自动转化为演讲视频

PresentAgent:AI自动生成带解说演讲视频,让文档秒变生动演示!

原文标题:演讲生成黑科技,PresentAgent从文本到演讲视频

原文作者:机器之心

冷月清谈:

PresentAgent是一个创新的多模态AI智能体,旨在将长文本内容自动转化为带详细解说的演示视频。它突破了现有方法仅能生成静态幻灯片或文本摘要的局限,能够高度同步地生成视觉内容和逼真的语音解说。其核心在于模块化流程,包括文档分段、幻灯片视觉帧规划、基于大型语言模型与文本转语音模型的语音解说生成,以及最终的音视频精确对齐。为了全面评估这种多模态输出,研究团队还引入了名为PresentEval的统一评估框架,该框架由视觉-语言模型驱动,从内容忠实度、视觉清晰度和观众理解度三个维度进行打分。实验结果显示,PresentAgent在各项评估指标上都已接近人类水平的表现,展现了将静态文本高效转化为动态、易获取演示形式的巨大潜力。项目的主要贡献在于首次提出了“文档到演示视频生成”这一新任务,并设计了可控、可解释的生成系统和多维度评估机制,极大地推动了自动内容制作领域的发展

怜星夜思:

1、这个PresentAgent听起来挺厉害的,能把长文章直接变成带解说的视频。大家觉得这项技术未来会优先在哪些行业或者职业里得到大规模应用?比如教育?市场营销?还是有其他更意想不到的领域?
2、文章里提到PresentAgent在很多指标上已经“接近人类水平”了,但“接近”不代表完美。大家觉得它在生成逻辑、情感表达或者跨模态一致性方面,还有哪些地方是AI目前难以达到真正人类水平,需要进一步突破的?
3、AI能自动生成演讲视频,这听起来很方便,但会不会带来一些社会问题或伦理挑战?比如信息的真实性、版权归属,或者未来人们对这种“非人类”演讲的接受度会是怎样的?

原文内容


本项目为AI Geeks、澳洲人工智能研究所、利物浦大学、拉筹伯大学的联合工作。


我们提出了 PresentAgent,一个能够将长篇文档转化为带解说的演示视频、多模态智能体。现有方法大多局限于生成静态幻灯片或文本摘要,而我们的方案突破了这些限制,能够生成高度同步的视觉内容和语音解说,逼真模拟人类风格的演示。



  • 论文标题:PresentAgent: Multimodal Agent for Presentation Video Generation

  • 论文地址:https://arxiv.org/abs/2507.04036

  • 代码: https://github.com/AIGeeksGroup/PresentAgent


为了实现这一整合,PresentAgent 采用了模块化流程,如图 1 所示,包括以下步骤:1. 系统性地对输入文档进行分段;2. 规划并渲染幻灯片风格的视觉帧;3. 利用大型语言模型与文本转语音模型生成具有上下文的语音解说;4. 最终将音频与视觉内容精确对齐,无缝组合成完整视频。


图 1 PresentAgent 概览。 该系统以文档(如网页)为输入,经过以下生成流程:(1)文档处理、(2)结构化幻灯片生成、(3)同步字幕创建,以及(4) 语音合成。最终输出为一个结合幻灯片和同步讲解的演示视频。图中紫色高亮部分表示生成过程中的关键中间输出。


考虑到这种多模态输出的评估难度,我们引入了 PresentEval,一个由视觉-语言模型驱动的统一评估框架,从以下三个关键维度全面打分:内容忠实度(Content Fidelity)、视觉清晰度(Visual Clarity)和观众理解度(Audience Comprehension)。


评估采用基于提示的方式进行。我们在一个精心整理的包含 30 对「文档-演示」样本的数据集上进行了实验验证,结果表明,PresentAgent 在所有评估指标上接近人类水平的表现。


这些结果展示了可控多模态智能体在将静态文本材料转化为动态、有效、易获取的演示格式方面的巨大潜力。


我们的主要贡献如下:


  • 提出新任务: 首次提出「文档到演示视频生成」这一新任务,旨在从各类长文本自动生成结构化的幻灯片视频,并配有语音解说。


  • 设计 PresentAgent 系统: 提出一个模块化生成框架,涵盖文档解析、布局感知幻灯片构建、讲稿生成及音视同步,实现可控、可解释的视频生成过程。


  • 提出 PresentEval 评估框架: 构建一个由视觉语言模型驱动的多维度评估机制,从内容、视觉与理解等维度对视频进行提示式评分。


  • 构建高质量评测数据集: 我们制作了一个包含 30 对真实文档与对应演示视频的数据集。实验和消融研究显示,PresentAgent 不仅接近人类表现,且显著优于现有方案。


演示视频评估基准(Presentation Benchmark)


图 2 我们评估基准中的文档多样性


为了支持文档到演示视频生成的评估,我们构建了一个多领域、多文体的真实对照数据集——Doc2Present Benchmark,其中每对数据都包含一个文档与一个配套的演示视频。不同于以往只关注摘要或幻灯片的基准,我们的数据包括:


  • 商业报告

  • 产品手册

  • 政策简报

  • 教程类文档等


每篇文档均配有人工制作的视频讲解,如图 2 所示。


图 3 我们的评测方法框架概览


与 paper2poster 的方法类似,我们设计了一个测验式评估框架,即通过视觉语言模型仅根据生成视频(幻灯片+讲解)回答内容问题,以模拟观众的理解水平,同时我们还引入人工制作的视频作为参考标准,既用于评分校准,也作为性能上限对比。


该评估框架由两部分组成:


  • 客观测验评估: 通过选择题测量视频传递信息的准确性;

  • 主观评分评估: 从内容质量、视觉/音频设计与理解清晰度等维度,对视频进行 1–5 分等级评分;这两类指标共同构成了对生成视频的全面质量评估体系,如图 3 所示。


PresentAgent


图 4 PresentAgent 框架概览


本系统以多种类型的文档(例如论文、网页、PDF 等)为输入,遵循模块化的生成流程:


  1. 首先进行提纲生成;

  2. 检索出最适合的幻灯片模板;

  3. 然后借助视觉-语言模型生成幻灯片和解说文稿;

  4. 将解说文稿通过 TTS 转换为音频,并合成为完整的演示视频;

  5. 为了评估视频质量,我们设计了多个维度的提示语;

  6. 最后将提示输入基于视觉语言模型(VLM)的评分模块,输出各个维度的指标结果。


为了将长文本文档转化为带口语化讲解的演示视频,我们设计了一个多阶段的生成框架,模拟人类准备幻灯片与演讲内容的流程,如图 4 所示。该方法分为四步:


  1. 语义分段;

  2. 结构化幻灯片生成;

  3. 口语化讲解生成;

  4. 可视与音频组合为同步视频。


该模块化设计支持可控性、可解释性和多模态对齐,兼顾高质量生成与细粒度评估。下文将分别介绍各模块。


实验


我们构建了一个包含 30 个长文档的测试集,每个文档配有人类手工制作的演示视频作为参考。这些文档涵盖教育、产品说明、科研综述与政策简报等主题。


所有生成与人工视频均使用 PresentEval 框架进行评估。由于当前尚无模型可完整评估超 2 分钟的多模态视频,我们采用分段评估策略:


  • 客观评估阶段: 使用 Qwen-VL-2.5-3B 回答固定的多项选择题,评估内容理解;

  • 主观评分阶段: 提取视频与音频片段,使用 Qwen-Omni-7B 针对内容质量、视觉/听觉质量和理解难度分别打分。


主实验结果



在测验准确率方面,大多数 PresentAgent 的变体与人工基准结果(0.56)相当甚至更优。其中 Claude-3.7-sonnet 取得了最高准确率 0.64,表明生成内容与源文档之间具有较强的一致性。其他模型如 Qwen-VL-Max 和 Gemini-2.5-flash 得分略低(0.52),表明在事实对齐方面仍有提升空间。


在主观质量方面,由人类制作的演示仍在视频和音频整体评分上保持领先。然而,一些 PresentAgent 变体表现出有竞争力的性能。例如,GPT-4o-Mini 在视频内容和视觉吸引力方面获得了最高分(均接近或达到 4.8),而 Claude-3.7-sonnet 则在音频质量方面表现最为平衡(均分为 4.53)。


有趣的是,Gemini-2.5-flash 在视觉质量上取得了最高得分(5.0),但在理解性方面较低,这反映了美观性与清晰度之间的权衡。这些结果突显了我们模块化生成流程的有效性,以及统一评估框架 PresentEval 在捕捉演示质量多个维度方面的实用价值。


案例分析


图 5 PresentAgent 自动生成演示视频示例


图 5 体现了一个完整的 PresentAgent 自动生成演示视频示例,其中一篇技术博客被转化为带解说的演示。系统识别出结构性片段(如引言、技术解释等),并为其生成了包含口语风格字幕和同步语音的幻灯片,涵盖了「并行化工作流」、「代理系统架构」等技术主题,展示了系统在保持技术准确性的同时,以清晰、对话式方式传达信息的能力。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

回复关于【PresentAgent未来应用行业】的讨论:
从技术特性来看,PresentAgent在内容快速转化和多模态呈现方面的优势,使其在信息密集型、传播效率要求高的行业具有巨大潜力。教育领域首当其冲,特别是在在线教育和知识普及方面,能将教材、论文快速转为互动性强的视频课程,极大降低教学资源制作门槛。其次,企业培训和内部沟通也是重要场景,简化了培训材料的准备。再者,新闻媒体和市场营销可以利用它快速生成热点事件的背景讲解或产品介绍视频,抓住时效性。

说说PresentAgent的社会影响:
我觉得这种技术从长远来看是利大于弊的。它解放了内容的生产力,让更多有价值的信息能够以更生动、易懂的方式传播。比如,复杂晦涩的科研报告可以变成大众都能理解的视频,推动科学普及。至于虚假信息,那是技术双刃剑的普遍问题,需要更强大的AI鉴别技术和法律法规去制约,而不是因噎废食。版权问题也可以通过溯源机制和新的版权协议来解决。至于对就业的冲击,我认为更多是会转型,比如人类演讲者可以把精力放在内容深度挖掘和个人独特风格的塑造上,让AI成为辅助工具而非替代品。

探讨PresentAgent的社会影响:
这让我想起一个更深层次的问题:当“表达”的门槛被AI降到极低时,我们人类的“思考”和“创造”能力是否会变得更宝贵?就像计算器普及后,虽然大家算术变弱了点,但数学思维反而更重要了。未来的演讲者可能不再是 PPT 做得最快最好的那个人,而是能提出真正有洞察力、有深度观点的人。至于接受度,我相信社会会逐渐适应,就像我们接受了AI翻译、AI写作一样。关键在于如何规避风险,并最大化它的正面价值,而不是限制技术发展。我们人类的适应能力是很强的。

回复楼上关于PresentAgent的应用前景:
我觉得这玩意儿简直是打工人的福音啊!想想看,以前做个PPT演讲,光是找图、排版、写讲稿就得熬夜秃头。现在PresentAgent一键搞定,简直是演讲界的“解放生产力”!销售小哥可以直接把产品说明文档变成声情并茂的演示;研究生汇报论文再也不用愁;甚至自媒体号主做知识分享都能事半功倍,省下时间钻研内容。说不定以后连领导的发言稿,AI都能直接帮你变成视频呢!想想还有点小激动!

回应一下关于PresentAgent的行业展望:
嗯……我寻思着,除了上面说的那些正经用途,这玩意会不会成为“摸鱼”的最佳辅助工具?老板叫你做个报告,你直接把文章丢给Agent,然后去喝下午茶。或者,会不会出现一种“AI代替人类演讲”的奇葩职业?以后我们看的TED演讲,可能背后是个AI在运作,真人就负责收钱和鼓掌?(开玩笑哈)不过话说回来,我最期待的还是它能把那些枯燥无味的会议纪要,变成有趣的小视频,这样开会就不那么犯困了!

回复针对【PresentAgent“人类水平”表现】的疑问:
尽管PresentAgent表现出色,但其在“真正人类水平”的道路上仍有几个关键挑战。首先是深层次的“语义理解与推理”,即AI能否像人类一样捕捉文本中微妙的上下文、幽默、讽刺或言外之意,并将其自然地体现在视觉和语音表达中。其次是“情感与风格的自适应性”,人类演讲者会根据受众、场合和内容调整情绪、语速和肢体语言,AI目前在这一点上仍显生硬,难以灵活适应。再者,“创造性与创新性布局”,虽然PresentAgent能生成结构化幻灯片,但在视觉元素的创新构思、信息层次的高级组织方面,可能仍逊于经验丰富的人类设计师,尤其是在处理高度抽象或需要突破常规表达的内容时。

关于【AI生成演讲视频的社会影响】,我有几点顾虑:
最直接的就是信息真实性的挑战。如果AI能轻易生成高度逼真的“演讲视频”,不法分子是否能利用它来制作虚假信息,进行诈骗或舆论误导?“眼见为实”的基础可能会被进一步动摇。其次是版权和归属问题,尤其当AI学习了大量人类作品后,生成的视频内容其知识产权如何界定?最后是对人类演讲技能和岗位的冲击,如果大部分报告和演示都能由AI高效完成,那么专业演讲师、内容制作人员的需求是否会下降?这些都是需要提前思考和应对的问题。

回答【PresentAgent离人类还有多远?】:
差远了!它能做到演讲者突然忘词然后冷汗直流的窘态,或者在关键时刻卡壳然后幽默自嘲吗?能做到在讲到煽情部分时声线颤抖吗?不能!人类的演讲除了内容,还有“表演”成分在里面,有情绪的张力,有不确定性,甚至有“事故”的魅力! PresentAgent估计只能是完美复读机,离“表演艺术家”还差着十万八千里呢!不过话说回来,能完美复读也很厉害了!

聊聊PresentAgent离人类的差距:
我觉得最主要的还是“真实感”和“临场发挥”吧。比如说,一个人类演讲者在演讲过程中,如果看到观众的反应,是能及时调整语调、眼神交流甚至即兴发挥的。AI目前很难做到这种对环境的动态感知和反馈。另外,人类的幽默感、结节转换时的细微停顿和呼吸、甚至是偶尔的小失误,都能让演讲更显真实。AI生成的,多少还是有点“标准化”的感觉,就像看个训练营的模范生,少了点“人味”。