Paper2Video:自动化生成高质量学术展示视频的基准与多智能体框架

Paper2Video基准与PaperTalker框架实现学术视频自动化生成,攻克长文档与多模态挑战,提升科研交流效率与质量。

原文标题:攻克长文档与多模态挑战,Paper2Video实现学术视频的自动化生产

原文作者:机器之心

冷月清谈:

传统学术展示视频的制作过程繁琐且耗时,高度依赖人工,效率低下。针对这一痛点,新加坡国立大学Show Lab团队提出了一套系统化的解决方案。这项研究的核心在于解决了学术视频生成面临的多重挑战,包括处理源于完整学术论文的长文档和高密度多模态输入,确保幻灯片、字幕、语音、光标轨迹和讲者视频等多模态通道的协同与对齐,以及缺乏专门针对知识传递和受众理解的评价标准。

为解决这些挑战,研究团队首先构建了 Paper2Video评价基准。该基准收集了101篇顶会论文及其作者录制的展示视频,并从类人一致性、信息传递性和学术影响力三个核心视角出发,设计了Meta Similarity、PresentArena、PresentQuiz和IP Memory四项互补的评价指标。这为评价生成学术视频的质量提供了可靠依据。

在此基础上,研究团队提出了 PaperTalker多智能体框架。该框架旨在实现学术展示视频的自动化生成,能够将研究论文、讲者图像和语音样本作为输入,自动输出包含幻灯片、字幕、语音、光标轨迹和讲者视频的完整内容。PaperTalker由Slide Builder(优化幻灯片布局,引入Tree Search Visual Choice提升效率)、Subtitle Builder(生成逐句字幕和视觉焦点提示)、Cursor Builder(通过UI-Grounding和WhisperX实现光标的时空精确对齐)和Talker Builder(合成身份一致、唇形同步的个性化讲者视频,并支持逐页并行生成以大幅提升效率)四个核心模块组成。

实验结果表明,PaperTalker在Paper2Video基准的四项评价指标上均取得最佳表现,其生成的视频在观感、知识传递和学术记忆度方面接近人工制作水平。在效率方面,PaperTalker也展现出最低的生成成本和显著的速度优势。这项工作为AI4Research领域的发展、促进科研交流的自动化与规模化迈出了重要一步。

怜星夜思:

1、PaperTalker这类自动化工具的普及,对于我们这些未来或现在的研究人员来说,是不是意味着要重新思考如何进行学术报告?比如,我们是应该把更多精力放在研究内容本身,还是继续精进现场演讲的技巧?
2、PaperTalker框架中提到了Tree Search Visual Choice机制,这解决了大语言模型在细粒度视觉调整上的不足。你们觉得未来多模态AI在处理'审美'或'风格'这类更主观、更抽象的问题时,还有哪些更有趣的路径或方法可以探索?比如,如何让AI理解'高级感'或'创新性'的布局和设计?
3、PaperTalker实现了讲者视频的并行生成,大大提升了效率,但文章也提到“无需保持跨页的动作连续性”。如果未来技术允许在保持身份一致性的前提下,还能实现跨页间更自然的动作过渡,这对观看体验会有多大的提升?或者说,这种“非连续性”在学术视频中,真的那么不重要吗?

原文内容


本研究由新加坡国立大学 Show Lab 团队主导完成。共一作者 Zeyu Zhu 祝泽宇(博士生)与 Kevin Qinghong Lin 林庆泓(博士生)均来自 ShowLab@NUS,聚焦于多模态理解以及智能体(Agent)研究。项目负责人为新加坡国立大学校长青年助理教授 Mike Zheng Shou 寿政。



背景:学术展示视频生成挑战


学术展示视频作为科研交流的重要媒介,制作过程仍高度依赖人工,需要反复进行幻灯片设计、逐页录制和后期剪辑,往往需要数小时才能产出几分钟的视频,效率低下且成本高昂,这凸显了推动学术展示视频自动化生成的必要性。然而,与自然视频生成不同(如 Sora2、Veo3 等扩散模型),学术展示视频面临以下独特挑战:


  • 长文档与高密度输入 (Multi-modal Long-context Input): 来源于完整学术论文,包含大段专业文本、复杂公式、多幅图表,远超自然视频的输入复杂度。

  • 多模态通道的协同生成 (Coordination of Multiple Aligned Channels): 需要同时生成并对齐幻灯片、字幕、语音、光标轨迹与讲者视频,保证多模态之间的语义一致性与时序同步。

  • 缺乏专门的评价标准 (Lacks Well-defined Evaluation Metrics): 现有视频生成指标主要关注画面质量或风格一致性,难以衡量学术展示视频在 知识传递、受众理解与学术可用性 上的效果。


因此,现有自然视频生成模型和简单的幻灯片 + 语音拼接方法难以胜任,亟需一个系统化的基准和方法来推动自动化、可用的学术视频生成。为了解决以上挑战,本文提出了 Paper2Video 基准对学术展示视频进行评价,并提出一个多智能图框架 PaperTalker,为实现自动化和可用的学术视频生成迈出切实可行的一步:


图 1: Paper2Video 概览



  • 论文链接:https://arxiv.org/abs/2510.05096

  • 项目主页:https://showlab.github.io/Paper2Video/

  • 开源代码:https://github.com/showlab/Paper2Video

  • 开源数据:https://huggingface.co/datasets/ZaynZhu/Paper2Video



Paper2Video 评价基准


为了评价学术展示视频的质量,本文收集了 101 片论文和对应的作者录制的学术展示视频作为测试基准,并从学术展示视频的用途出发,提出了四个评价指标: Meta Similarity, PresentArena, PresentQuiz 和 IP Memory。


Paper2Video 基准


图 2: Paper2Video 基准统计概览


Paper2Video 基准收集了来自近三年顶会的 101 篇论文及其作者录制的展示视频,涵盖机器学习、计算机视觉与自然语言处理领域。每个样例包含论文 LaTeX 工程、幻灯片、展示视频、讲者肖像与语音样本,其中部分还提供原始 PDF 幻灯片。数据统计显示,论文平均 13.3K 字、44.7 幅图表,展示视频平均 16 页幻灯片、时长 6 分钟。


作为首个系统化的学术展示视频基准,它为多模态长文档输入与多通道输出(幻灯片、字幕、语音、光标、讲者)的生成与评估提供了可靠依据,为推动自动化学术展示视频生成奠定了基础。


Paper2Video 评价指标


图 3: Paper2Video 评价指标设计


本文从学术展示视频的用途出发,认为其质量应从三个核心视角进行衡量:


  • 类人一致性:生成的视频应与作者精心设计的人类版本保持相似,反映人类偏好。

  • 信息传递性:生成的视频应尽可能涵盖论文中的关键信息,并被受众正确理解。

  • 学术影响力:生成的视频应能突出作者的学术身份,并增强观众对该工作的记忆。


基于上述视角,我们设计了四个互补的评价指标:


  • Meta Similarity — 类人相似度(内容级): 比较生成的幻灯片、字幕和语音与人类版本的一致性,衡量生成结果在细节和风格上的接近程度。

  • PresentArena — 类人一致性(观感级): 使用 VideoLLM 作为代理观众进行成对对比,从清晰度、流畅性与吸引力等维度判断生成视频是否符合人类偏好。

  • PresentQuiz — 信息传递性:通过基于论文构造选择题,使用 VideoLLM 作为代理观众进行问答,测试生成视频能否覆盖并有效传递论文中的关键信息。

  • IP Memory — 学术影响力:模拟会议场景,使用 VideoLLM 作为代理观众,评估观众是否能够在观看后将视频与作者身份和研究工作正确关联,反映学术可见性与记忆度。


四个指标共同构建了一个覆盖类人偏好、信息传递与学术记忆的系统化评价框架,为学术展示视频生成的客观测评提供了可靠依据。


PaperTalker 多智体架构


图 4: PaperTalker 流程简介


为解决学术展示视频制作繁琐且难以自动化的问题,本文提出了 PaperTalker —— 首个支持学术展示视频生成的多智能体框架,用于处理这一具有长时依赖的多模态智能体任务(Long-horizon Multi-modal Agentic Task)。该框架以研究论文、讲者图像与语音样本为输入,自动生成包含幻灯片、字幕、语音、光标轨迹和讲者视频 (slide creation, subtitling, speech, cursor highlight, talking head) 的完整展示视频。


PaperTalker 由四个关键构建模块组成:


  1. Slide Builder:基于论文内容生成 LaTeX Beamer 幻灯片,并引入 Tree Search Visual Choice 模块克服大语言模型在细粒度数值调整上的局限,从而优化版面布局,确保幻灯片布局合理设计。

  2. Subtitle Builder:利用视觉语言模型从幻灯片提取关键信息,生成逐句字幕及对应的视觉焦点提示词。

  3. Cursor Builder:结合 UI-Grounding 和 WhisperX 模型,实现光标在时间和空间上的精准对齐,在演讲过程中,引导观众关注关键信息。

  4. Talker Builder:根据讲者肖像与语音样本,合成身份一致、唇形同步的个性化讲者视频,并支持逐页并行生成以提升效率。


由此,PaperTalker 通过模块化的多智能体协作,实现了可控、个性化、学术风格化的展示视频生成。


高效鲁棒的幻灯片生成


在学术展示视频生成任务中,我们测试发现 LaTeX/Beamer 在输出效果与稳定性上显著优于 pptx,能够直接生成学术风格的幻灯片。但在此过程中,即便是闭源 VLM 也难以鲁棒地判断视觉元素(如图片文字大小、排版比例),导致基于多轮交互的参数调优效率极低。


Tree Search Visual Choice 布局优化机制


图 5: Tree Search Visual Choice 模块


为此,本文提出 Tree Search Visual Choice:针对给定的视觉素材,预设一组比例参数,渲染得到多种候选布局,并将这些候选拼接成单张大图,交由 VLM 进行一次性的多选比较,从而将低效的多轮参数搜索转化为高效的单轮视觉判别,实现图像尺寸与布局的自动优化。


空间–时间对齐的光标生成

本文进一步探讨了如何模拟人类在讲解过程中使用鼠标的行为。光标轨迹能够引导观众聚焦于幻灯片的关键区域,但实现这一点需要将幻灯片和演讲内容与光标停留点 — 时间戳 — 屏幕空间坐标 (x, y, t) 建立起对应关系。为此,我们引入 Computer-Use 和 WhisperX 模型分别进行空间和时间的标定,实现了时间与空间的双重对齐。


具体来说,我们首先基于幻灯片内容生成逐句字幕及视觉焦点提示,然后利用 UI-TARS 将提示 grounding 为屏幕坐标 (x, y),再通过 WhisperX 获取词级时间戳并对齐到对应的字幕句子,从而得到精确的光标轨迹 (x, y, t)。


高效 Talking-head 生成

在学术展示视频生成中,讲者部分对于增强观众参与感和体现研究者的学术身份至关重要。然而,Talking-Head 渲染通常需要数小时才能生成几分钟的视频,而且部分模型甚至无法原生支持长时段视频的生成,这严重限制了方法的可扩展性与实用性。


为此,本文提出一种高效的解决方案:首先,基于每页幻灯片的字幕与讲者的语音样本,利用 F5-TTS 合成逐页的个性化语音;随后,结合 Hallo2(高保真头像驱动)与 FantasyTalking(支持上半身动作)生成对应的讲者视频。受到人类逐页录制习惯的启发,我们进一步将讲者生成过程 划分为独立的幻灯片片段,并行化执行每页的语音合成与视频渲染。由于幻灯片间存在自然的硬切换,且无需保持跨页的动作连续性,这种设计既保证了身份一致性与唇形同步,又显著提升了整体效率,实验证明这种方式实现了超过 6 倍的加速。


基于 Paper2Video 基准的实验与评估


在实验中,本文对比了三类方法:

(i) 端到端方法(如 Wan2.2、Veo3),直接从文本或提示生成视频;

(ii) 多智能体框架(如 PresentAgent、PPTAgent),将论文内容转化为幻灯片并结合文本转语音生成展示视频;

(iii) 本文提出的 PaperTalker,通过幻灯片生成与布局优化、字幕与光标对齐以及个性化讲者合成来生成的学术展示视频。


学术演示视频性能比较


图 6: 学术演示视频性能比较


  • Meta Similarity(相似度)

  • PaperTalker 在幻灯片、字幕和语音的相似度上均取得最高分,说明其生成结果与人类作品最为接近。

  • 个性化 Text-to-Speech 模型与基于 Beamer 的幻灯片生成设计显著提升了相似度表现。


  • PresentArena(观感质量对比)

  • 在与人类视频的成对对比中,PaperTalker 获得最高的胜率,说明 PaperTalker 视频观感质量最高。

  • 同时,相比去掉讲者和光标的变体,完整的 PaperTalker 视频更受偏好,表明讲者与光标均有贡献。


  • PresentQuiz(知识传递)

  •  PaperTalker 在问答准确率上超过了其他基线方法,能够更好地覆盖论文信息。

  •  缺少讲者和光标的版本会导致性能下降,表明这些模块有助于增强信息传递。


  •  IP Memory(学术记忆度)

  • PaperTalker 在观众识别作者与作品的一致性上表现最佳

  • 引入讲者视频(面孔与声音)显著提升了记忆效果。


  • 人类主观评价

  • 人类评价结果显示,人类录制视频得分最高,PaperTalker 次之,且显著优于其他方法,接近人类水平。


实验结果表明,本文提出的 PaperTalker 在 Meta Similarity、PresentArena、PresentQuiz 和 IP Memory 四个维度均取得最佳表现:其生成的幻灯片、字幕与语音更接近人类作品,整体观感更受偏好,知识传递更完整,且在学术身份记忆方面更具优势;同时,人类主观评价也显示 PaperTalker 的视频质量接近人工录制水平。


模型效率比较


图 7: 模型效率比较


PaperTalker 在生成成本上最低。其效率主要来自三个方面:(i) 基于 Beamer 的幻灯片生成显著减少了 token 消耗;(ii) 引入轻量化的 tree search visual choice 作为幻灯片的后处理;(iii) 采用并行的 talking-head 生成机制缩短了整体运行时间。相比之下,PresentAgent 由于在幻灯片编辑过程中频繁依赖大模型查询,导致成本更高。


消融实验


光标提示对信息定位与理解的贡献


Screenshot 2025-10-09 at 4.01.20 PM.png

图 8: 光标提示消融实验


光标提示通过提供显式空间线索,帮助观众和 VLM 更好地定位幻灯片中的关键信息。为验证这一点,本文设计了定位问答任务,比较有无光标情况下的答题准确率。结果显示,带光标的视频准确率显著更高,证明了光标在增强学术展示视频的视觉定位与内容可达性方面的重要作用。


Tree Search Visual Choice 在幻灯片质量提升中的作用


图 9: Tree Search Visual Choice 消融实验


为评估 Tree Search Visual Choice 模块的贡献,本文进行了消融实验(表 5),利用 VLM 从内容、设计与连贯性三个维度对生成的幻灯片进行 1–5 分评价。结果显示,当去除该模块时,幻灯片的设计质量明显下降,说明该方法在解决版面溢出问题、提升整体设计质量方面发挥了关键作用。图 9 展示了该模块的性能。


图 10: Tree Search Visual Choice 可视化


结语


本文提出 Paper2Video 基准与 PaperTalker 框架,为学术展示视频生成提供了系统化任务与评测体系。实验验证了其在信息传递、观感质量与学术记忆方面的优势,生成效果接近人工水平。我们期待这项工作能推动 AI4Research 的发展,促进科研交流的自动化与规模化。


Paper2Video生成Paper2Video学术视频



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

哎呀,这不就是科技与狠活儿的时代嘛!AI讲者?我就怕以后我看到哪个专家讲知识头头是道,结果一看是个虚拟人,会不会有种’被骗了’的感觉?虽然方便高效是好事,但如果没了真人的温度和互动,总觉得少了点啥。我估计以后会分两种:一种是娱乐或工具性的AI,大家知道是假的也就图一乐;另一种是严肃的、需要权威背书的,那肯定还是得真人出镜,或者AI讲者旁边得有个’真人认证’。标识是必须的,不然大家心里会打鼓的,总不能让AI冒充李森科再来一次吧!

这个问题问到我心坎里去了!每次看学术报告,Beamer虽然工整,但也确实比较刻板。要是能让AI像个’设计总监’一样,不光能把论文核心讲清楚,还能根据内容智能生成一些酷炫的动效或者3D展示,那岂不是炸裂?我觉得嘛,未来肯定会是’内容AI + 审美AI’的组合。AI先理解内容,然后根据你选的’汇报风格’(比如是’学术严谨风’还是’乔布斯发布会风’),给你自动生成一套视觉上既专业又吸睛的幻灯片。甚至可以根据数据生成交互式图表,让观众在报告过程中直接点一点看数据详情,那才叫真香!

这是一个非常实际且值得深思的问题。我的看法是,AI合成内容未来一定会普及,但信任度确实是关键。大家可能会在初期对AI讲者感到新奇,但如果无法辨别真伪,且存在滥用的风险(比如假新闻、假冒专家),那么对真实人类出镜的需求和信任度就会大幅提升。我认为强制性的“AI生成内容”标识会成为趋势,这不仅是出于伦理道德的考量,也是为了维护信息传播的透明度和观众的知情权。就像现在很多视频开始加水印一样,未来可能要加个“AI合成”的标签。

人味儿?:smirking_face: 你确定现在的很多报告很有‘人味儿’吗?枯燥无味、照本宣科的PPT讲得还不如AI好懂呢!AI至少能保证语速语调标准、重点突出、甚至可以根据观众反馈实时调整!至于个人魅力嘛,如果AI能模拟出‘霍金’或者‘爱因斯坦’的风采,那学术界估计又要内卷了!:joy::joy:

我觉得不会完全取代。AI生成视频可以作为预演、存档或者在讲者不便出席时的补充。比如,一个国际会议,AI可以提前生成多语言的报告视频,方便不同语种的观众预习。但正式的答辩、重要的keynote speech,以及需要激烈讨论的环节,人与人的互动和眼神交流是AI无法替代的。可能未来是混合模式,AI辅助人类,而非完全替代。

同问!不过我觉得,研究团队能想到做Beamer的优化模块,说明他们是懂科研狗的痛点的。如果能做到“上传论文,点几下就能出视频”这种傻瓜式操作,那绝对是真香!毕竟做PPT的痛苦,比听AI讲半小时报告大多了。期待能有傻瓜式图形用户界面(GUI),配上各种模板。

绝对能!首先是在线教育和企业培训。教材内容转换成互动视频,可以大大提高学习效率和兴趣。其次是科普宣传,很多复杂的科学概念用视频解释比纯文字生动得多。甚至像金融分析报告、产品说明书等,都可以通过这种方式快速生成易于理解的视频内容,受众更广。

我觉得最难量化的就是讲者的‘控场能力’和‘感染力’。真人讲座的时候,如果讲者能用一个生动的例子或者幽默的梗把大家逗乐,那整个报告气氛就活了,大家也更容易记住内容。AI生成的好处是稳定,但往往‘太稳定’了,缺乏那种不确定性的惊喜感。我听过一些AI生成的科普视频,确实信息量大,但看完总觉得少了点什么,那种能让你会心一笑或者拍案叫绝的瞬间,AI还给不了。

这不就跟现在的AI换脸、AI配音差不多嘛?一开始大家觉得新鲜甚至有点可怕,但后来在娱乐、影视剪辑里也用得飞起。学术界我觉得会更严谨一些。如果只是作为“数字替身”来讲解,并且明确告知是AI,那反而能解放真人。怕就怕那种不说明的,感觉就像代笔了还不承认一样。不过话说回来,PPT也只是工具,讲者内容才是核心,AI能让核心内容更容易被接受,也算好事。

哈哈,我觉得这是给那些“社恐”研究员的福音啊!以后再也不用担心站在台上紧张忘词,或者PPT做得不够炫酷了。AI直接给你整一套完美的。这样一来,我们是不是可以把更多时间拿去“卷”实验数据,把报告做得更有料,而不是在“演”报告上花工夫?说不定以后衡量一个研究员的标准,就是看他的PaperTalker生成视频有多少播放量和转发量!

从认知科学和美学理论的角度看,理解“高级感”或“创新性”需要深层次的语义理解和文化语境。单纯基于像素级别的模式识别可能不足。未来的探索方向可能在于建立更丰富的多模态知识图谱,将视觉元素与抽象概念、情感色彩甚至历史流派进行关联。或者,尝试构建能够进行“类比推理”的AI,让它通过分析不同领域中的“高级”实例,提取共性和差异。这并非仅仅是技术层面的挑战,更是对机器智能在抽象认知领域能力的考验。

从学术发展的角度看,这种趋势实际上鼓励了内容与形式的分工。研究人员的核心竞争力依然在于科学发现与创新,表达方式的自动化是生产力工具的进步。然而,真正的突破性思想往往需要在非结构化的互动中激发。因此,我们或许会将精力更多地集中在构建引人入胜的叙事逻辑和在后续问答环节展现深度理解上。现场演讲将演变为更高层次的思辨与交流,而非简单的信息呈现。

我觉得这会是一个双刃剑。一方面,它解放了我们从繁琐的视频制作中,理论上能让我们更专注于研究质量和内容深度。毕竟,研究做得好才是根本。另一方面,现场互动和临场发挥的魅力是AI无法完全替代的,学术交流不仅仅是知识的单向传输,更是思想的碰撞。所以,可能需要平衡,把AI当成提升效率的工具,但别忘了人际交流和现场感的价值。

从人类视知觉和认知心理学的角度分析,轻微的动作不连续性在切换语境(即切换幻灯片)时,对信息编码和注意力转移的影响是有限的。观众的焦点会迅速从讲者转移到新的视觉信息源(幻灯片)。因此,在权衡生成效率与视觉完美度时,当前的技术选择是合理的。然而,如果能实现平滑过渡,它将有助于维持一种连续的“虚拟存在感”,这对于提升讲者在观众心中的“可信度”和“连接感”可能具有长期价值,尤其是在需要建立强烈个人品牌或情感共鸣的场景中。技术发展总会趋向于更高的真实感和沉浸感,但目前而言,效率优势可能更具实际意义。

这是一个很有趣且有挑战性的方向。Tree Search Visual Choice本质上还是通过枚举和评估预设参数来优化布局,更像是一种半自动化的选择。要让AI理解“高级感”或“创新性”,可能需要引入更复杂的感知和生成模型,例如对抗生成网络(GANs)或Diffusion Models,通过无监督或弱监督学习从大量高质量设计案例中提炼抽象的审美规律。此外,结合用户反馈进行强化学习,让AI在不断尝试中学习什么是“好”的设计,也是一个值得探索的路径。也许未来AI可以根据用户的职业和偏好定制“专属审美”?

我觉得吧,让AI去理解“高级感”?那不是为难AI嘛!人类自己对啥叫“高级”都争论不休呢。也许AI可以先从模仿开始,比如让它学习顶级设计师的作品集,然后给它一个任务:生成一个“像xxx风格”的报告。或者直接给AI接入一个“大众审美传感器”,让成千上万的用户去给AI生成的设计打分,然后AI慢慢迭代。说不定最后AI生成的东西,比人类设计师更懂“大众审美”呢!

理论上,实现跨页间的自然动作连续性确实会提升观看的沉浸感和流畅度,让整个演讲更接近真人现场表现。设想一下,如果每次换页讲者都像“瞬移”一样,或者动作突然中断再开始,即便我们知道是AI生成的,潜意识里也会觉得有些不自然。对于学术视频这类强调信息传递的场景,这种不连续性可能不像电影那么致命,但如果能做到更自然,无疑会增强视频的专业性和观赏性,减少观众的认知负荷,让他们更专注于内容而非形式上的瑕疵。

嗯,我觉得嘛,对于学术内容来说,信息量大才是王道。观众来看学术视频主要是为了学知识的,又不是来看AI演奥斯卡。只要讲者面部表情自然、嘴型对得上、内容清楚,那点动作连续性,真的没那么重要啦!反正换页的时候大家注意力都在新的幻灯片上,谁还在乎讲者是不是突然“卡”了一下?能实现6倍加速,这生产力提升简直是“香”死了,一点小瑕疵完全可以接受!