Paper2Any:北大开源一键生成可编辑PPT和科研绘图工具,科研人的福音

北大开源Paper2Any,一键生成可编辑PPT和科研绘图,告别低效排版,拥抱高效科研!

原文标题:科研人福音!一键生成PPT和科研绘图,北大开源Paper2Any,全流程可编辑

原文作者:机器之心

冷月清谈:

北京大学DCAI课题组推出Paper2Any,这是一款基于DataFlow-Agent框架的多模态辅助平台,旨在解决科研人员和职场人士在内容生产过程中遇到的痛点,即将文字转化为结构图、流程图以及演示PPT。Paper2Any打破了传统AI绘图工具“不可编辑”的局限,通过智能体对输入的文章或文本进行语义分析,提取核心贡献与思路,并对草稿图进行图文内容分割,自动识别其中的文字、图表、结构模块、图标,并记录每个元素的元数据,最终输出完全可编辑的PPT和SVG文件。

Paper2Any主要支持四大核心场景,包括Paper2Figure(智能科研绘图,草图变精图)、Paper2PPT(文章结构化解析与PPT生成)、PDF2PPT(让静态文档可编辑)和PPTPolish(交互式美化专家)。用户可以通过本地部署或网页版快速体验,实现从“输入素材”到“最终汇报”的自动化闭环。Paper2Any的优势在于强大的结构化图表生成能力、自然流畅的中文表达与字体呈现效果,以及更具专业感与人工感的排版布局

未来,课题组计划陆续支持Paper2Rebuttal、Paper2Idea和Paper2Poster等更多的多模态功能,释放人类的创造力,使用户从繁琐的格式调整中解脱出来,专注于核心创新。

怜星夜思:

1、Paper2Any 确实能提高PPT制作效率,但AI生成的PPT内容深度会不会不够?如何避免PPT内容过于 shallow 的问题?
2、Paper2Any 支持多种输入方式,你觉得哪种输入方式最适合你?为什么?
3、除了PPT和科研绘图,你觉得Paper2Any未来还可以应用在哪些场景?

原文内容


你是否经历过这样的至暗时刻: 明明实验数据已经跑通,核心逻辑也已梳理完毕,却在面对空白的 PPT 页面时陷入停滞; 明明脑海里有清晰的系统架构,却要在 Visio 或 Illustrator 里跟一根歪歪扭扭的线条较劲半小时; 好不容易用 AI 生成了一张精美的流程图,却发现上面的文字是乱码,或者为了改一个配色不得不重新生成几十次……


在内容生产的过程中,“写” 往往只占了一半,而将文字转化为结构图、流程图,再整理成演示用的 PPT,这个过程繁琐、耗时,且极度考验设计感。为什么我们不能让 AI 像理解文字一样,理解我们的逻辑,并自动帮我们要展示的 “视觉物料” 准备好?


为了解决这一痛点,北京大学 DCAI 课题组 基于自动化数据治理 Agent 框架 DataFlow-Agent,推出了全新的多模态辅助平台 —— Paper2Any




它不再是一个简单的 “文生图” 工具,而是一整套自动化的内容视觉化 Workflow。从阅读资料、理解逻辑,到生成图像、切割元素,最终输出完全可编辑的 PPT 和 SVG 文件,Paper2Any 正在试图重塑我们准备 Presentation 的方式。


  • 本地部署方式:https://github.com/OpenDCAI/Paper2Any?tab=readme-ov-file#-linux-% E5% AE%89% E8% A3%85

  • 网页体验地址:http://dcai-paper2any.nas.cpolar.cn/

  • 文章多模态工作流 Paper2Any:https://github.com/OpenDCAI/Paper2Any


一、 核心突破:打破 “不可编辑” 的魔咒


目前市面上的 AI 绘图工具虽然效果不错,但在科研与办公等场景下有一个致命缺陷:生成的图片是 “死” 的。 文字无法修改,模块无法拖拽,风格难以统一。


工作流实现逻辑


生成示例PPT绘图


Paper2Any 的核心差异在于它实现了从逻辑到结构化元素的映射。


系统内置的智能体首先对输入的文章或文本进行语义分析,提取核心贡献与思路。接着,它不仅生成视觉图像,更进一步对草稿图进行图文内容分割 —— 自动识别其中的文字、图表、结构模块、图标,并记录每个元素的元数据。


这意味着,你拿到的不再是一张不可直接修改的 PNG,而是一组立、分层、可操作的图文块。用户可以在 PPT 中自由移动、编辑、替换、重新布局。(Paper2PPT 和 PPTPolish 功能暂时仅支持输出 PDF,可通过 PDF2PPT 功能将其结果转为可编辑 PPTX)


二、 功能全景:从草稿到演示的自动化闭环


Paper2Any 目前支持的功能主要涵盖以下四大核心场景,旨在解决从 “输入素材” 到 “最终汇报” 的最后一公里问题。


Paper2Figure:智能科研绘图,草图变精图



用户无需从零学习复杂的矢量绘图软件。Paper2Figure 支持多模态输入(PDF、文本、甚至随手画的草图截图),系统便能自动识别你的意图。


  • 模型架构: 上传论文或描述,系统自动梳理模块连接关系,生成清晰的架构图。支持生成 SVG 和 可编辑 PPTX,图里的方框、线条都能动。

  • 技术路线图: 无论是中文还是英文,系统能根据方法论自动绘制流程与逻辑步骤。

  • 实验数据: 扔给它一堆实验数据文本或表格,它能自动转化为可视化的对比柱状图或折线图。


Paper2PPT:文章结构化解析与 PPT 生成



这是为 “赶进度” 的研究者和职场人准备的救星。Paper2PPT 不仅仅是简单的摘要生成,它利用算法对文档结构进行深度语义分析,提取背景、方法论、关键图表。


  • 三种输入模式: 直接上传 PDF 论文、粘贴长文本、或者仅仅输入一个研究 Topic(系统会自动深度搜索)。

  • 自定义设置: 支持用户自定义幻灯片页数、风格及自由选择中英文语言;支持逐页生成 PPT,用户可自由调整每页 PPT 的大纲。

  • 超长 PPT 支持:首次支持制作超过 40 页的超长 ppt,无论是综述的演示还是深入研究某个主题都能一次满足!

  • 中文适配与呈现: 可解决大模型生成 PPT 字体怪异及表达僵硬问题。输出结果采用标准中文字体与规范的排版,文案逻辑自然流畅,可减少 “AI 痕迹”,满足正式场合演示需求。



PDF2PPT:让静态文档可编辑



你是否遇到过这种情况:手里只有一份 PDF 格式的讲义或报告,却需要对其进行修改和汇报?


PDF2PPT 模块利用 MinerU 与 SAM (Segment Anything Model) 模型,像 “拆积木” 一样对版面进行高精度解析,将原本锁死的 PDF 页面还原为可编辑的 PPTX。


  • 黑科技加持: 系统集成了 Gemini Nano 模型进行图像内补(Inpainting)。当系统将文字提取出来后,会自动修复文字覆盖区域的背景,实现 “去字留影”,最大程度还原原始底图的视觉效果。


PPTPolish:交互式美化专家


如果你的 PPT 内容已经写好,但排版却有些简陋,PPTPolish 可以接手后续的美化工作。系统会自动分析页面并生成美化提示词,用户可以逐页修改提示词来微调美化方向。



三、 示例高能时刻:从输入到输出的 “视觉魔法”


空口无凭,我们来看看 Paper2Any 的实际表现。


科研绘图:拯救手残党


  • 模型架构图生成: 


1. 论文 PDF → 符合论文主题的架构图



2. 科研配图 / 示意图截图 → 可编辑 PPTX



3. 论文摘要文本 → 可编辑架构图



  • 技术路线图智能梳理: 


1. 论文 PDF → 符合论文主题的技术路线图



2. 论文摘要文本 → 符合论文主题的技术路线图



  • 实验数据可视化:


1. 论文 PDF → 自动提取实验数据绘制 PPT



不同类型与不同风格的生成图示例


2. 论文实验表格文本 → 自动整理实验数据绘制 PPT



PPT 智能生成与美化


从文档到演示,Paper2Any 提供了全链路的解决方案。


  • Paper2PPT:








与 Gemini 3 Pro、NotebookLM 相比,Paper2Any 生成的 PPT 有以下优势:


  • 结构化图表生成能力强

  • 中文文字表达与字体呈现效果更自然

  • 可读性更好,干货更多,排版布局更具专业感与人工感


  • PDF2PPT:



  • PPTPolish: 


1. PPT 增色美化



2. PPT 润色拓展



原始 PPT 只是简单的文字罗列;润色后,系统自动添加了科技感背景、可视化图标、以及逻辑图示,瞬间提升汇报档次。


四、 如何使用与部署


Paper2Any 提供两种使用方式:


1. 本地部署(开发者推荐) 


如果你希望深入研究、二次开发或本地运行,可以基于 Github 仓库进行本地部署。


  • Github 仓库: https://github.com/OpenDCAI/Paper2Any

  • 快速开始指引: https://github.com/OpenDCAI/Paper2Any?tab=readme-ov-file#-linux-% E5% AE%89% E8% A3%85


参考 Readme 文档启动 Web 前端即可。


2. 网页版快速体验 


团队已推出可视化的 Web 前端,支持拖拽上传与实时进度展示。新用户可免费注册,登录后可查看历史使用记录。


  • 访问地址: http://dcai-paper2any.nas.cpolar.cn/


结语:让配图成为一种「自动获得的附加值」


Paper2Any 的愿景,是希望建立一条新的科研与工作惯例:写文章 + 一键配图 + 一键生成 PPT + 一键展示


在未来,课题组计划陆续支持 Paper2Rebuttal(论文返修)、Paper2Idea(创新点生成)和 Paper2Poster(文章海报生成)等更多的多模态功能。我们相信,工具的价值在于释放人类的创造力,让你从繁琐的格式调整中解脱出来,将宝贵的时间投入到那些真正闪光的 Idea 之中。


欢迎大家关注使用 DCAI 的开源项目并与我们进行技术交流,如果觉得好用也请在 GitHub 仓库点一个 star ~


Data-centric AI 开源项目:


文章多模态工作流 Paper2Any: https://github.com/OpenDCAI/Paper2Any

自动化数据治理 Agent 框架 DataFlow-Agent: https://github.com/OpenDCAI/DataFlow-Agent

LLM 数据准备系统 DataFlow (1.9k star): https://github.com/OpenDCAI/DataFlow

DataFlow 技术报告( of the Hugging Face daily paper): https://arxiv.org/abs/2512.16676

LLM 数据训练系统 DataFlex (基于 LLaMA-Factory): https://github.com/OpenDCAI/DataFlex


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


别看现在AI挺火,PPT这种东西,排版美观很重要啊!AI现在生成的PPT,审美还是有点欠缺,感觉比较死板。而且,很多时候我们需要根据不同的场合和听众来调整PPT的风格,比如面对领导要稳重,面对同事要活泼,这个AI很难把握的,还是得靠人啊!

从学术角度讲,AI生成的PPT在内容准确性和逻辑性上应该没问题,毕竟是基于论文来的。但是,学术汇报更强调创新性和深度,这方面AI可能就比较欠缺了。人工可以根据听众的反馈灵活调整,AI就做不到了。而且,万一AI理解错了论文的某个关键点,那生成的PPT可能就南辕北辙了。

这个问题很有意思!我觉得是否需要完全消除 AI 痕迹,取决于 PPT 的使用场景。

在正式的学术报告或商务演示中,减少 AI 痕迹是必要的。因为我们需要展现专业性和严谨性,过多的 AI 风格可能会让人觉得不够正式。

但是,在一些非正式的场合,比如内部讨论、头脑风暴等,适当地保留一些 AI 生成的风格反而更好。这可以展现 PPT 的趣味性和创意性,激发大家的思考。

楼上说的有道理!我从另一个角度来抖个机灵:不可编辑的 AI 生成图片就像是“盲盒”,打开之前充满期待,打开之后可能全是失望。在需要精益求精的科研领域,谁有时间天天开盲盒啊?所以,可编辑性是必须的!

AI 痕迹就像是“双刃剑”,用好了能提升 PPT 的格调,用不好就会显得low。我觉得关键在于把握好“度”,不要让 AI 喧宾夺主,要让 AI 成为 PPT 的加分项,而不是减分项。

确实,可编辑性非常关键,不然每次修改都要重新生成,时间成本太高了!对于科研工作者来说,时间就是生命啊!

我补充一个不可接受的场景:需要高度定制化的演示文稿。有些时候,我们需要根据听众的反馈或者演讲的节奏来调整 PPT 的内容,如果图片或图表是不可编辑的,那就太僵硬了,没法灵活应对。

我还没用过这个工具,但从介绍来看,我觉得输入研究Topic然后让系统自动搜索这个功能挺有意思的。有时候我们可能只有一个模糊的想法,不知道从哪里入手。如果Paper2Any能帮我们自动搜索相关的资料并生成PPT,那就能大大提高我们的研究效率。

这个问题问得好!AI工具确实可能会在内容深度上有所欠缺。我觉得可以这样:首先,把Paper2Any生成的PPT作为一个基础框架,然后自己往里面填充更深入的分析和数据。其次,多参考一些高质量的文献和报告,确保PPT的专业性和深度。最后,在汇报前多加练习,熟悉PPT的每一个细节,这样才能更好地应对听众的提问。

我更喜欢用长文本输入。因为有时候我需要汇报的内容不一定是论文,可能是一些研究报告或者项目总结。用长文本输入,我可以更灵活地控制输入的内容,避免Paper2Any提取到一些无关的信息。而且,长文本输入也更适合我这种喜欢先把思路写下来的人。

我觉得可以应用在教育领域。比如,老师可以用Paper2Any快速生成教学PPT,学生可以用Paper2Any整理学习笔记。如果Paper2Any能支持更多的学科和知识领域,那就更好了。

楼上说得有道理,AI只是个工具,不能完全依赖。我个人觉得,AI可以帮你快速搭建PPT的骨架,节省排版时间,但真正的血肉还得自己填充。可以把AI生成的PPT看作是一个草稿,然后自己再进行修改和完善,加入自己的思考和理解。另外,我觉得在用Paper2Any之前,自己要对内容有充分的理解,这样才能更好地指导AI生成PPT,避免内容过于浅显。

对我来说,直接上传PDF论文是最方便的。因为我经常要汇报论文,直接把论文丢给Paper2Any,它就能自动生成PPT,省去了我手动提取关键信息和整理PPT的时间。当然,生成的PPT还需要自己修改和完善,但至少能节省一半的时间。

其实我觉得可以往更智能化的方向发展。比如,Paper2Any可以根据用户的历史使用记录,分析用户的偏好和习惯,然后为用户推荐更合适的PPT模板和绘图风格。甚至,Paper2Any可以根据用户的汇报对象和场合,自动调整PPT的内容和风格,真正实现个性化定制。

市场营销方面应该也很有潜力。想象一下,营销人员可以把产品介绍、用户评价等信息输入Paper2Any,然后一键生成各种风格的宣传海报和PPT,这能大大提高营销效率。

从技术角度来说,目前的AI在知识推理和深度理解方面确实还有进步空间。所以,在用Paper2Any的时候,我们可以尝试结合其他工具,比如知识图谱、语义搜索等,来帮助AI更好地理解内容,生成更深入的PPT。另外,我觉得Paper2Any的开发者也可以考虑加入一些人工干预的机制,让用户可以对AI的生成结果进行更精细的调整。