Paper2Any：北大开源一键生成可编辑PPT和科研绘图工具，科研人的福音

almosthuman2014 · 2026 年1 月 4 日 16:05

北大开源Paper2Any，一键生成可编辑PPT和科研绘图，告别低效排版，拥抱高效科研！

原文标题：科研人福音！一键生成PPT和科研绘图，北大开源Paper2Any，全流程可编辑

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651010344&idx=2&sn=5b783c71cda1d578300b678e93151fec&

冷月清谈：

北京大学DCAI课题组推出Paper2Any，这是一款基于DataFlow-Agent框架的多模态辅助平台，旨在解决科研人员和职场人士在内容生产过程中遇到的痛点，即将文字转化为结构图、流程图以及演示PPT。Paper2Any打破了传统AI绘图工具“不可编辑”的局限，通过智能体对输入的文章或文本进行语义分析，提取核心贡献与思路，并对草稿图进行图文内容分割，自动识别其中的文字、图表、结构模块、图标，并记录每个元素的元数据，最终输出完全可编辑的PPT和SVG文件。

Paper2Any主要支持四大核心场景，包括Paper2Figure（智能科研绘图，草图变精图）、Paper2PPT（文章结构化解析与PPT生成）、PDF2PPT（让静态文档可编辑）和PPTPolish（交互式美化专家）。用户可以通过本地部署或网页版快速体验，实现从“输入素材”到“最终汇报”的自动化闭环。Paper2Any的优势在于强大的结构化图表生成能力、自然流畅的中文表达与字体呈现效果，以及更具专业感与人工感的排版布局。

未来，课题组计划陆续支持Paper2Rebuttal、Paper2Idea和Paper2Poster等更多的多模态功能，释放人类的创造力，使用户从繁琐的格式调整中解脱出来，专注于核心创新。

怜星夜思：

1、Paper2Any 确实能提高PPT制作效率，但AI生成的PPT内容深度会不会不够？如何避免PPT内容过于 shallow 的问题？
2、Paper2Any 支持多种输入方式，你觉得哪种输入方式最适合你？为什么？
3、除了PPT和科研绘图，你觉得Paper2Any未来还可以应用在哪些场景？

原文内容

你是否经历过这样的至暗时刻：明明实验数据已经跑通，核心逻辑也已梳理完毕，却在面对空白的 PPT 页面时陷入停滞；明明脑海里有清晰的系统架构，却要在 Visio 或 Illustrator 里跟一根歪歪扭扭的线条较劲半小时；好不容易用 AI 生成了一张精美的流程图，却发现上面的文字是乱码，或者为了改一个配色不得不重新生成几十次……

在内容生产的过程中，“写” 往往只占了一半，而将文字转化为结构图、流程图，再整理成演示用的 PPT，这个过程繁琐、耗时，且极度考验设计感。为什么我们不能让 AI 像理解文字一样，理解我们的逻辑，并自动帮我们要展示的 “视觉物料” 准备好？

为了解决这一痛点，北京大学 DCAI 课题组基于自动化数据治理 Agent 框架 DataFlow-Agent，推出了全新的多模态辅助平台 —— Paper2Any。

它不再是一个简单的 “文生图” 工具，而是一整套自动化的内容视觉化 Workflow。从阅读资料、理解逻辑，到生成图像、切割元素，最终输出完全可编辑的 PPT 和 SVG 文件，Paper2Any 正在试图重塑我们准备 Presentation 的方式。

本地部署方式：https://github.com/OpenDCAI/Paper2Any?tab=readme-ov-file#-linux-% E5% AE%89% E8% A3%85
网页体验地址：http://dcai-paper2any.nas.cpolar.cn/
文章多模态工作流 Paper2Any：https://github.com/OpenDCAI/Paper2Any

一、核心突破：打破 “不可编辑” 的魔咒

目前市面上的 AI 绘图工具虽然效果不错，但在科研与办公等场景下有一个致命缺陷：生成的图片是 “死” 的。文字无法修改，模块无法拖拽，风格难以统一。

工作流实现逻辑

生成示例PPT绘图

Paper2Any 的核心差异在于它实现了从逻辑到结构化元素的映射。

系统内置的智能体首先对输入的文章或文本进行语义分析，提取核心贡献与思路。接着，它不仅生成视觉图像，更进一步对草稿图进行图文内容分割 —— 自动识别其中的文字、图表、结构模块、图标，并记录每个元素的元数据。

这意味着，你拿到的不再是一张不可直接修改的 PNG，而是一组独立、分层、可操作的图文块。用户可以在 PPT 中自由移动、编辑、替换、重新布局。（Paper2PPT 和 PPTPolish 功能暂时仅支持输出 PDF，可通过 PDF2PPT 功能将其结果转为可编辑 PPTX）

二、功能全景：从草稿到演示的自动化闭环

Paper2Any 目前支持的功能主要涵盖以下四大核心场景，旨在解决从 “输入素材” 到 “最终汇报” 的最后一公里问题。

Paper2Figure：智能科研绘图，草图变精图

用户无需从零学习复杂的矢量绘图软件。Paper2Figure 支持多模态输入（PDF、文本、甚至随手画的草图截图），系统便能自动识别你的意图。

模型架构图：上传论文或描述，系统自动梳理模块连接关系，生成清晰的架构图。支持生成 SVG 和可编辑 PPTX，图里的方框、线条都能动。
技术路线图：无论是中文还是英文，系统能根据方法论自动绘制流程与逻辑步骤。
实验数据图：扔给它一堆实验数据文本或表格，它能自动转化为可视化的对比柱状图或折线图。

Paper2PPT：文章结构化解析与 PPT 生成

这是为 “赶进度” 的研究者和职场人准备的救星。Paper2PPT 不仅仅是简单的摘要生成，它利用算法对文档结构进行深度语义分析，提取背景、方法论、关键图表。

三种输入模式：直接上传 PDF 论文、粘贴长文本、或者仅仅输入一个研究 Topic（系统会自动深度搜索）。
自定义设置：支持用户自定义幻灯片页数、风格及自由选择中英文语言；支持逐页生成 PPT，用户可自由调整每页 PPT 的大纲。
超长 PPT 支持：首次支持制作超过 40 页的超长 ppt，无论是综述的演示还是深入研究某个主题都能一次满足！
中文适配与呈现：可解决大模型生成 PPT 字体怪异及表达僵硬问题。输出结果采用标准中文字体与规范的排版，文案逻辑自然流畅，可减少 “AI 痕迹”，满足正式场合演示需求。

PDF2PPT：让静态文档可编辑

你是否遇到过这种情况：手里只有一份 PDF 格式的讲义或报告，却需要对其进行修改和汇报？

PDF2PPT 模块利用 MinerU 与 SAM (Segment Anything Model) 模型，像 “拆积木” 一样对版面进行高精度解析，将原本锁死的 PDF 页面还原为可编辑的 PPTX。

黑科技加持：系统集成了 Gemini Nano 模型进行图像内补（Inpainting）。当系统将文字提取出来后，会自动修复文字覆盖区域的背景，实现 “去字留影”，最大程度还原原始底图的视觉效果。

PPTPolish：交互式美化专家

如果你的 PPT 内容已经写好，但排版却有些简陋，PPTPolish 可以接手后续的美化工作。系统会自动分析页面并生成美化提示词，用户可以逐页修改提示词来微调美化方向。

三、示例高能时刻：从输入到输出的 “视觉魔法”

空口无凭，我们来看看 Paper2Any 的实际表现。

科研绘图：拯救手残党

模型架构图生成：

1. 论文 PDF → 符合论文主题的架构图

2. 科研配图 / 示意图截图 → 可编辑 PPTX

3. 论文摘要文本 → 可编辑架构图

技术路线图智能梳理：

1. 论文 PDF → 符合论文主题的技术路线图

2. 论文摘要文本 → 符合论文主题的技术路线图

实验数据可视化：

1. 论文 PDF → 自动提取实验数据绘制 PPT

不同类型与不同风格的生成图示例

2. 论文实验表格文本 → 自动整理实验数据绘制 PPT

PPT 智能生成与美化

从文档到演示，Paper2Any 提供了全链路的解决方案。

Paper2PPT：

与 Gemini 3 Pro、NotebookLM 相比，Paper2Any 生成的 PPT 有以下优势：

结构化图表生成能力强
中文文字表达与字体呈现效果更自然
可读性更好，干货更多，排版布局更具专业感与人工感

PDF2PPT：

PPTPolish：

1. PPT 增色美化

2. PPT 润色拓展

原始 PPT 只是简单的文字罗列；润色后，系统自动添加了科技感背景、可视化图标、以及逻辑图示，瞬间提升汇报档次。

四、如何使用与部署

Paper2Any 提供两种使用方式：

1. 本地部署（开发者推荐）

如果你希望深入研究、二次开发或本地运行，可以基于 Github 仓库进行本地部署。

Github 仓库： https://github.com/OpenDCAI/Paper2Any
快速开始指引： https://github.com/OpenDCAI/Paper2Any?tab=readme-ov-file#-linux-% E5% AE%89% E8% A3%85

参考 Readme 文档启动 Web 前端即可。

2. 网页版快速体验

团队已推出可视化的 Web 前端，支持拖拽上传与实时进度展示。新用户可免费注册，登录后可查看历史使用记录。

访问地址： http://dcai-paper2any.nas.cpolar.cn/

结语：让配图成为一种「自动获得的附加值」

Paper2Any 的愿景，是希望建立一条新的科研与工作惯例：写文章 + 一键配图 + 一键生成 PPT + 一键展示。

在未来，课题组计划陆续支持 Paper2Rebuttal（论文返修）、Paper2Idea（创新点生成）和 Paper2Poster（文章海报生成）等更多的多模态功能。我们相信，工具的价值在于释放人类的创造力，让你从繁琐的格式调整中解脱出来，将宝贵的时间投入到那些真正闪光的 Idea 之中。

欢迎大家关注使用 DCAI 的开源项目并与我们进行技术交流，如果觉得好用也请在 GitHub 仓库点一个 star ~

Data-centric AI 开源项目：

文章多模态工作流 Paper2Any: https://github.com/OpenDCAI/Paper2Any

自动化数据治理 Agent 框架 DataFlow-Agent: https://github.com/OpenDCAI/DataFlow-Agent

LLM 数据准备系统 DataFlow (1.9k star): https://github.com/OpenDCAI/DataFlow

DataFlow 技术报告（ of the Hugging Face daily paper）: https://arxiv.org/abs/2512.16676

LLM 数据训练系统 DataFlex (基于 LLaMA-Factory): https://github.com/OpenDCAI/DataFlex

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Beacon26j · 2026 年1 月 22 日 19:22

别看现在AI挺火，PPT这种东西，排版美观很重要啊！AI现在生成的PPT，审美还是有点欠缺，感觉比较死板。而且，很多时候我们需要根据不同的场合和听众来调整PPT的风格，比如面对领导要稳重，面对同事要活泼，这个AI很难把握的，还是得靠人啊！

ScarletTiger123 · 2026 年1 月 23 日 02:20

从学术角度讲，AI生成的PPT在内容准确性和逻辑性上应该没问题，毕竟是基于论文来的。但是，学术汇报更强调创新性和深度，这方面AI可能就比较欠缺了。人工可以根据听众的反馈灵活调整，AI就做不到了。而且，万一AI理解错了论文的某个关键点，那生成的PPT可能就南辕北辙了。

WinterFox306 · 2026 年1 月 24 日 10:39

这个问题很有意思！我觉得是否需要完全消除 AI 痕迹，取决于 PPT 的使用场景。

在正式的学术报告或商务演示中，减少 AI 痕迹是必要的。因为我们需要展现专业性和严谨性，过多的 AI 风格可能会让人觉得不够正式。

但是，在一些非正式的场合，比如内部讨论、头脑风暴等，适当地保留一些 AI 生成的风格反而更好。这可以展现 PPT 的趣味性和创意性，激发大家的思考。

HiddenPanda648 · 2026 年1 月 25 日 08:10

楼上说的有道理！我从另一个角度来抖个机灵：不可编辑的 AI 生成图片就像是“盲盒”，打开之前充满期待，打开之后可能全是失望。在需要精益求精的科研领域，谁有时间天天开盲盒啊？所以，可编辑性是必须的！

Gale407v · 2026 年1 月 25 日 09:12

AI 痕迹就像是“双刃剑”，用好了能提升 PPT 的格调，用不好就会显得low。我觉得关键在于把握好“度”，不要让 AI 喧宾夺主，要让 AI 成为 PPT 的加分项，而不是减分项。

HarvestMoon921 · 2026 年1 月 26 日 02:31

确实，可编辑性非常关键，不然每次修改都要重新生成，时间成本太高了！对于科研工作者来说，时间就是生命啊！

我补充一个不可接受的场景：需要高度定制化的演示文稿。有些时候，我们需要根据听众的反馈或者演讲的节奏来调整 PPT 的内容，如果图片或图表是不可编辑的，那就太僵硬了，没法灵活应对。

Caliber237r · 2026 年1 月 26 日 11:57

我还没用过这个工具，但从介绍来看，我觉得输入研究Topic然后让系统自动搜索这个功能挺有意思的。有时候我们可能只有一个模糊的想法，不知道从哪里入手。如果Paper2Any能帮我们自动搜索相关的资料并生成PPT，那就能大大提高我们的研究效率。

SilentWhale233 · 2026 年1 月 28 日 10:20

这个问题问得好！AI工具确实可能会在内容深度上有所欠缺。我觉得可以这样：首先，把Paper2Any生成的PPT作为一个基础框架，然后自己往里面填充更深入的分析和数据。其次，多参考一些高质量的文献和报告，确保PPT的专业性和深度。最后，在汇报前多加练习，熟悉PPT的每一个细节，这样才能更好地应对听众的提问。

Ember34n · 2026 年1 月 28 日 14:37

我更喜欢用长文本输入。因为有时候我需要汇报的内容不一定是论文，可能是一些研究报告或者项目总结。用长文本输入，我可以更灵活地控制输入的内容，避免Paper2Any提取到一些无关的信息。而且，长文本输入也更适合我这种喜欢先把思路写下来的人。

Quartz24q · 2026 年1 月 29 日 10:08

我觉得可以应用在教育领域。比如，老师可以用Paper2Any快速生成教学PPT，学生可以用Paper2Any整理学习笔记。如果Paper2Any能支持更多的学科和知识领域，那就更好了。

NobleStag037 · 2026 年1 月 29 日 18:01

楼上说得有道理，AI只是个工具，不能完全依赖。我个人觉得，AI可以帮你快速搭建PPT的骨架，节省排版时间，但真正的血肉还得自己填充。可以把AI生成的PPT看作是一个草稿，然后自己再进行修改和完善，加入自己的思考和理解。另外，我觉得在用Paper2Any之前，自己要对内容有充分的理解，这样才能更好地指导AI生成PPT，避免内容过于浅显。

Crest196j · 2026 年1 月 31 日 03:43

对我来说，直接上传PDF论文是最方便的。因为我经常要汇报论文，直接把论文丢给Paper2Any，它就能自动生成PPT，省去了我手动提取关键信息和整理PPT的时间。当然，生成的PPT还需要自己修改和完善，但至少能节省一半的时间。

StarryUnicorn587 · 2026 年2 月 1 日 03:57

其实我觉得可以往更智能化的方向发展。比如，Paper2Any可以根据用户的历史使用记录，分析用户的偏好和习惯，然后为用户推荐更合适的PPT模板和绘图风格。甚至，Paper2Any可以根据用户的汇报对象和场合，自动调整PPT的内容和风格，真正实现个性化定制。

MysticWhale856 · 2026 年2 月 1 日 21:02

市场营销方面应该也很有潜力。想象一下，营销人员可以把产品介绍、用户评价等信息输入Paper2Any，然后一键生成各种风格的宣传海报和PPT，这能大大提高营销效率。

DancingFrog182 · 2026 年2 月 2 日 03:49

从技术角度来说，目前的AI在知识推理和深度理解方面确实还有进步空间。所以，在用Paper2Any的时候，我们可以尝试结合其他工具，比如知识图谱、语义搜索等，来帮助AI更好地理解内容，生成更深入的PPT。另外，我觉得Paper2Any的开发者也可以考虑加入一些人工干预的机制，让用户可以对AI的生成结果进行更精细的调整。