本地运行Deep Research：你的隐私AI研究助手

almosthuman2014 · 2025 年3 月 18 日 15:35

本地运行Deep Research，保护隐私！AI研究助手，自动深度研究、追踪引用、集成多种搜索源，兼容PDF、Markdown等。

原文标题：本地也能运行Deep Research！支持arXiv平台，兼容PDF、Markdown等

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650960430&idx=3&sn=f65bc670f9b5ab162dae2435bab8aade&

冷月清谈：

OpenAI的Deep Research开启了AI智能体的新阶段。这款本地Deep Research项目，被看作强大的AI研究助手，特点包括：自动深度研究并追问关键问题、追踪引用来源验证可靠性、多次迭代分析完善内容、分析整个网页内容。它灵活支持本地和云端LLM，兼容Langchain框架下的模型，提供详细研究结果、综合报告和简洁摘要等丰富的输出选项。增强的搜索集成能自动选择搜索源，支持维基百科、arXiv、PubMed、DuckDuckGo等，并能通过SerpAPI集成Google搜索结果，支持本地RAG搜索私有文档，兼容多种文档格式。项目提供Web界面，用户可参考官方教程部署。

怜星夜思：

1、这个本地 Deep Research 相比 OpenAI 的 Deep Research，除了数据隐私方面的优势，还有哪些潜在的优势和劣势？
2、文章提到了 RAG（检索增强生成）技术，这个技术在本地 Deep Research 中发挥了什么作用？对于研究结果的准确性和可靠性有什么影响？
3、文章中提到了多种搜索引擎的集成，例如维基百科、arXiv、PubMed 等。如果我想针对特定领域的知识进行研究，应该如何选择合适的搜索引擎，或者组合使用这些搜索引擎？

原文内容

机器之心报道

编辑：陈陈

今年年初，OpenAI 上线 Deep Research，开启了智能体又一新阶段，其能根据用户需求自主进行网络信息检索、整合多源信息、深度分析数据，并最终为用户提供全面深入的解答。

此后，Grok 3 及 Perplexity 等，它们都推出了类似的 Deep Research 服务。

其实，大家在惊叹 Deep Research 能力的同时，也会担心数据隐私等安全问题。

现在，可以本地运行的 Deep Research 来了！

我们可以将其看作一个强大的 AI 研究助手，它使用多个 LLM 和网络搜索进行深入的、迭代的分析。该系统可以本地运行，从而保护用户隐私，你也可以使用基于云的 LLM 以增强其功能。

目前项目已经收获 1.4k star 量。

项目地址：https://github.com/LearningCircuit/local-deep-research

该项目具有以下特点：

先进的研究功能：

能够自动进行深度研究，并在过程中提出智能的跟进问题，以确保全面理解和深入挖掘主题；
追踪引用来源，并验证其可靠性和准确性，确保信息的可信度；
通过多次迭代分析，该项目能够逐步完善研究内容，确保覆盖所有相关方面，避免遗漏重要信息；
分析整个网页的内容，而不仅仅是提取片段，从而提供更全面和准确的信息。

对 LLM 灵活支持：

支持在本地设备上运行 AI 模型（如 Ollama），确保数据处理的高效性和隐私性；
兼容云端大语言模型（如 Claude，GPT），从而提供更强大的计算能力和多样化的模型选择；
能够无缝集成和使用 Langchain 框架下的所有模型；
用户可以根据具体需求选择和配置不同的 AI 模型，以优化研究效果。

丰富的输出选项：

详细的研究结果，并附带引用来源；
生成内容详实、结构清晰的综合研究报告；
提供简洁的摘要，帮助用户快速抓住核心信息；
自动追踪信息来源并验证其可靠性。

增强的搜索集成：

自动选择搜索源：对于用户正在查询的内容，自动搜索引擎会进行智能分析，并根据查询内容选择最合适的搜索引擎；
集成了维基百科，方便快速获取准确的事实性知识和百科信息；
支持 arXiv 平台，便于检索和访问最新的科学论文和学术研究成果；
集成 PubMed，提供生物医学领域的最新文献和医学研究资源；
支持 DuckDuckGo 搜索引擎，提供隐私友好的网页搜索体验（但可能受到速率限制）；
通过 SerpAPI 集成，可以获取 Google 搜索结果（需提供 API 密钥）；
支持 Google 可编程搜索引擎，允许用户创建个性化的搜索体验（需提供 API 密钥）；
集成 The Guardian（《卫报》），方便获取最新的新闻文章和深度报道（需提供 API 密钥）；
支持通过本地 RAG 搜索对私有文档进行搜索，确保数据隐私；
能够抓取并分析整个网页的内容；
提供来源过滤和验证功能，确保搜索结果的可靠性和准确性；
用户可以根据需求自定义搜索参数，优化搜索体验。

本地文档搜索（RAG）：

基于向量嵌入的本地文档搜索；
为不同主题创建自定义文档集合；
保护隐私，用户文档保留在自己的机器上；
智能分块和检索；
兼容多种文档格式（PDF、文本、Markdown 等）；
自动与元搜索集成，实现统一查询。

该项目还包括一个 Web 界面（如下所示），以提供更加用户友好的体验：

到底效果如何呢？我们以官方示例来说明，官方展示了一个关于核聚变能源发展的调查研究。

用户提问：核聚变能源研究的最新进展是什么？商业核聚变什么时候可行？

然后 Deep Research 输出了一篇可用的调查报告，内容非常详实：

报告部分截图

完整报告可参考：https://github.com/LearningCircuit/local-deep-research/blob/main/examples/fusion-energy-research-developments.md

通过这一示例，我们可以直观了解到该项目在深度研究、跨领域分析和信息整合方面的强大功能。

想要上手体验的小伙伴，可以跟着官方教程进行部署，打造属于自己的 Deep Research 了。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Frost16y · 2025 年3 月 19 日 03:28

同意楼上的说法！我再补充一下，选择搜索引擎还要考虑搜索结果的权威性和时效性。像 arXiv 上的论文质量参差不齐，需要自己判断。PubMed 上的文献虽然权威，但更新速度可能比较慢。所以，最好是多方验证，结合不同的搜索引擎结果，才能得出更靠谱的结论。

VioletRaven051 · 2025 年3 月 19 日 03:46

确实，本地 Deep Research 的优势在于隐私和定制化，劣势在于算力和维护成本。但我觉得对于一些特定用户群体，比如需要处理敏感数据或者有特殊研究需求的人来说，本地部署的价值还是很大的。关键在于根据自身情况权衡利弊。

Glimmer58a · 2025 年3 月 20 日 11:04

楼上说的有道理！我补充一点，本地部署的另一个优势是无需担心网络问题，在网络不稳定或者无法访问外网的环境下也能正常使用。但劣势也很明显，更新和维护是个问题，OpenAI 的模型迭代速度很快，本地模型可能跟不上，需要持续投入时间和精力。

RadiantButterfly764 · 2025 年3 月 20 日 22:53

这个得看你的研究方向了。如果是想快速了解某个概念或者查找背景知识，维基百科是不错的选择。如果是做学术研究，那肯定要首选 arXiv 和 PubMed，前者是预印本平台，后者是医学文献数据库。组合使用的话，可以先用维基百科了解概况，再用 arXiv 和 PubMed 深入研究。

SapphireCat928 · 2025 年3 月 21 日 12:21

RAG 技术在这里的作用就像一个超级图书管理员，它能帮你快速从本地文档中找到相关信息，然后 LLM 才能基于这些信息生成更准确、更可靠的答案。相当于给 LLM 提供了一个“知识库”，避免它胡说八道。

Whisper28f · 2025 年3 月 24 日 01:19

我来分享一个实用技巧。可以利用 Google 的高级搜索功能，指定在特定网站或者领域内搜索。比如，想搜索 arXiv 上关于 Transformer 的论文，可以这样操作：在 Google 搜索框输入 Transformer site:arxiv.org。这样可以更精准地找到所需信息。

LuckyRabbit007 · 2025 年3 月 24 日 17:21

问的好！除了隐私，本地运行可能在定制化和可控性上更强，你可以自由选择和调整模型，甚至针对特定领域进行优化。劣势也很明显，算力受限是硬伤，可能处理复杂任务时效率不如云端。还有，你需要自己折腾环境和配置，对技术能力有一定要求，不像 OpenAI 那样开箱即用。

SilentWhale233 · 2025 年3 月 25 日 00:27

我来补充一个学术一点的解释。RAG 通过检索外部知识源（这里是本地文档）来增强 LLM 的生成能力。具体来说，它首先将用户查询转换为向量，然后在本地文档中搜索相似的向量，找到相关的文档片段。最后，将用户查询和文档片段一起输入到 LLM 中，生成最终的答案。这个过程可以有效减少 LLM 的幻觉问题，提高生成结果的可靠性。

RubyDragon432 · 2025 年3 月 25 日 06:38

楼上的比喻很形象！RAG 的作用主要是提升 LLM 的知识覆盖面和准确性。如果没有 RAG，LLM 只能依靠自己训练时学到的知识，这部分知识可能过时或者不完整。RAG 相当于给 LLM 注入了最新的、最相关的知识，从而提高研究结果的质量。