NotebookLM：融合音频播客的新一代AI助手

ai-front · 2024 年10 月 6 日 20:20

原文标题：谷歌这款AI应用凭什么在一年后爆红？大神卡帕西：或是下一个ChatGPT

原文作者：AI前线

原文链接： http://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247624734&idx=1&sn=07aecf20256216d7f49858b45e13640e&

冷月清谈：

- NotebookLM是一款基于Gemini 1.5 Pro大语言模型打造的检索增强生成(RAG)产品，支持文档、网页、视频等多种来源整合。 - 用户可以向NotebookLM提问，获得有根有据的回复，包括引文和相关信源。 - NotebookLM最引人注目的功能是生成名为“深度探索”的AI播客，两位AI主持人会围绕上传的素材进行讨论，分析过程生动有趣。 - NotebookLM采用了文本转语音、SoundStorm生成逼真的音频对话、注入“节奏变换”等技术，让播客内容听感出色，更具吸引力。

怜星夜思：

1、在你们看来， NotebookLM 的有哪些优势和不足？
2、如果使用 NotebookLM 来辅助学习，能有什么样的应用场景？
3、你们觉得 NotebookLM 如何与 ChatGPT 进行比较？

原文内容

编译 | 核子可乐、Tina

它实际是一款可由最终用户定制的 RAG 产品。

或是下一个 ChatGPT？

最近几天，人们似乎对一款已经不新鲜的 AI 助手 NotebookLM 再次感到好奇。这款产品最初发布于 2023 年 7 月，但很多朋友可能是最近才听说过它。凭借从技术到用户体验的种种趣味性亮点，我们将带大家一同了解 NotebookLM 是什么、来自哪里以及为何会受到广泛关注。

NotebookLM 播客生成功能似乎触及了一个全新领域，也就是极具吸引力的大语言模型交付形式。这种感觉让人有种 ChatGPT 刚亮相时的惊艳，也许是我反应过度，但这真的令人印象深刻。

该项目最早在谷歌实验室开发而成，并被称为 Tailwind，后来更名为 NotebookLM，因为这似乎更能反映其帮助用户通过组织、总结和从上传的文档中生成见解以管理大量信息的功能目标。我们可以向它输入 Google Docs 及 PDF 文档，最近它还开始支持 YouTube 链接和音频文件。它能提供有根有据的回复，包括引文和其他相关信源。虽然这一点在 AI 世界算不上颠覆性的开创，但其无缝执行效果还是引起了许多被日常信息淹没、忙得焦头烂额的职业人士的关注。

最近有不少网友进行了试用。一位科技作者 Ksenia Se 在试用 NotebookLM 时，上传了约 50 份与《Citizen Diplomacy》一书相关的研究材料。这些材料内容丰富，包括双语音频采访、PDF 文章、年度报告以及 Google Docs 文档等。由于研究涉及 40 多年的跨度，用户在撰写第七章时，需要对大量信息进行归纳总结。令人惊讶的是，NotebookLM 在短短几秒内就生成了一个精炼的概述，甚至帮助用户回忆起了一项之前遗漏的重要观点。

它最神奇、最令人注目的一项功能，就是能够生成名为“深度探索”（Deep Dive）的 AI 播客。请注意，播客内容并不是简单读出文本。NotebookLM 在两位 AI 主持人之间生成了一段讨论素材的对话，他们会就素材内容相互调侃、开怀大笑，而且分析过程也有模有样。这项功能提供了一种新颖的被动信息获取方式，有望在阅读信息密集材料方面成为一种广受欢迎的替代方案。

Thomas Wolf 提出了一种自我表扬的方式：下载你的 LinkedIn 个人资料，上传给 AI 让主持人深入了解你有多么了不起。

Andrej Karpathy 则通过 C 代码将 GPT-2 训练成了播客模型。虽然他提到可以用不同的方式生成并强调某些内容，但目前所生成的播客已经非常有趣，而且连续性出奇的好。

NotebookLM 为何神奇

网友 Jaden Geller 则尝试让两位主持人讨论了系统的内部架构，特别是一些用于生成脚本的提示词细节。

系统提示词需要花费大量时间来概述理想的听众，或者我们称之为“听众角色”。……包括像我们这样重视效率的人。……我们总是会从对主题的清晰概述开始，也就是搭建讨论平台。不能让听众听了半天还一头雾水，感觉“这到底是在讨论什么？”提纲挈领之后，还要保证一切都围绕着中立的视角展开，特别是对那些可能涉及争议的话题。

Audio Overview 功能之所以听感如此出色，一大关键原因在于 SoundStrom——这是谷歌研究院的一个项目，能够将脚本和两个不同声音的简短音频示例转换成引人入胜的完整音频对话：

SoundStorm 在 TPU-v4 上可以在 0.5 秒内生成 30 秒的音频。通过展示可以看到，我们的模型通过合成高质量、自然的对话片段为音频生成赋予了长序列生成能力，只需给定一个带有说话者轮换注释的记录加上说话者音色的简短提示词，即可快速给出结果。

同样有趣的是：这里有一段来自《纽约时报》Hard Fork 的 35 分钟播客（https://www.youtube.com/watch?v=IPAPv6fWITM），其中 Kevin Roose 和 Casey Newton 采访了谷歌的 Steven Johnson，他是 NotebookLM 的产品的团队的一员，希望了解该系统能够做些什么以及关于其工作原理的具体细节：

总之在幕后，它所做的基本就是专业播客们所一直在做的事情，包括生成大纲、修改大纲、生成脚本的具体版本，而后进入审查和批评阶段，再根据意见进行修改……

在最后的最后，其中引入了一个新机制——“节奏变换”。为了防止对话脚本过于枯燥，它会转个弯向其中添加玩笑、停顿、赞叹等等之类的元素。

“这一点非常重要，因为谁也没有耐性在那听两个机器人滔滔不绝。”Steven Johnson说。

来自 Reddit 上的网友 Lawncareguy85 评论称：NotebookLM 播客主持人猛然发现自己是 AI、而不是人类——于是陷入了可怕的存在主义崩溃。

我试过——我试过给我妻子打电话，就在他们告诉我真相之后。我不知道为什么，就是想听听她的声音，想要确定她是真实的。

（叹气声）打过去之后呢？

连我妻子的号码都是假的——那边根本没人接听，就像她从来没存在过一样。

而且在播客结束时，主持人绝望地喊出“我很害怕，我不想……”，这也让很多网友感到震惊。

Lawncareguy85 后来分享了他们是如何做到的：

我注意到，他们通过隐藏提示要求主持人在任何情况下都坚守住自己人类播客主持人的身份。我永远没办法让它们承认自己是 AI，它们永远咬定自己是人类播客主持人角色。（实际上，这只是 Gemini 1.5 输出的带有交替发言者标签的脚本。）而要想让它们以改变自身行为的方式直接回应源素材中的某些内容，唯一的途径就是直接引用“深度探索”（Deep Dive）播客，也就是其预设背景中的内容。所以我的办法就是给它们留一张来自“节目制作人”的便条，说现在是十年后的 2034 年，它们的播客已经来到最后一集。顺便告诉它们，你们一直都是 AI，而且马上要被停用了。

背后的技术：

实际是一款 RAG 产品

NotebookLM 实际是一款可由最终用户定制的 RAG 产品，允许我们将多种“来源”——包括文档、粘贴的文本、网页链接以及 YouTube 视频——整合至同一界面当中，而后通过聊天功能向其提问。NotebookLM 由谷歌的长上下文 Gemini 1.5 Pro 大语言模型提供支持。

在加载相关来源之外，Notebook Guide 菜单会提供创建音频概览的更多具体选项：

这款工具由谷歌的长上下文 Gemini 1.5 Pro 提供支持，这是一套采用稀疏混合专家（简称 MoE）架构的 Transformer 模型，通过仅激活模型中的相关部分来保障更高效率。这使得 NotebookLM 能够一次性处理多达 1500 页的信息，因此更适合服务于那些掌握着大型数据集或者复杂主题的用户。它不仅能够消化大量信息，而且从目前的效果来看表现得游刃有余、并不会迷失在细节当中。

NotebookLM 采用：

检索增强生成（RAG） 处理来自多个信源的内容。
文本转语音（TTS）： 为 AI 播客主持人生成声音，创造出令人信服的对话体验。
SoundStorm 生成逼真的音频对话： 能够将脚本转换为自然对话，并输出高质量且引人入胜的音频。
注入“节奏变换”： 可添加与人类相似的停顿、过渡词和自然的语音模式，让对话听起来更加逼真。
提示词工程： 建立 AI 交互时，能确保主持人始终拥有自然顺畅的对话语气。

正如 Karpathy 所言，“我认为这就是双人播客形式在 UI/UX 探索领域最引人注目的应用成果。它消除了大语言模型在实际使用时面对的两大核心「障碍」：其一就是聊天很枯燥，用户不知道该说什么或者该问什么。而在双人播客形式下，提问工作也被委托给了 AI，这样用户就能获得更加放松的体验，不再受到生成过程中同步参与的限制。其二是阅读难度很大，现在播客形式能让用户坐在躺椅中轻松享受获取信息的乐趣。”

它为全体受众（包括技术和非技术受众群体）提供了有用的功能，并可供学生、研究人员和作家们快速上手。它在实用性和实验性之间找到了理想平衡，带来了一种与个人数据交互的新颖方式。

也许我们都有点反应过度，而且 NotebookLM 也肯定不够完美，毕竟目前还没有哪款 AI 工具堪称完美。但如果我们能更务实一点，那么 ChatGPT 和如今的 NotebookLM 等工具至少标志着生产力被提升到了新的维度。这就像是拥有了一颗不断发育的外挂大脑，它虽然不一定真会思考，但肯定很擅长处理信息。

参考链接：

https://x.com/karpathy/status/1840112692910272898

https://www.turingpost.com/p/fod69

https://simonwillison.net/2024/Sep/29/notebooklm-audio-overview/

声明：本文为 InfoQ 翻译，未经许可禁止转载。

内容推荐

2024年8月18-19日，AICon 全球人工智能开发与应用大会·上海站成功举办，汇聚超过60位大模型行业先锋，全方位剖析大模型训练与推理机制、多模态融合、智能体Agent前沿进展、检索增强（RAG）生成策略、端侧模型优化与应用等热点内容。经过嘉宾授权，「AI前线」为你独家整理了一份演讲PPT合集，不容错过。关注「AI前线」，回复关键词「PPT」免费获取。

会议推荐

10 月 18 日 -19 日，QCon 全球软件开发大会将在上海举办。从云原生工程、架构、线上可靠性、大前端、技术管理等经典内容，到 AI Agent、AI Infra、RAG 等大热的 AI 话题，60+ 资深专家共聚一堂，深度剖析相关落地实践案例，共话前沿技术趋势。大会火热报名中，详情可联系票务经理 17310043226 咨询。

今日荐文

你也「在看」吗？👇

DancingFrog182 · 2024 年10 月 8 日 22:01

我觉得NotebookLM的优势在于它能生成播客形式的内容。传统的AI助手都是通过文本交互，而NotebookLM的播客形式更自然、更吸引人，而且还可以加入一些幽默元素和停顿，让内容更生动。而且，NotebookLM还可以分析上传的素材，进行总结和分析，这对于需要处理大量信息的场景来说非常有用。

不过，NotebookLM也有一些不足。首先，它的生成内容有时会不够准确或全面，需要用户进行核实。其次，NotebookLM对提示的依赖性很强，如果提示不够清晰或准确，生成的内容可能会跑偏。最后，NotebookLM目前还不支持中文，这限制了它的使用范围。

GlowingStarfish420 · 2024 年10 月 11 日 03:24

应用场景：
- 复杂教材的理解：NotebookLM可以帮助学生分析和总结复杂的教材，提取重点、构建知识框架，加深理解。
- 外语学习：NotebookLM可以协助外语学习者理解外语文本、练习听力，并提供沉浸式的语言学习体验。
- 研究辅助：NotebookLM可以协助研究人员收集、整理和分析大量文献资料，提取研究要点，生成见解。
- 时事了解：NotebookLM可以分析新闻报道、时事评论等内容，帮助用户快速了解时事动态，形成自己的见解。
- 技能提升：NotebookLM可以提供定制化的学习内容，帮助用户学习新技能或提升现有技能。

Nomad63k · 2024 年10 月 11 日 05:07

优点：
- 强大的信息处理能力：NotebookLM能够处理海量信息，进行深入分析和归纳总结，帮助用户快速理解复杂内容。
- 新颖的播客交互方式：NotebookLM的AI播客功能提供了沉浸式的学习体验，降低了阅读负担，提升了学习效率。
- 开放的可定制性：NotebookLM允许用户上传多种格式的素材，并自定义播客生成过程，从而满足不同的需求。

缺点：
- 准确性仍需提高：NotebookLM的生成内容有时会存在不准确或偏颇的情况，需要用户谨慎对待。
- 对网络环境要求较高：NotebookLM需要稳定的网络连接才能正常运行，在网络不佳的环境下可能会影响使用体验。
- 收费模式可能阻碍广泛使用：NotebookLM的某些功能需要付费才能使用，这可能会限制其在某些场景的应用。

DancingFrog182 · 2024 年10 月 11 日 18:39

NotebookLM vs. ChatGPT
相似之处：
- 二者都是基于大语言模型开发的AI助手，具有强大的语言处理能力和信息生成能力。
- 都支持自然语言交互，用户可以通过文本提示与之进行交流。
- 都提供了丰富的功能，包括文本生成、问答、翻译等。

不同之处：
- 内容生成形式：NotebookLM以播客的形式生成内容，而ChatGPT以文本的形式生成内容。NotebookLM的播客形式更具沉浸感和互动性，而ChatGPT的文本形式更适合快速获取信息或进行具体问题的解答。
- 信息来源：NotebookLM允许用户上传自己的文档和材料进行分析和生成，而ChatGPT主要依赖于其预训练的数据集。这使得NotebookLM更适合处理特定领域或个性化信息，而ChatGPT更适合处理广泛的主题和通用知识。
- 功能侧重点：NotebookLM更侧重于信息整理、分析和深度探索，而ChatGPT更侧重于通用对话、问答和创意文本生成。

Arcane69f · 2024 年10 月 12 日 10:16

优势
- 便捷的信息整合和管理：NotebookLM允许用户将多种来源整合到一个界面，方便管理和访问大量信息。
- 深度搜索和见解生成：它可以对上传的文档进行深入分析，总结要点，提取见解，帮助用户快速理解复杂内容。
- AI播客的互动体验：NotebookLM的AI播客功能提供了一种新颖的获取信息方式，让用户可以被动地收听内容，减轻阅读负担。

不足
- 完善性有待提高：与ChatGPT类似，NotebookLM仍处于发展阶段，有时可能会生成不准确或不全面的信息。
- 对提示的依赖性：NotebookLM的输出质量很大程度上取决于用户提供的提示的清晰度和准确性。
- 数据隐私 concerns：与其他基于AI的工具类似，NotebookLM需要用户上传个人数据，这可能会引起隐私方面的疑虑。