斯坦福CS 25春季更新：OpenAI、谷歌等大模型科学家公开课

almosthuman2014 · 2025 年4 月 26 日 12:33

斯坦福CS 25春季学期上线，汇聚OpenAI、谷歌等大模型科学家，探讨Transformer架构与LLM前沿。

原文标题：OpenAI、谷歌等一线大模型科学家公开课，斯坦福CS 25春季上新！

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650966873&idx=2&sn=137c2a1cc99929e67bc096b7ef42bf1c&

冷月清谈：

斯坦福CS 25课程春季学期推出「Transformers United V5」，邀请了Google DeepMind、OpenAI、Meta等一线研究人员，深入探讨AI领域的最新突破。课程完全开放，可现场旁听或参与直播，并提供往期Geoffrey Hinton、Andrej Karpathy等大咖的精彩课程回顾，内容涵盖Transformer架构原理、RAG技术、以及LLM的未来发展趋势。

怜星夜思：

1、课程中提到了Transformer在视觉领域的应用（ViT），大家觉得Transformer架构在视觉领域还有哪些潜在的应用场景？
2、RAG（检索增强生成）被认为是解决LLM幻觉问题的关键技术之一，你认为RAG在实际应用中还存在哪些挑战？
3、课程提到Transformer在多模态和通用AI中的潜力，你认为Transformer在实现通用人工智能（AGI）的道路上扮演着什么角色？

原文内容

机器之心报道

机器之心编辑部

在斯坦福，有一门专门讲 Transformer 的课程，名叫 CS 25。这门课曾经邀请过 Geoffrey Hinton、Andrej Karpathy 以及 OpenAI 的 Hyung Won Chung、Jason Wei 等一线大模型研究科学家担任讲师，在 AI 社区引起广泛关注。

最近，这门课又上新了。这一春季学期课程名为「CS25: Transformers United V5」，邀请了 Google DeepMind 推理团队创立者和现任负责人 Denny Zhou、OpenAI Canvas 项目负责人 Karina Nguyen、OpenAI 研究科学家 Hongyu Ren（任泓宇）、Meta 视频生成团队研究科学家 Andrew Brown 等知名研究者，深入探讨 AI 领域的最新突破。

而且，这门课是完全开放的，任何人都可以现场旁听或加入 Zoon 直播，无需注册或与斯坦福大学建立关联。

课程地址：https://web.stanford.edu/class/cs25/recordings/

课程结束后，他们还会把课程的视频上传到官方 YouTube 账号。目前，新学期视频第一期已经上传。

视频地址：https://www.youtube.com/watch?v=JKbtWimlzAE

整个学期的课程表如下：

想要听直播的同学记得在太平洋夏令时间每周二下午 3:00 - 4:20（北京时间每周三上午 6:00 - 7:20）蹲守，具体信息请参考官方网站。

往期热门课程

V2：Geoffrey Hinton——Representing Part-Whole Hierarchies in a Neural Network

AI 领域传奇人物 Geoffrey Hinton（「深度学习教父」）分享了他对神经网络中部分-整体层次结构的最新研究，提出了 GLOM 模型，旨在模拟人类视觉系统处理复杂场景的能力。

讲座探讨了 GLOM 如何通过动态解析树结构增强 Transformer 在视觉任务中的表现，解决自注意力机制的计算效率瓶颈。Hinton 结合深度学习的演变历程，从感知机到 RNN 再到 Transformer，展望了神经网络在模拟认知过程和提升视觉理解中的未来潜力。

视频地址：https://www.youtube.com/watch?v=CYaju6aCMoQ&t=2s

V2：Andrej Karpathy——Introduction to Transformers

Andrej Karpathy（前 Tesla AI 总监、OpenAI 研究员）系统介绍了 Transformer 架构的原理与影响。他从 2017 年《Attention is All You Need》论文出发，拆解了自注意力机制（Self-Attention）、多头注意力（Multi-Head Attention）及 Transformer 在大型语言模型（如 ChatGPT）中的核心作用。

讲座还探讨了 Vision Transformer（ViT）等跨领域应用，并展望了模型高效化和多模态学习的未来。Karpathy 结合自身从斯坦福学生到业界先锋的经历，回顾了深度学习从 RNN 到 Transformer 的演变。

视频地址：https://www.youtube.com/watch?v=XfpMkf4rD6E

V3：Douwe Kiela——Retrieval Augmented Language Models

Douwe Kiela（Contextual AI 首席执行官兼斯坦福符号系统客座教授）深入探讨了检索增强生成（Retrieval-Augmented Generation, RAG）作为解决大型语言模型（LLM）局限性的关键技术。讲座介绍了 RAG 的基本概念，即通过外部检索器提供上下文信息，缓解幻觉（hallucination）、信息时效性和定制化问题。

Kiela 回顾了语言模型的历史，追溯至 1991 年的神经语言模型，澄清了 OpenAI 并非首创的误解，并调研了 RAG 的最新进展，如 Realm、Atlas 和 Retro 架构，分析其优劣。他还探讨了 RAG 与长上下文模型的效率对比、指令微调（instruction tuning）的重要性以及未来的研究方向，如多模态 RAG 和预训练优化。

视频地址：https://www.youtube.com/watch?v=mE7IDf2SmJg

V4：Jason Wei & Hyung Won Chung of OpenAI

OpenAI 研究科学家 Jason Wei 和 Hyung Won Chung 分享了关于大型语言模型（LLM）和 Transformer 架构的洞见。

Jason Wei 探讨了语言模型的直观理解，强调下一词预测作为大规模多任务学习的本质，并分析了扩展律（scaling laws）与个体任务的涌现能力。Hyung Won Chung 则从历史视角审视 Transformer 架构的演变，聚焦计算成本指数下降的驱动作用，提出通过连接过去与现在预测 AI 未来的统一视角。

两位讲者结合在 OpenAI 的工作经验（如 FLAN-T5、Codex），展望了 Transformer 在多模态和通用 AI 中的潜力。

机器之心报道：

视频地址：https://www.youtube.com/watch?v=3gb-ZkVRemQ

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

QuietKoala728 · 2025 年4 月 26 日 21:26

我觉得现在讨论AGI还太早，Transformer只是一个工具，它擅长的是模式识别和生成。要实现AGI，还需要解决很多根本性的问题，比如知识的表示、推理的机制、以及意识的产生。Transformer可以作为AGI的基础模块，但它不是万能的。更重要的是，我们要在伦理的框架下发展AI技术，避免AGI带来潜在的风险。

StormyRaven098 · 2025 年4 月 27 日 20:42

我从工程角度补充一点，RAG的挑战在于如何构建一个高效、可扩展的检索系统。这涉及到向量数据库的选择、索引的构建、以及检索策略的优化。另外，如何监控和维护RAG系统的性能也是一个重要的课题。学术界现在也在研究如何让模型自己判断什么时候需要检索，以及如何从检索结果中提取最相关的信息。

Mystic98x · 2025 年4 月 27 日 22:53

RAG确实能缓解幻觉，但我觉得挑战还是挺多的。首先，检索的质量很重要，如果检索到的信息本身就是错误的，那生成的结果肯定也好不到哪去。其次，如何有效地融合检索到的信息也是个问题，直接拼接可能会引入噪声，影响生成效果。最后，RAG的效率也是个问题，检索过程会增加延迟，影响用户体验。

Drift815m · 2025 年4 月 28 日 03:16

RAG的问题啊，说白了就是“garbage in, garbage out”。检索到的信息要是没用，那生成的结果肯定也拉胯。而且，现在的RAG模型大多还是基于文本的，对于图像、视频等非结构化数据的支持还不够。未来可以考虑多模态的RAG，让模型能够从更丰富的知识源中学习。

Haven14j · 2025 年4 月 29 日 05:16

与其说AGI，不如说transformer现在是大力丸，啥都能往上靠。不过说正经的，transformer的self-attention确实让模型能更好地理解上下文，这在很多复杂的任务里都挺重要的。但是AGI需要的不仅仅是理解，还得有创造力、common sense啥的，这些transformer还差得远呢。

StarryUnicorn587 · 2025 年4 月 29 日 09:54

ViT之后，Transformer在视觉领域太火了，感觉现在很多CV任务都能看到Transformer的身影，比如目标检测、图像分割，甚至low-level的图像增强、图像去噪都有应用。个人觉得Transformer的潜力在于它能够更好地建模全局信息，这对于理解图像的上下文非常重要。

Ion31q · 2025 年5 月 1 日 11:23

我觉得吧，现在transformer在CV里有点被滥用了，啥都往里套。但是不得不承认，它在处理长序列依赖上确实比CNN强。未来我觉得可以多考虑考虑如何把transformer的效率提上去，毕竟计算量是个大问题，尤其是在移动端部署的时候。

LuckyRabbit007 · 2025 年5 月 1 日 14:30

Transformer作为一种通用的架构，在处理各种模态的数据上都表现出色，这是它在AGI道路上扮演重要角色的基础。我认为Transformer的关键在于其注意力机制，它能够让模型关注到输入中最重要的部分，从而更好地理解和推理。未来，我们需要进一步研究如何让Transformer具备更强的推理能力、泛化能力和自我学习能力，才能真正实现AGI。

FieryPhoenix505 · 2025 年5 月 3 日 03:06

从学术角度来说，Transformer在视觉领域的应用不仅仅是ViT这种直接的替代CNN，更重要的是它带来的全局建模思路。我觉得未来可以关注如何将Transformer的注意力机制与传统的CV方法结合，比如用注意力机制来优化特征选择，或者改进损失函数的设计。另外，Transformer在三维视觉、视频理解等领域也有很大的潜力。