斯坦福CS 25春季更新:OpenAI、谷歌等大模型科学家公开课

斯坦福CS 25春季学期上线,汇聚OpenAI、谷歌等大模型科学家,探讨Transformer架构与LLM前沿。

原文标题:OpenAI、谷歌等一线大模型科学家公开课,斯坦福CS 25春季上新!

原文作者:机器之心

冷月清谈:

斯坦福CS 25课程春季学期推出「Transformers United V5」,邀请了Google DeepMind、OpenAI、Meta等一线研究人员,深入探讨AI领域的最新突破。课程完全开放,可现场旁听或参与直播,并提供往期Geoffrey Hinton、Andrej Karpathy等大咖的精彩课程回顾,内容涵盖Transformer架构原理、RAG技术、以及LLM的未来发展趋势。

怜星夜思:

1、课程中提到了Transformer在视觉领域的应用(ViT),大家觉得Transformer架构在视觉领域还有哪些潜在的应用场景?
2、RAG(检索增强生成)被认为是解决LLM幻觉问题的关键技术之一,你认为RAG在实际应用中还存在哪些挑战?
3、课程提到Transformer在多模态和通用AI中的潜力,你认为Transformer在实现通用人工智能(AGI)的道路上扮演着什么角色?

原文内容

机器之心报道

机器之心编辑部


在斯坦福,有一门专门讲 Transformer 的课程,名叫 CS 25。这门课曾经邀请过 Geoffrey Hinton、Andrej Karpathy 以及 OpenAI 的 Hyung Won Chung、Jason Wei 等一线大模型研究科学家担任讲师,在 AI 社区引起广泛关注。



最近,这门课又上新了。这一春季学期课程名为「CS25: Transformers United V5」,邀请了 Google DeepMind 推理团队创立者和现任负责人 Denny Zhou、OpenAI Canvas 项目负责人 Karina Nguyen、OpenAI 研究科学家 Hongyu Ren(任泓宇)、Meta 视频生成团队研究科学家 Andrew Brown 等知名研究者,深入探讨 AI 领域的最新突破。


而且,这门课是完全开放的,任何人都可以现场旁听或加入 Zoon 直播,无需注册或与斯坦福大学建立关联。



  • 课程地址:https://web.stanford.edu/class/cs25/recordings/


课程结束后,他们还会把课程的视频上传到官方 YouTube 账号。目前,新学期视频第一期已经上传。



  • 视频地址:https://www.youtube.com/watch?v=JKbtWimlzAE


整个学期的课程表如下:



想要听直播的同学记得在太平洋夏令时间每周二下午 3:00 - 4:20(北京时间每周三上午 6:00 - 7:20)蹲守,具体信息请参考官方网站。


往期热门课程


V2:Geoffrey Hinton——Representing Part-Whole Hierarchies in a Neural Network


AI 领域传奇人物 Geoffrey Hinton(「深度学习教父」)分享了他对神经网络中部分-整体层次结构的最新研究,提出了 GLOM 模型,旨在模拟人类视觉系统处理复杂场景的能力。


讲座探讨了 GLOM 如何通过动态解析树结构增强 Transformer 在视觉任务中的表现,解决自注意力机制的计算效率瓶颈。Hinton 结合深度学习的演变历程,从感知机到 RNN 再到 Transformer,展望了神经网络在模拟认知过程和提升视觉理解中的未来潜力。


  • 视频地址:https://www.youtube.com/watch?v=CYaju6aCMoQ&t=2s


V2:Andrej Karpathy——Introduction to Transformers

Andrej Karpathy(前 Tesla AI 总监、OpenAI 研究员)系统介绍了 Transformer 架构的原理与影响。他从 2017 年《Attention is All You Need》论文出发,拆解了自注意力机制(Self-Attention)、多头注意力(Multi-Head Attention)及 Transformer 在大型语言模型(如 ChatGPT)中的核心作用。


讲座还探讨了 Vision Transformer(ViT)等跨领域应用,并展望了模型高效化和多模态学习的未来。Karpathy 结合自身从斯坦福学生到业界先锋的经历,回顾了深度学习从 RNN 到 Transformer 的演变。


  • 视频地址:https://www.youtube.com/watch?v=XfpMkf4rD6E


V3:Douwe Kiela——Retrieval Augmented Language Models


Douwe Kiela(Contextual AI 首席执行官兼斯坦福符号系统客座教授)深入探讨了检索增强生成(Retrieval-Augmented Generation, RAG)作为解决大型语言模型(LLM)局限性的关键技术。讲座介绍了 RAG 的基本概念,即通过外部检索器提供上下文信息,缓解幻觉(hallucination)、信息时效性和定制化问题。


Kiela 回顾了语言模型的历史,追溯至 1991 年的神经语言模型,澄清了 OpenAI 并非首创的误解,并调研了 RAG 的最新进展,如 Realm、Atlas 和 Retro 架构,分析其优劣。他还探讨了 RAG 与长上下文模型的效率对比、指令微调(instruction tuning)的重要性以及未来的研究方向,如多模态 RAG 和预训练优化。


  • 视频地址:https://www.youtube.com/watch?v=mE7IDf2SmJg


V4:Jason Wei & Hyung Won Chung of OpenAI


OpenAI 研究科学家 Jason Wei 和 Hyung Won Chung 分享了关于大型语言模型(LLM)和 Transformer 架构的洞见。


Jason Wei 探讨了语言模型的直观理解,强调下一词预测作为大规模多任务学习的本质,并分析了扩展律(scaling laws)与个体任务的涌现能力。Hyung Won Chung 则从历史视角审视 Transformer 架构的演变,聚焦计算成本指数下降的驱动作用,提出通过连接过去与现在预测 AI 未来的统一视角。


两位讲者结合在 OpenAI 的工作经验(如 FLAN-T5、Codex),展望了 Transformer 在多模态和通用 AI 中的潜力。


  • 机器之心报道:

  • 视频地址:https://www.youtube.com/watch?v=3gb-ZkVRemQ


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

我觉得现在讨论AGI还太早,Transformer只是一个工具,它擅长的是模式识别和生成。要实现AGI,还需要解决很多根本性的问题,比如知识的表示、推理的机制、以及意识的产生。Transformer可以作为AGI的基础模块,但它不是万能的。更重要的是,我们要在伦理的框架下发展AI技术,避免AGI带来潜在的风险。

我从工程角度补充一点,RAG的挑战在于如何构建一个高效、可扩展的检索系统。这涉及到向量数据库的选择、索引的构建、以及检索策略的优化。另外,如何监控和维护RAG系统的性能也是一个重要的课题。学术界现在也在研究如何让模型自己判断什么时候需要检索,以及如何从检索结果中提取最相关的信息。

RAG确实能缓解幻觉,但我觉得挑战还是挺多的。首先,检索的质量很重要,如果检索到的信息本身就是错误的,那生成的结果肯定也好不到哪去。其次,如何有效地融合检索到的信息也是个问题,直接拼接可能会引入噪声,影响生成效果。最后,RAG的效率也是个问题,检索过程会增加延迟,影响用户体验。

RAG的问题啊,说白了就是“garbage in, garbage out”。检索到的信息要是没用,那生成的结果肯定也拉胯。而且,现在的RAG模型大多还是基于文本的,对于图像、视频等非结构化数据的支持还不够。未来可以考虑多模态的RAG,让模型能够从更丰富的知识源中学习。

与其说AGI,不如说transformer现在是大力丸,啥都能往上靠。不过说正经的,transformer的self-attention确实让模型能更好地理解上下文,这在很多复杂的任务里都挺重要的。但是AGI需要的不仅仅是理解,还得有创造力、common sense啥的,这些transformer还差得远呢。

ViT之后,Transformer在视觉领域太火了,感觉现在很多CV任务都能看到Transformer的身影,比如目标检测、图像分割,甚至low-level的图像增强、图像去噪都有应用。个人觉得Transformer的潜力在于它能够更好地建模全局信息,这对于理解图像的上下文非常重要。

我觉得吧,现在transformer在CV里有点被滥用了,啥都往里套。但是不得不承认,它在处理长序列依赖上确实比CNN强。未来我觉得可以多考虑考虑如何把transformer的效率提上去,毕竟计算量是个大问题,尤其是在移动端部署的时候。

Transformer作为一种通用的架构,在处理各种模态的数据上都表现出色,这是它在AGI道路上扮演重要角色的基础。我认为Transformer的关键在于其注意力机制,它能够让模型关注到输入中最重要的部分,从而更好地理解和推理。未来,我们需要进一步研究如何让Transformer具备更强的推理能力、泛化能力和自我学习能力,才能真正实现AGI。

从学术角度来说,Transformer在视觉领域的应用不仅仅是ViT这种直接的替代CNN,更重要的是它带来的全局建模思路。我觉得未来可以关注如何将Transformer的注意力机制与传统的CV方法结合,比如用注意力机制来优化特征选择,或者改进损失函数的设计。另外,Transformer在三维视觉、视频理解等领域也有很大的潜力。