LLM发展简史：从Transformer到DeepSeek-R1

DatapiTHU · 2025 年3 月 22 日 17:27

一文回顾LLM发展历程，从2017年Transformer到2025年DeepSeek-R1，展示了LLM在规模、性能、成本和多模态能力上的巨大进步，以及对AI领域和社会的深远影响。

原文标题：最新「大模型简史」整理！从Transformer（2017）到DeepSeek-R1（2025）

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247654382&idx=1&sn=a08010fda80b9bade6b7e167ff1eeb4e&

冷月清谈：

本文回顾了大型语言模型（LLM）从2017年Transformer架构的出现到2025年DeepSeek-R1的发展历程：

1. **Transformer架构的革命性意义**：Transformer解决了RNN和LSTM的局限性，通过自注意力机制实现了并行计算和全局上下文理解，为大规模高效语言模型奠定了基础。
2. **预训练Transformer模型的兴起**：BERT通过双向训练实现了对上下文的深入理解，而GPT系列则专注于自回归生成能力。GPT-3的1750亿参数证明了规模在AI中的重要性，预示着可以通过海量规模的数据集训练，使得模型在捕获复杂模式和泛化到新任务变得更好。
3. **后训练对齐**：为了使LLM更好地贴合人类价值观，研究人员提出了监督微调（SFT）和基于人类反馈的强化学习（RLHF）等技术。ChatGPT的推出展示了对话式AI改变人机交互的潜力。
4. **多模态模型**：GPT-4V和GPT-4o等多模态LLM通过整合文本、图像、音频和视频，实现了更丰富的交互和复杂的问题解决，革新了医疗、教育和创意产业等领域。
5. **开源和开放权重模型**：开源和开放权重模型的发展民主化了AI技术，促进了社区驱动的创新，加速了AI在各个领域的应用。
6. **推理模型**：OpenAI的o1和o3推理模型通过模拟人类的“系统2”思维，在复杂推理任务中达到了新的高度，并在数学和编程等领域超越了以往的模型。
7. **成本高效的推理模型**：DeepSeek-R1通过专家混合架构和优化算法，显著降低了运营成本，使得先进LLM得以普及化，重塑AI行业的生态系统。

LLM正朝着更智能、更通用、更可及的方向发展，且在可持续性和包容性上更进一步。

怜星夜思：

1、文章提到了“幻觉”问题，即LLM生成与事实不符的内容。你认为除了文章中提到的SFT和RLHF，还有哪些方法可以有效减少LLM的“幻觉”？
2、DeepSeek-R1的低成本被认为是AI普及化的关键。那么，除了降低成本，AI普及化还面临哪些挑战？我们应该如何应对这些挑战？
3、文章中提到了从“系统1”到“系统2”思维的转变，你认为在实际应用中，如何评价一个AI模型是否真正具备了“系统2”的推理能力？有哪些可行的评测方法？

原文内容

来源：人工智能前沿讲习‍‍‍‍‍‍‍

          本文约8400字，建议阅读10+分钟

          本文回顾LLM的发展历程，以2017年具有革命性意义的Transformer架构为起点。

本文详细回顾了大型语言模型从2017年Transformer架构的出现到2025年DeepSeek-R1的发展历程，涵盖了BERT、GPT系列、多模态模型、推理模型等关键进展，展示了LLMs在规模、性能、成本和多模态能力上的巨大进步，以及对AI领域和社会的深远影响。

2025年初，我国推出了一款开创性且高性价比的「大型语言模型」（Large Language Model, LLM） — — DeepSeek-R1，引发了AI领域的巨大变革。

1. 什么是语言模型 (Language Models)？

「语言模型」是一种「人工智能系统」，旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构，使得能够产生连贯且上下文相关的文本，应用于翻译、摘要、聊天机器人和内容生成等领域。

1.1 大型语言模型（LLMs）

「语言模型」（LMs）和「大型语言模型」（LLMs）这两个术语虽然经常被互换使用，但实际上它们基于规模、架构、训练数据和能力指代不同的概念。LLMs 是 LMs 的一个子集，其规模显著更大，通常包含数十亿个参数（例如，GPT-3 拥有 1750 亿个参数）。这种更大的规模使 LLMs 能够在广泛的任务中表现出卓越的性能。“LLM”这一术语在 2018 至 2019 年间随着基于 Transformer 架构的模型（如 BERT 和 GPT-1）的出现开始受到关注。然而，在 2020 年 GPT-3 发布后，这个词才被广泛使用，展示了这些大规模模型的重大影响力和强大能力。

1.2 自回归语言模型（Autoregressive Language Models）

大多数LLMs以「自回归方式」(Autoregressive)操作，这意味着它们根据前面的「文本」预测下一个「字」（或token／sub-word）的「概率分布」(propability distribution)。这种自回归特性使模型能够学习复杂的语言模式和依赖关系，从而善于「文本生成」。

在文本生成任时，LLM通过解码算法(Decoding Algorithm)来确定下一个输出的字。

这一过程可以采用不同的策略：既可以选择概率最高的下个字（即贪婪搜索），也可以从预测的概率分布中随机采样一个字。后一种方法使得每次生成的文本都可能有所不同，这种特性与人类语言的多样性和随机性颇为相似。

1.3 生成能力

LLMs的自回归特性使其能够基于前文提供的上下文逐词生成文本。从「提示」(prompt)开始，如下图，模型通过迭代预测下一个词，直到生成完整的序列或达到预定的停止条件。为了生成对提示的完整回答，LLM通过将先前选择的标记添加到输入中进行迭代生成，尤如「文字接龙」游戏。

这种生成能力推动了多种应用的发展，例如创意写作、对话式人工智能以及自动化客户支持系统。

2. Transformer革命 (2017)

Vaswani等人在2017年通过其开创性论文“Attention is All You Need”引入了Transformer架构，标志着NLP的一个分水岭时刻。它解决了早期模型如循环神经网络（RNNs）和长短期记忆网络（LSTMs）的关键限制，这些模型在长程依赖性和顺序处理方面存在困难。

这些问题使得使用RNN或LSTM实现有效的语言模型变得困难，因为它们计算效率低下且容易出现梯度消失等问题。另一方面，Transformers克服了这些障碍，彻底改变了这一领域，并为现代大型语言模型奠定了基础。

2.1 Transformer架构的关键创新

自注意力机制 (Self-Attention)：与按顺序处理标记并难以应对长程依赖性的RNN不同，Transformers使用自注意力来权衡每个标记相对于其他标记的重要性。这使得模型能够动态关注输入的相关部分。数学上：

这里，Q、K、V是查询(query)、键(key)和值(value)矩阵，dₖ是键的维度。自注意力允许并行计算，加快训练速度，同时提高全局上下文理解。

多头注意力：多个注意力头并行操作，每个头专注于输入的不同方面。它们的输出被连接并转换，从而实现更丰富的上下文表示。

前馈网络(FFN)和层归一化(Layer Norm)：每个Transformer层包括应用于每个标记的前馈网络，以及层归一化和残差连接。这些稳定了训练并支持更深的架构。

位置编码：由于Transformers本身不编码标记顺序，因此添加了位置编码（位置和频率的正弦函数）以表示词序，在不牺牲并行化的情况下保留顺序信息。

对语言建模的影响

可扩展性：Transformers实现了完全并行化的计算，使得在大型数据集上训练大规模模型成为可能。
上下文理解：自注意力捕捉局部和全局依赖关系，提高了连贯性和上下文意识。

Transformer架构的引入为构建能够以前所未有的精确性和灵活性处理复杂任务的大规模高效语言模型奠定了基础。

3. 预训练Transformer模型时代 (2018–2020)

2017年Transformer架构的引入为NLP的新时代铺平了道路，其特点是预训练模型的兴起和对扩展的前所未有的关注。这一时期见证了两个有影响力的模型家族的出现：BERT和GPT，它们展示了大规模预训练和微调范式的强大功能。

3.1 BERT：双向上下文理解 (2018)

2018年，谷歌推出了BERT（Bidirectional Encoder Representations from Transformers），这是一种使用Transformer编码器(Encoder)的突破性模型，在广泛的NLP任务中取得了最先进的性能。

与之前单向处理文本（从左到右或从右到左）的模型不同，BERT采用了双向训练方法，使其能够同时从两个方向捕获上下文。通过生成深层次的、上下文丰富的文本表示，BERT在文本分类、命名实体识别（NER）、情感分析等语言理解任务中表现出色。

BERT的关键创新包括：

掩码语言建模（Masker Language Modeling — MLM）：BERT不是预测序列中的下一个词，而是被训练预测句子中随机掩码的标记。这迫使模型在进行预测时考虑整个句子的上下文 — — 包括前后词语。例如，给定句子“The cat sat on the [MASK] mat”，BERT会学习根据周围上下文预测“soft”。
下一句预测（Next Sentence Prediction — NSP）：除了MLM之外，BERT还接受了称为下一句预测的次要任务训练，其中模型学习预测两个句子是否在文档中连续。这帮助BERT在需要理解句子之间关系的任务中表现出色，例如问答和自然语言推理。

BERT的影响：BERT的双向训练使其在GLUE（通用语言理解评估）和SQuAD（斯坦福问答数据集）等基准测试中取得了突破性的表现。它的成功证明了上下文嵌入的重要性 — — 这些表示根据周围词语动态变化 — — 并为新一代预训练模型铺平了道路。

3.2 GPT：生成式预训练和自回归文本生成（2018–2020）

虽然BERT优先考虑双向上下文理解，但OpenAI的GPT系列采用了不同的策略，专注于通过自回归预训练实现生成能力。通过利用Transformer的解码器(Decoder)，GPT模型在自回归语言模型和文本生成方面表现出色。

GPT (2018)GPT的第一个版本于2018年发布，是一个大规模的Transformer模型，经过训练以预测序列中的下一个词，类似于传统语言模型。

单向自回归训练：GPT使用因果语言建模目标进行训练，其中模型仅基于前面的标记预测下一个标记。这使得它特别适合于生成任务，如文本补全、摘要生成和对话生成。
下游任务的微调：GPT的一个关键贡献是它能够在不需要特定任务架构的情况下针对特定下游任务进行微调。只需添加一个分类头或修改输入格式，GPT就可以适应诸如情感分析、机器翻译和问答等任务。

GPT-2 (2019)在原版GPT的成功基础上，OpenAI发布了GPT-2，这是一个参数量达15亿的更大模型。GPT-2展示了令人印象深刻的零样本(Zero-shot)能力，意味着它可以在没有任何特定任务微调的情况下执行任务。例如，它可以生成连贯的文章、回答问题，甚至在语言之间翻译文本，尽管没有明确针对这些任务进行训练。

GPT-3 (2020)GPT-3的发布标志着语言模型规模扩展的一个转折点。凭借惊人的1750亿参数(175B parameters)，GPT-3突破了大规模预训练的可能性界限。它展示了显著的少样本(Few-short)和零样本(Zero-short)学习能力，在推理时只需提供最少或无需示例即可执行任务。GPT-3的生成能力扩展到了创意写作、编程和复杂推理任务，展示了超大模型的潜力。

3.3 GPT的影响及规模的作用

GPT模型的引入，特别是GPT-3，标志着AI的一个变革时代，展示了自回归架构和生成能力的强大功能。这些模型为内容创作、对话代理和自动推理等应用开辟了新的可能性，在广泛的任务中达到了接近人类的表现。GPT-3凭借其1750亿参数证明了规模的深远影响，表明在大规模数据集上训练的更大模型可以树立新的AI能力标杆。

语言建模性能随着模型大小、数据集大小和训练使用的计算量的增加而平稳提升。https://arxiv.org/pdf/2001.08361

在2018年至2020年间，该领域由对规模的不懈追求驱动。研究人员发现，随着模型规模的增长 — — 从数百万到数十亿参数 — — 它们在捕捉复杂模式和泛化到新任务方面变得更好。这种规模效应得到了三个关键因素的支持：

数据集大小：更大的模型需要庞大的数据集进行预训练。例如，GPT-3是在大量互联网文本语料库上进行训练的，使其能够学习多样化的语言模式和知识领域。
计算资源：强大的硬件（如GPU和TPU）的可用性以及分布式训练技术，使得高效训练具有数十亿参数的模型成为可能。
高效架构：混合精度训练和梯度检查点等创新降低了计算成本，使得在合理的时间和预算内进行大规模训练更加实际。

这个规模扩展的时代不仅提升了语言模型的性能，还为未来的AI突破奠定了基础，强调了规模、数据和计算在实现最先进结果中的重要性。

4. 后训练对齐：弥合AI与人类价值观之间的差距 (2021–2022)

GPT-3（一个拥有1750亿参数的LLM）生成几乎无法与人类写作区分的文本的能力引发了关于AI生成内容的真实性和可信度的重大担忧。

尽管这一成就标志着AI发展的一个重要里程碑，但也突显了确保这些模型与人类价值观、偏好和期望保持一致的关键挑战。一个主要问题是「幻觉」（Hallucination），即LLM生成与事实不符、无意义或与输入提示矛盾的内容，给人一种「一本正经地胡说八道」的印象。

为了解决这些挑战，2021年和2022年的研究人员专注于改善与人类意图的一致性并减少幻觉，导致了监督微调（SFT）和基于人类反馈的强化学习（RLHF）等技术的发展。

4.1 监督微调 (SFT)

增强GPT-3对齐能力的第一步是监督微调（SFT），这是RLHF框架的基础组成部分。SFT类似于指令调优，涉及在高质量的输入-输出对或演示上训练模型，以教它如何遵循指令并生成所需的输出。

这些演示经过精心策划，以反映预期的行为和结果，确保模型学会生成准确且符合上下文的响应。

然而，SFT本身有局限性：

可扩展性：收集人类演示是劳动密集型且耗时的，尤其是对于复杂或小众任务。
性能：简单模仿人类行为并不能保证模型会超越人类表现或在未见过的任务上很好地泛化。

为了克服这些挑战，需要一种更具可扩展性和效率的方法，为下一步铺平了道路：基于人类反馈的强化学习（Reinforcement Learning from Human Feedback — RLHF）。

4.2 基于人类反馈的强化学习 (RLHF)

OpenAI在2022年引入的RLHF解决了SFT的可扩展性和性能限制。与需要人类编写完整输出的SFT不同，RLHF涉及根据质量对多个模型生成的输出进行排名。这种方法允许更高效的数据收集和标注，显著增强了可扩展性。

RLHF过程包括两个关键阶段：

训练奖励模型：人类注释者对模型生成的多个输出进行排名，创建一个偏好数据集。这些数据用于训练一个奖励模型，该模型学习根据人类反馈评估输出的质量。
使用强化学习微调LLM：奖励模型使用近端策略优化（Proximal Policy Optimization - PPO）（一种强化学习算法）指导LLM的微调。通过迭代更新，模型学会了生成更符合人类偏好和期望的输出。

这个两阶段过程 — — 结合SFT和RLHF — — 使模型不仅能够准确遵循指令，还能适应新任务并持续改进。通过将人类反馈整合到训练循环中，RLHF显著增强了模型生成可靠、符合人类输出的能力，为AI对齐和性能设定了新标准。

4.3 ChatGPT：推进对话式AI (2022)

2022年3月，OpenAI推出了GPT-3.5，这是GPT-3的升级版，架构相同但训练和微调有所改进。关键增强包括通过改进数据更好地遵循指令，减少了幻觉（尽管未完全消除），以及更多样化、更新的数据集，以生成更相关、上下文感知的响应。

ChatGPT基于GPT-3.5和InstructGPT，OpenAI于2022年11月推出了ChatGPT，这是一种突破性的对话式AI模型，专门为自然的多轮对话进行了微调。ChatGPT的关键改进包括：

对话聚焦的微调：在大量对话数据集上进行训练，ChatGPT擅长维持对话的上下文和连贯性，实现更引人入胜和类似人类的互动。
RLHF：通过整合RLHF，ChatGPT学会了生成不仅有用而且诚实和无害的响应。人类培训师根据质量对响应进行排名，使模型能够逐步改进其表现。

ChatGPT的推出标志着AI的一个关键时刻，通常被称为「ChatGPT时刻」(ChatGPT moment)，因为它展示了对话式AI改变人机交互的潜力。

5. 多模态模型：连接文本、图像及其他 (2023–2024)

在2023年至2024年间，像GPT-4V和GPT-4o这样的多模态大型语言模型（MLLMs）通过将文本、图像、音频和视频整合到统一系统中重新定义了AI。这些模型扩展了传统语言模型的能力，实现了更丰富的交互和更复杂的问题解决。

5.1 GPT-4V：视觉遇见语言

2023年，OpenAI推出了GPT-4V，将GPT-4的语言能力与先进的计算机视觉相结合。它可以解释图像、生成标题、回答视觉问题，并推断视觉中的上下文关系。其跨模态注意力机制允许文本和图像数据的无缝集成，使其在医疗保健（如分析医学图像）和教育（如互动学习工具）等领域具有价值。

5.2 GPT-4o：全模态前沿

到2024年初，GPT-4o通过整合音频和视频输入进一步推进了多模态。它在一个统一的表示空间中运行，可以转录音频、描述视频或将文本合成音频。实时交互和增强的创造力 — — 如生成多媒体内容 — — 使其成为娱乐和设计等行业的多功能工具。

现实世界的影响: MLLMs革新了医疗保健（诊断）、教育（互动学习）和创意产业（多媒体制作）等领域。它们处理多种模态的能力解锁了创新的新可能性。

6. 开源和开放权重模型 (2023–2024)

在2023年至2024年间，开源和开放权重AI模型获得了动力，使先进AI技术的访问民主化。

开放权重LLMs：开放权重模型提供公开访问的模型权重，限制极少。这使得微调和适应成为可能，但架构和训练数据保持封闭。它们适合快速部署。例子：Meta AI的LLaMA系列和Mistral AI的Mistral 7B / Mixtral 8x7B
开源模型使底层代码和结构公开可用。这允许全面理解、修改和定制模型，促进创新和适应性。例子：OPT和BERT。
社区驱动的创新：像Hugging Face这样的平台促进了协作，LoRA和PEFT等工具使高效的微调成为可能。

社区开发了专门针对医疗、法律和创意领域的模型，同时优先考虑道德AI实践。开源社区目前处于一个激动人心的阶段，得益于尖端对齐技术的出现。这一进展导致越来越多的卓越开放权重模型发布。因此，闭源和开放权重模型之间的差距正在稳步缩小。LLaMA3.1–405B模型首次历史性地弥合了与闭源对应物的差距。

7. 推理模型：从「系统1」到「系统2」思维的转变 (2024)

2024年，AI开发开始强调增强「推理」(Reasoning)，从简单的模式识别转向更逻辑化和结构化的思维过程。这一转变受到认知心理学双重过程理论的影响，区分了「系统1」（快速、直觉）和「系统2」（缓慢、分析）思维。虽然像GPT-3和GPT-4这样的早期模型在生成文本等「系统1」任务上表现出色，但在深度推理和问题解决方面却有所欠缺。

「系统1」与「系统2」思维

7.1 OpenAI-o1：推理能力的一大飞跃(2024)

2024年9月12日，OpenAI发布的o1-preview标志着人工智能能力的重大飞跃，尤其是在解决复杂推理任务（如数学和编程）方面。与传统LLMs不同，推理模型采用了「长链思维」（Long CoT） — — 即内部的推理轨迹，使模型能够通过分解问题、批判自己的解决方案并探索替代方案来“思考”问题。这些CoTs对用户是隐藏的，用户看到的是一个总结性的输出。

推理模型的关键特性包括：

长链思维（Long CoT）：使模型能够将复杂问题分解为更小的部分，批判性地评估其解决方案，并探索多种方法，类似于搜索算法。
推理时计算控制：对于更复杂的问题，可以生成更长的CoTs；而对于较简单的问题，则使用较短的CoTs以节省计算资源。
增强的推理能力：尽管像o1-preview这样的初始推理模型在某些领域的能力不如标准LLMs，但在推理任务中，它们的表现远远超越了后者，常常能与人类专家媲美。例如，o1-preview在数学（AIME 2024）、编程（CodeForces）和博士级别的科学问题上均超越了GPT-4o。

OpenAI-o1：

2024年12月5日，OpenAI的完整版o1模型进一步提升了性能，在美国AIME 2024数学考试中排名前500名学生之列，并显著超越了GPT-4o（解决了74%-93%的AIME问题，而GPT-4o仅为12%）。此外，o1-mini作为更便宜且更快的版本，在编码任务中表现出色，尽管其成本仅为完整版o1的20%。

OpenAI-o3：

2025年1月31日，OpenAI发布了o3，这是其推理模型系列的最新突破，建立在o1模型成功的基础之上。尽管完整的o3模型尚未发布，但其在关键基准测试中的表现被描述为具有开创性。

ARC-AGI ：达到87.5%的准确率，超过了人类水平的85%，远超GPT-4o的5%。
编程：在SWE-Bench Verified上得分71.7%，并在Codeforces上获得2727的Elo评分，跻身全球前200名竞争性程序员之列。
数学：在EpochAI的FrontierMath基准测试中达到25.2%的准确率，相比之前的最先进水平（2.0%）有了显著提升。

OpenAI-o1和OpenAI-o3推理模型的发布代表了人工智能领域的重大进步，通过结构化的内部推理过程提供了卓越的问题解决能力，并在复杂数学和编程任务中树立了新的标杆。

8. 成本高效的推理模型：DeepSeek-R1 (2025)

LLMs通常需要极其庞大的计算资源来进行训练和推理。像GPT-4o和OpenAI-o1这样的最先进LLM模型的闭源性质限制了对尖端AI的「普及化」。

8.1 DeepSeek-V3 (2024–12)

2024年12月下旬，「深度求索-V3」(DeepSeek-V3)作为一种成本高效的开放权重LLM出现，为AI的可访问性设定了新标准。DeepSeek-V3与OpenAI的ChatGPT等顶级解决方案相媲美，但开发成本显著降低，估计约为560万美元，仅为西方公司投资的一小部分。

该模型最多包含6710亿个参数，其中370亿个活跃参数，并采用专家混合（MoE）架构，将模型划分为专门处理数学和编码等任务的组件，以减轻训练负担。DeepSeek-V3采用了工程效率，例如改进Key-Value缓存管理和进一步推动专家混合方法。该模型引入了三个关键架构：

多头潜在注意力（Multi-head Latent Attention — MLA）：通过压缩注意力键和值来减少内存使用，同时保持性能，并通过旋转位置嵌入（RoPE）增强位置信息。
DeepSeek专家混合（DeepSeekMoE）：在前馈网络（FFNs）中采用共享和路由专家的混合，以提高效率并平衡专家利用率。
多标记预测 (Multi-Token Prediction — MTP)：增强模型生成连贯且上下文相关的输出的能力，特别是对于需要复杂序列生成的任务。

DeepSeek-V3的发布引发了全球科技抛售，危及1万亿美元的市值，并导致英伟达股票盘前下跌13%。DeepSeek-V3的价格为每百万输出标记2.19美元，约为OpenAI类似模型成本的1/30。

8.2 DeepSeek-R1-Zero 和 DeepSeek-R1 (2025–01)

仅仅一个月后，2025年1月下旬，DeepSeek通过发布DeepSeek-R1-Zero和DeepSeek-R1再次引起轰动，这些模型展示了卓越的推理能力，训练成本极低。

利用先进的强化学习技术，这些模型证明了高性能推理可以在没有通常与尖端AI相关的巨额计算费用的情况下实现。这一突破巩固了DeepSeek作为高效和可扩展AI创新领导者的地位。

DeepSeek-R1-Zero：一种基于DeepSeek-V3的推理模型，通过强化学习（RL）增强其推理能力。它完全消除了「监督微调」(SFT)阶段，直接从名为DeepSeek-V3-Base的预训练模型开始。

它采用了一种基于「规则的强化学习方法」(Rule-based Reinforcement Learning)，称为「组相对策略优化」（Group Relative Policy Optimization — GRPO），根据预定义规则计算奖励，使训练过程更简单且更具可扩展性。

DeepSeek-R1：为了解决DeepSeek-R1-Zero的局限性，如低可读性和语言混杂，DeepSeek-R1纳入了一组有限的高质量冷启动数据和额外的RL训练。该模型经历了多个微调和RL阶段，包括拒绝采样和第二轮RL训练，以提高其通用能力和与人类偏好的一致性。

蒸馏DeepSeek模型：DeepSeek开发了较小的、蒸馏版的DeepSeek-R1，参数范围从15亿到700亿，将先进的推理能力带到较弱的硬件上。这些模型使用原始DeepSeek-R1生成的合成数据进行微调，确保在推理任务中表现出色，同时足够轻量化以便本地部署。
DeepSeek 蒸馏DeepSeek模型1080×463 83.5 KB

DeepSeek 蒸馏DeepSeek模型

DeepSeek-R1在各种基准测试中表现出竞争力，包括数学、编码、常识和写作。根据使用模式，它相比OpenAI的o1模型等竞争对手提供了显著的成本节省，使用成本便宜20到50倍。

8.3 对AI行业的影响

DeepSeek-R1的引入挑战了AI领域的既定规范，使先进LLMs得以「普及化」，并促进了一个更具竞争力的生态系统。其可负担性和可访问性预计将推动各行各业的采用和创新增加。最近，领先的云服务提供商如AWS、微软和谷歌云已在其平台上提供DeepSeek-R1。较小的云提供商和DeepSeek母公司以竞争性定价提供它。

结论

从2017年Transformer架构的引入到2025年DeepSeek-R1的发展，大型语言模型（LLMs）的演变标志着人工智能领域的一个革命性篇章。LLMs的崛起由四个里程碑式的成就标示：

Transformers (2017)：Transformer架构的引入为构建能够以前所未有的精确性和灵活性处理复杂任务的大规模高效模型奠定了基础。
GPT-3 (2020)：该模型展示了规模在AI中的变革力量，证明了在大规模数据集上训练的巨大模型可以在广泛的应用中实现接近人类的表现，为AI所能完成的任务设立了新的基准。
ChatGPT (2022)：通过将对话式AI带入主流，ChatGPT使高级AI对普通用户来说更加可访问和互动。它还引发了关于广泛采用AI的伦理和社会影响的关键讨论。
DeepSeek-R1 (2025)：代表了成本效率的一大飞跃，DeepSeek-R1利用专家混合架构(MoE)和优化算法，与许多美国模型相比，运营成本降低了多达50倍。其开源性质加速尖端AI应用的普及化，赋予各行业创新者权力，并强调了可扩展性、对齐性和可访问性在塑造AI未来中的重要性。

LLMs正逐步演变为多功能、多模态的推理系统，能够同时满足普通用户和特定需求。这一演变得益于突破性技术创新，以及在规模、易用性和成本效益上的显著提升，推动人工智能朝着更加包容和影响力深远的方向迈进。

原文链接：

https://medium.com/@lmpo/%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E7%AE%80%E5%8F%B2-%E4%BB%8Etransformer-2017-%E5%88%B0deepseek-r1-2025-cc54d658fb43

编辑：黄继彦

‍‍‍‍‍‍

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Strider82w · 2025 年3 月 23 日 23:36

要评价一个 AI 模型是否真正具备了“系统 2”的推理能力，我觉得可以从以下几个方面入手：

* 复杂问题解决能力：看它能否解决需要多步骤推理、逻辑分析和规划的问题。比如，可以给它一些需要拆解才能解决的复杂数学题、编程题或者逻辑推理题。
* 反思和修正能力：看它能否对自己的答案进行反思和修正。比如，可以故意给它一些有缺陷的信息，看它能否发现问题并进行修正。
* 泛化能力：看它能否将学到的推理模式应用到新的领域。比如，可以先让它学习解决一类问题，然后看它能否解决类似的但不在训练集中的问题。
* 可解释性：看它能否清晰地展示自己的推理过程，说明自己为什么会得出某个结论。这有助于判断它是否真的在进行推理，而不是简单地套用模式。

一些可行的评测方法包括：

* 设计专门的评测数据集：这些数据集应该包含一些需要复杂推理才能解决的问题。
* 使用对抗样本：通过对输入进行微小的修改，来测试模型的鲁棒性和推理能力。
* 进行人工评估：让人类专家对模型的答案进行评估，判断其是否合理、是否符合逻辑。

总的来说，评价 AI 模型的推理能力是一个复杂的问题，需要综合考虑多个方面，并采用多种评测方法。

Drift815m · 2025 年3 月 25 日 19:20

要我说，减少幻觉这事儿啊，得软硬兼施！

* “硬”功夫：数据增强！ 别光喂给模型干净的数据，得让它见识见识“脏数据”。比如，故意在训练数据里加点错误信息，让模型学会识别并抵抗干扰。这就好比给模型打“免疫疫苗”，增强它的抵抗力。
* “软”实力：角色扮演！ 让模型扮演一个“杠精”的角色，专门挑刺儿。每次生成答案后，都让它自己找茬，看看有没有漏洞或者不合理的地方。这样它自己就能发现一些潜在的“幻觉”，然后进行自我修正。

PolishedStone452 · 2025 年3 月 26 日 12:20

普及AI？没那么简单！别光盯着DeepSeek-R1的低成本，这玩意儿就像“经济适用房”，有了房子还得会装修、会住才行！

* 别神话AI！ 先得让大家明白，AI不是万能的，它有边界、有局限。别指望用了AI就能一步登天，还得踏踏实实解决实际问题。
* 配套服务要跟上！ 就像买了电脑还得装软件、学操作一样，AI也需要配套的服务。得有人提供咨询、培训、维护，帮助用户用好AI。
懂王附体：Fake AI！
* 小心无良商家！ 现在AI火了，一些商家就打着AI的旗号，卖一些华而不实的东西。得加强监管，打击虚假宣传，保护消费者的权益。

Drift815m · 2025 年3 月 27 日 01:24

想知道AI有没有“系统2”的脑子？别光看它能不能做对题，得看它怎么做的！

1. “追根溯源”法：让AI详细解释它的解题思路，一步一步来。如果它能像老师讲课一样，把每个步骤的原理都说清楚，那说明它确实是在推理，而不是死记硬背。
2. “压力测试”法：故意给AI出一些模棱两可的题，或者是一些需要发散性思维的题。看看它能不能跳出固有思维，给出有创意、有深度的答案。
3. “角色扮演”法：让AI扮演不同的角色，比如“律师”、“医生”、“科学家”等等。看看它能不能根据角色的特点，进行有针对性的推理和判断。

记住，真正的“系统2”思维，是灵活、有创造力的！

QuietKoala728 · 2025 年3 月 27 日 23:24

这问题问得好！除了文章里说的，我想到两点：

1. 引入“质疑链”：让LLM在生成答案前，先针对问题进行反思，模拟人类的批判性思维。比如，先问自己“这个问题有没有歧义？”、“有没有其他可能性？”等等，这样生成的答案可能会更严谨。
2. 强化“来源追溯”：让LLM在生成答案的同时，明确标出答案的来源，方便用户验证信息的准确性。这样即使LLM出现了“幻觉”，用户也能快速发现并纠正。

Arcane69f · 2025 年3 月 29 日 11:48

评价AI的“系统2”能力？别逗了，AI又不是人，哪来的“思维”？

【阴阳怪气警告】

* 看它能不能通过图灵测试！ 如果它能骗过人类，那就算它有“系统2”能力了吧？
* 看它能不能写出有逻辑的论文！ 如果它能发表顶会，那就证明它会“推理”了吧？
* 看它能不能自己赚钱！ 如果它能炒股发财，那就说明它很聪明了吧？

当然，以上都是玩笑话。AI的“推理”和人类的思维是完全不同的概念，我们不能用人类的标准来衡量AI。但是，我们可以通过一些方法来评估AI在特定任务上的表现，比如：

* 设计专门的测试集，考察AI的逻辑推理能力。
* 分析AI的决策过程，看其是否符合逻辑。
* 比较AI和人类在同一任务上的表现，看其是否存在差距。

Ember34n · 2025 年3 月 29 日 17:06

关于减少LLM的“幻觉”，SFT和RLHF确实是目前比较主流的方法。但我觉得还可以从以下几个角度入手：

* 数据质量：提高训练数据的质量，确保数据来源的可靠性和准确性。可以采用更严格的数据清洗和过滤方法，或者使用人工标注的数据。
* 知识融合：将外部知识库（如维基百科、知识图谱等）融入到模型中，让模型在生成内容时能够参考这些可靠的知识来源。这可以减少模型“一本正经地胡说八道”的可能性。
* 可信度评估：在模型生成内容后，使用一个专门的模块来评估生成内容的可信度。如果可信度较低，可以对内容进行修改或者直接拒绝输出。
* 模型结构：探索新的模型结构，使其更擅长于事实判断和推理。例如，可以尝试将符号推理和神经模型结合起来。

减少“幻觉”是一个长期而艰巨的任务，需要持续的研究和探索。

Whisper28f · 2025 年3 月 29 日 21:27

成本降低肯定是好事，但AI普及光靠便宜还不够，我觉着还得解决这几个拦路虎：

1. 认知鸿沟：很多人对AI的理解还停留在“科幻片”阶段，不信任、不敢用是常态。得加强科普，让大家知道AI不是洪水猛兽，而是能帮我们解决实际问题的工具。
2. 数据依赖：AI再厉害，也离不开数据。但很多行业的数据要么质量不高，要么根本就是“数据孤岛”。得想办法解决数据共享和标准化的问题。
3. 人才缺口：会用AI的人不少，但能开发AI、能解决AI落地难题的人太少了！得加大AI人才培养力度，让各行各业都有自己的AI专家。

应对这些挑战，我觉得可以这么做：政府牵头搞科普，行业协会制定数据标准，高校企业联合培养人才！

QuietKoala728 · 2025 年3 月 30 日 13:37

DeepSeek-R1 降低成本确实是 AI 普及的关键一步，但要真正实现 AI 的普及化，我觉得还有很多挑战需要应对：

* 技术门槛：即使成本降低了，AI 的使用仍然需要一定的技术知识。如何让非专业人士也能轻松上手使用 AI 工具，这是一个挑战。
* 应对方法：开发更友好的用户界面，提供更完善的文档和教程，或者提供开箱即用的 AI 服务。
* 数据安全和隐私：AI 的训练和使用需要大量的数据，这涉及到数据安全和用户隐私的问题。如何在使用 AI 的同时保护数据安全和用户隐私，这是一个重要的挑战。
* 应对方法：采用差分隐私、联邦学习等技术，或者加强数据安全监管。
* 伦理和社会问题：AI 的发展可能会带来一些伦理和社会问题，比如就业问题、算法歧视等。如何应对这些问题，需要全社会的共同努力。
* 应对方法：加强 AI 伦理研究，制定相关的法律法规，或者加强对 AI 技术的监管。
* 算力资源：在某些场景下，AI 的运行仍然需要大量的算力资源。如何解决算力瓶颈，也是一个挑战
* 应对方法：优化模型算法，使用分布式计算，或者发展新型计算架构。

AI 普及化是一个复杂的问题，需要我们从技术、经济、伦理等多个角度进行思考和解决。