国产开源大模型DeepSeek-R1体验,低成本高性能,强化学习训练,中文理解优秀。
原文标题:DeepSeek大模型初体验
原文作者:牧羊人的方向
冷月清谈:
DeepSeek-R1 的主要特点包括:
* **纯强化学习训练:** 不同于传统的监督学习,DeepSeek-R1 采用强化学习技术,通过与环境交互来学习最优策略,提升了推理能力和灵活性。
* **开源和低成本:** DeepSeek-R1 采用 MIT 许可协议开源,并提供多种蒸馏版本,降低了使用门槛。其 API 调用成本也显著低于同类模型。
* **性能优化技术:** 通过 GRPO 算法、动态稀疏注意力机制、多Token 预测等技术,DeepSeek-R1 在长文本处理和推理任务中表现出色。
* **长链推理支持:** 支持长达数万字的思维链,能够逐步分解复杂问题,并给出详细解答。
* **高效推理能力:** 采用多阶段强化学习和拒绝采样技术,在少量标注数据下即可实现高性能推理。
DeepSeek-R1 模型在成本方面也具有显著优势,其底层优化原理主要体现在算法创新、工程优化、数据效率提升和硬件利用率突破四个方面。通过 FP8 混合精度训练、分布式训练创新、数据蒸馏技术、底层编程优化等技术,DeepSeek-R1 实现了更高的效率和更低的成本。目前,DeepSeek-R1 已支持在昇腾云服务上运行,进一步扩展了其应用范围。
怜星夜思:
2、文章中提到 DeepSeek-R1 的 API 调用成本远低于 OpenAI,这是否意味着它在商业应用上更有竞争力?
3、DeepSeek-R1 强调中文语义理解的优秀表现,这对于中文 NLP 领域的发展意味着什么?
原文内容
节前DeepSeek发布的DeepSeek-R1大模型在春节期间是引爆全球,这里也迫不及待的体验一把,一探究竟。
1、DeepSeek新鲜体验
DeepSeek(AI企业深度求索)成立于2022年,凭借本土对冲基金的支持和开源技术的积累,仅用三年时间便在全球大模型领域占据重要地位。2025年1月发布的DeepSeek-R1模型是其技术突破的集大成者。该模型基于671B参数的专家混合架构(MoE),每个令牌激活37亿参数,专注于数学、代码与自然语言推理任务。与传统依赖人工标注数据的模型不同,DeepSeek-R1在后训练阶段大规模应用强化学习(RL)技术,仅需极少标注数据即可显著提升推理能力,技术路径与OpenAI的闭源模式形成鲜明对比。
DeepSeek的成功离不开开源生态的布局。其采用MIT许可协议,不仅开放模型权重,还允许用户通过蒸馏技术二次开发小模型。例如,团队从DeepSeek-R1中蒸馏出1.5B、32B、70B等不同规模的模型,其中32B和70B模型在部分任务中已接近OpenAI o1-mini的性能。这种“开源+低成本”策略被喻为“AI界的拼多多”,极大推动了技术普惠化。
事实上DeepSeek发布了多款模型,包括R1、V3、VL、V2、R1-Zero以及蒸馏版Qwen和Llama小模型等。在去年12月,DeepSeek-V3就以极低的训练成本,实现了与GPT-4O相媲美的性能,而真正引起全球关注的是DeepSeek-R1模型,这款新的开源模型仅用不到十分之一的成本,就实现了GPT-O1的水平。DeepSeek-R1模型有以下特点:
1)纯强化学习的训练方法
DeepSeek-R1的核心亮点在于其作为首个完全通过强化学习训练的大型语言模型。传统的语言模型大多依赖于监督学习,需要大量标注数据进行训练。然而,DeepSeek-R1采用了强化学习技术,通过与环境交互来学习最优策略,从而显著提升了推理能力。这种训练方法不仅减少了对标注数据的依赖,还使得模型在复杂任务中表现出更高的灵活性和适应性。
2)开源与低成本的特性
DeepSeek-R1的另一个显著特点是其开源特性。模型权重已经开源,并采用了宽松的MIT许可协议,为开发者提供了极大的便利和灵活性。这意味着开发者可以轻松获取模型代码和数据,并根据需求进行定制化开发。此外,DeepSeek-R1还提供了多个蒸馏版本,参数规模从1.5B到70B不等,适合不同规模的开发者使用。与OpenAI O1相比,DeepSeek-R1的API调用成本显著降低,使得更多企业和个人开发者能够负担得起这一先进的AI技术。
3)性能优化技术
为了优化策略网络,DeepSeek开发了GRPO算法(Group Relative Policy Optimization,群组相对优势估计),通过组内奖励对比来优化策略,有效避免了传统Critic网络的高计算开销。此外,DeepSeek-R1还设计了多层次奖励机制和“思考-回答”双阶段训练模板,确保模型推理的高效性、可读性和过程可追踪性。这些技术创新使得DeepSeek-R1在推理任务中表现出色,能够输出结构化的答案,并提供了明确的推理过程。
4)长链推理支持
DeepSeek-R1引入了长链推理(Chain-of-Thought,CoT)技术,允许模型生成长达数万字的思维链,逐步分解复杂问题,通过多步骤逻辑推理解决问题。这种技术使得DeepSeek-R1在处理复杂、长文本任务时表现出色,能够逐步展开推理过程,并给出详细的解答。
5)高效推理能力
DeepSeek-R1模型在训练过程中采用了多阶段强化学习的方法,包括冷启动阶段、推理导向强化学习和通用对齐强化学习等。这些训练阶段使得模型能够在极少量标注数据的情况下显著提升推理能力。此外,DeepSeek-R1还引入了拒绝采样(Rejection Sampling)技术,通过训练好的RL模型生成新的监督微调(SFT)数据,进一步优化模型性能。这些技术创新使得DeepSeek-R1在数学、编程和自然语言推理等任务上表现出色,性能对标OpenAI O1正式版。
与OpenAI O1对比,DeepSeek-R1性价比更高,如下所示:
指标
|
DeepSeek-R1
|
OpenAI O1 Pro
|
---|---|---|
参数规模
|
671B(MoE架构)
|
未公开(推测超万亿参数)
|
上下文窗口
|
12.8万Tokens
|
20万Tokens
|
开源性
|
完全开源(MIT协议)
|
闭源
|
推理成本
|
输出Tokens 16元/百万
|
输出Tokens 438元/百万
|
数学能力
|
MATH基准测试77.5%
|
同等水平76%-79%
|
代码生成
|
Codeforces评分2029(超越96%人类)
|
OpenAI O1-1217评分为63.4%
|
DeepSeek-R1模型能够以显著低于同类模型的成本实现高性能,其底层优化原理主要体现在算法创新、工程优化、数据效率提升和硬件利用率突破四个方面,具体技术路径如下:
1)算法架构创新
-
纯强化学习路径:完全摒弃传统监督微调(SFT),采用直接强化学习(RL)框架,通过群体相对策略优化(GRPO)算法实现策略优化。该算法仅需对比同一群体中不同输出的相对优势,无需传统RL中的大规模价值模型,显著降低内存消耗和计算复杂度。同时引入冷启动机制,使用少量高质量长思维链(CoT)数据初始化模型,提升训练稳定性。
-
DeepSeek为什么会选择GRPO算法,而不是大家更熟悉的PPO算法呢?
-
首先,PPO算法依赖价值模型估计状态价值,从而帮助计算优势函数。但是因为语言的状态空间巨大且复杂,很难为语言构建合理的价值模型。而GPRO算法只对输出的语言内容进行相对优势计算,不需要设计价值模型。
-
其次,PPO算法需要训练奖励模型进行评估,而GRPO算法使用基于规则的奖励,通过规则直接评估回答的准确性,不需要训练奖励模型。
-
由于不需要SFT,也不需要价值模型和奖励模型,这个做法带来了训练效率的大幅提升,和训练资源的大幅减少。这也是DeepSeek-R1训练成本如此低的核心原因。
-
动态稀疏注意力机制:通过可变稀疏化策略减少非关键位置的计算量,在长文本处理中保持上下文捕捉能力的同时降低计算资源需求。结合多Token预测技术,进一步提升推理效率。
2)工程化突破
-
计算效率优化:采用FP8混合精度训练,在保证数值稳定性的前提下减少显存占用,相较传统FP16/FP32训练显存需求降低60%。动态序列长度调整技术根据任务复杂度自动优化输入序列长度,避免冗余计算。
-
分布式训练创新:DualPipe并行架构结合NVLink+InfiniBand双通道传输技术,减少通信瓶颈,训练速度提升40%。通过专家网络稀疏激活设计和MOE架构,仅激活任务相关的参数子集,显存利用率提升3倍。
3)数据效率革命
-
数据蒸馏技术:从大模型中提取知识到轻量化模型,通过课程学习策略分阶段引入不同难度数据,数据利用率提升50%。
-
自生成数据闭环:在强化学习阶段引入自我验证和反思机制,结合拒绝采样(Rejection Sampling)自动生成高质量训练数据,减少对外部标注数据的依赖。
4)硬件级极致优化
-
底层编程优化:使用PTX汇编语言绕过CUDA框架直接控制GPU流式多处理器(SMs),实现指令级优化,硬件效率比传统方案提升10倍。
-
集群级负载均衡:通过动态任务调度算法和细粒度资源分配,GPU利用率从行业平均30%提升至85%,算力浪费减少60%。
5)全流程成本控制
-
训练边际成本控制:创新混合云训练模式,结合弹性资源调度将单次训练边际成本降至同类模型的30%。
-
推理优化:采用4bit量化部署技术,模型体积压缩至1/8,推理速度达3,872 Token/秒(H200单卡),API成本仅为OpenAI o1的1/30。
至于有人会问到“DeepSeek 绕开 CUDA 垄断,针对英伟达 PTX 进行优化实现最大性能,英伟达护城河还在吗?”,所谓绕过cuda,使用ptx实际上并不是和NVIDIA解耦,而是更深度的优化。
所谓绕过cuda,指的是在实现层加入手写/自动生成ptx来增加一种kernel实现,这样做的目的是更深度的优化。从ptx到汇编层完全依赖nvidia的编译器实现,而目前没有任何已知工具可以从ptx编译到其他平台的汇编层。而cuda,反而是有工具来做这件事的,并且已经证明是可行的。
前两日,硅基流动与华为云团队联合首发并上线了基于昇腾云服务的DeepSeek R1/V3推理服务,这样DeepSeek也可以运行在国产的GPU之上。
1)今天立春,请以“立春”为题材模仿李白和杜甫的写作风格,分别写一首七言绝句
李白风格七言绝句
《立春行》
东风一夜破寒冰,
万岭千山换翠屏。
醉倚青崖邀鹤舞,
狂歌直上九霄听。
注: 仿李白浪漫奇崛,以“破寒冰”“上九霄”展现春势不可挡,动词“倚”“邀”“歌”强化奔放意象。
杜甫风格七言绝句
《乙巳立春》
冻解荒田牛试犁,
戍楼残雪映寒衣。
邻翁拄杖询春税,
稚子犹藏去岁饥。
注: 仿杜甫写实悲悯,通过“试犁”“询税”“藏饥”三组镜头,揭露战乱年代立春时节的民生疾苦。
开放了思维链输出,并且对二者进行了对比
2)模仿王勃的滕王阁序,写一篇登临广州白云山的骈文
登白云山序
岭南故郡,云麓新秋。星分翼轸,地接衡湘。襟三江以通百越,带五岭而镇南溟。物华天粹,赤壤藏朱明之曜;人杰地灵,青崖起安期之云。烟霞翳日,光凝越秀之巅;草木含章,气贯罗浮之脉。都督雅望,棨戟遥临;高士仙踪,鹤鸾暂驻。时维九月,序属三秋。晨雾尽而苍龙现,朝霞飞而云海明。访仙踪于绝巘,踏云阶于重霄。临摩星之峻极,瞰珠水之逶迤。鹤唳松涛,响穷蒲涧之浦;泉鸣玉佩,声断九龙之渊。
遥襟甫畅,逸兴遄飞。箫鼓鸣而白云遏,松风起而衣袂扬。安期之舄,今安在哉?葛洪之鼎,曾照丹砂。天南一柱,俯察星沙之野;云外九重,仰观霄汉之图。四时殊色:春涧浮桃浪,夏壑泻银河,秋崖披锦绣,冬岫缀霜华。朝瞰溟渤,曙色染五羊之石;暮揽星河,流光映三城之郭。归鹤唳而暮云紫,寒钟动而晚山青。
嗟乎!时运不齐,命途多舛。冯唐谪于岭表,贾谊滞于湘滨。屈子怀沙,空悲楚泽;东坡啖荔,独啸罗浮。所赖君子安贫,达人知命。老当益壮,宁移摩星之心?穷且益坚,不坠凌霄之志。酌九龙而觉爽,饮蒲涧以犹欢。羊城虽远,扶摇可接;溟海虽深,星槎可通。孟尝高洁,空余越井之思;阮籍猖狂,岂效穷途之哭!
勃,三尺微命,一介书生。无终军之弱冠,有宗悫之长风。舍簪笏于尘寰,奉晨昏于云壑。非谢家之玉树,接葛氏之丹丘。他日趋庭,叨陪白鹿之宴;今朝捧袂,喜谒飞仙之踪。云山不逢,抚孤松而自惜;钟期既遇,奏流水以何惭?
呜呼!胜地不常,仙踪难再。葛洪旧馆,已埋碧草;景泰遗钟,空传幽谷。临别赠言,幸承恩于胜饯;登高作赋,是所望于群公。敢竭鄙怀,恭疏短引。一言均赋,四韵俱成:
白云千载绕羊城,丹灶犹温鹤唳清。
蒲涧流香苏子醉,摩星摘斗谪仙惊。
朝披霞色浮金阙,夜枕松涛听玉笙。
莫道南溟烟瘴重,木棉如火破天横。
(注:文中嵌摩星岭、九龙泉、蒲涧、景泰寺等白云山古迹,化用葛洪炼丹、郑安期飞升、苏轼游蒲涧、南越王传说等典故,骈俪句式与《滕王阁序》字句、平仄、用韵严格对应。)
个别地方用词上可能稍有瑕疵,但已经超越99%的大部分人了。
3)比如结合专业领域的数据库故障定界分析,给出了分析过程
不过DeepSeek目前官网的联网搜索功能暂时受限,可以在秘塔搜索https://metaso.cn/结合DeepSeek-R1模型使用。
结合其它AI大模型的使用对比来看,DeepSeek-R1功能上相当强大,尤其是在中文的语义理解上,更多功能还在持续探索中,本文部分内容由AI生成,仅供参考。
参考资料:
-
官网地址:https://chat.deepseek.com/
-
https://metaso.cn/
-
论文地址:https://arxiv.org/pdf/2501.12948v1
-
https://blog.csdn.net/m0_59164520/article/details/145400613