DeepSeek 发布 R1 新版,推理精度和代码生成速度提升,性能逼近 OpenAI o3。但有用户反映存在“过度思考”现象。
原文标题:实测思维链大变!DeepSeek R1一个“小升级”性能直逼o3,但仍“过度思考”?
原文作者:AI前线
冷月清谈:
怜星夜思:
2、DeepSeek R1-0528 在编程能力上有所提升,但仍落后于 o3 和 Claude 4。你认为 DeepSeek 在哪些方面需要加强,才能在编程方面赶上甚至超越它们?
3、文章提到 DeepSeek R1-0528 有“过度思考”的问题。你认为这种“过度思考”是模型本身的问题,还是调参的问题?如果是调参的问题,应该如何调整?
原文内容
节前更新似乎已经是 DeepSeek 的惯例了。刚刚,DeepSeek 在 Huggingface 平台开源了 R1 的新版本 DeepSeek-R1-0528。
项目地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528
据悉,新版本主要是在推理精度和代码生成速度的升级。在 Live CodeBench 基准测试中,DeepSeek-R1-0528 的性能可以媲美 OpenAI 的 o3(High)版本。
DeepSeek 官方对该版本的介绍是一次“小版本试升级”。不过,目前 DeepSeek 并没有发布有关新版本训练方法的技术报告。
不少用户都第一时间去实测了最新的 DeepSeek R1-0528,并整理出了升级亮点:
-
现在能够像 Google 模型作深入推理;
-
改进的写作任务,更自然、格式更好;
-
独特的推理风格,不仅快速,而且深思熟虑;
-
长时间思考,每项任务最多 30-60 分钟;
-
编程能力显著优化。
有实测用户表示,DeepSeek R1-0528 似乎是唯一一个始终正确回答“9.9 - 9.11 是多少”的模型。
但他也称,“从我尝试的编码问题来看,它的性能比旧的 R1 好,但它落后于 o3 和 Claude 4。”
也有用户反映了该版本“过度思考”的问题,表示“给它一个高中数学题,它思考了 6 分钟多才做出回应。”
值得注意的是,R1 的思维链 (CoT) 行为似乎发生了重大变化。有网友评价,“之前的看起来就像 o 系列的推理,现在的则与 Gemini 类似。”也有网友认为,“无论如何,它的 CoT 更加‘面向用户’。”
6 月 27~28 日的 AICon 北京站将继续聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent 构建、多模态应用、大模型推理性能优化、数据智能实践、AI 产品创新等热门议题,深入探讨技术与应用融合的最新趋势。欢迎持续关注,和我们一起探索 AI 应用的无限可能!
你也「在看」吗?👇






