DeepSeek R1 新版发布:性能逼近 OpenAI o3,推理能力显著提升

DeepSeek 发布 R1 新版,推理精度和代码生成速度提升,性能逼近 OpenAI o3。但有用户反映存在“过度思考”现象。

原文标题:实测思维链大变!DeepSeek R1一个“小升级”性能直逼o3,但仍“过度思考”?

原文作者:AI前线

冷月清谈:

DeepSeek 近期发布了 R1 的新版本 DeepSeek-R1-0528,主要在推理精度和代码生成速度上进行了升级,在 Live CodeBench 基准测试中性能可媲美 OpenAI 的 o3 版本。用户实测表明,新版本在深入推理、写作任务和编程能力方面均有显著优化,能够像 Google 模型一样进行深入推理,写作更自然,编程能力也得到提升。但也有用户指出,新版本存在“过度思考”的问题,对于一些简单的问题,模型会花费较长时间进行思考。此外,R1 的思维链(CoT)行为也发生了明显变化,推理风格更接近 Gemini。

怜星夜思:

1、DeepSeek R1 新版在推理风格上更接近 Gemini,你觉得这种变化是好是坏?为什么?
2、DeepSeek R1-0528 在编程能力上有所提升,但仍落后于 o3 和 Claude 4。你认为 DeepSeek 在哪些方面需要加强,才能在编程方面赶上甚至超越它们?
3、文章提到 DeepSeek R1-0528 有“过度思考”的问题。你认为这种“过度思考”是模型本身的问题,还是调参的问题?如果是调参的问题,应该如何调整?

原文内容

节前更新似乎已经是 DeepSeek 的惯例了。刚刚,DeepSeek 在 Huggingface 平台开源了 R1 的新版本 DeepSeek-R1-0528。

项目地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

据悉,新版本主要是在推理精度和代码生成速度的升级。在 Live CodeBench 基准测试中,DeepSeek-R1-0528 的性能可以媲美 OpenAI 的 o3(High)版本。

DeepSeek 官方对该版本的介绍是一次“小版本试升级”。不过,目前 DeepSeek 并没有发布有关新版本训练方法的技术报告。

不少用户都第一时间去实测了最新的 DeepSeek R1-0528,并整理出了升级亮点:

  • 现在能够像 Google 模型作深入推理;

  • 改进的写作任务,更自然、格式更好;

  • 独特的推理风格,不仅快速,而且深思熟虑;

  • 长时间思考,每项任务最多 30-60 分钟;

  • 编程能力显著优化。

有实测用户表示,DeepSeek R1-0528 似乎是唯一一个始终正确回答“9.9 - 9.11 是多少”的模型。

但他也称,“从我尝试的编码问题来看,它的性能比旧的 R1 好,但它落后于 o3 和 Claude 4。”

也有用户反映了该版本“过度思考”的问题,表示“给它一个高中数学题,它思考了 6 分钟多才做出回应。”

值得注意的是,R1 的思维链 (CoT) 行为似乎发生了重大变化。有网友评价,“之前的看起来就像 o 系列的推理,现在的则与 Gemini 类似。”也有网友认为,“无论如何,它的 CoT 更加‘面向用户’。”

活动推荐

6 月 27~28 日的 AICon 北京站将继续聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent 构建、多模态应用、大模型推理性能优化、数据智能实践、AI 产品创新等热门议题,深入探讨技术与应用融合的最新趋势。欢迎持续关注,和我们一起探索 AI 应用的无限可能!


今日荐文

图片

你也「在看」吗?👇


这个变化可能也跟 DeepSeek 想要覆盖更广泛的用户群体有关。毕竟,不是所有人都喜欢“黑盒”式的直接输出。更详细的推理过程,也能帮助用户更好地理解和信任模型。

我觉得这可能是一个 trade-off。更深入的推理往往需要更多的时间,但如果推理时间过长,就会影响用户体验。所以,关键在于找到一个平衡点。

我觉得还可以考虑引入一些人类反馈的强化学习(RLHF),让模型能够更好地理解人类的编程意图,生成更符合人类习惯的代码。毕竟,代码最终还是要给人看的。

从用户体验角度来看,我更喜欢 Gemini 风格。虽然有时候显得“过度思考”,但至少能让我知道模型是怎么一步步得出结论的,感觉更可靠,也更容易发现潜在的错误。

我觉得这很难一概而论。Gemini 的推理风格更注重过程的完整性和可解释性,这在某些场景下很有用,比如需要追溯问题根源的时候。但如果追求效率,可能 O 系列那种更直接的风格会更好。所以,关键还是看应用场景吧。

个人觉得,DeepSeek 可能需要在代码库的广度和深度上下功夫。o3 和 Claude 4 背后都有强大的数据支撑,DeepSeek 要想超越,必须在训练数据上有所突破,尤其是在特定领域的代码数据。

从技术角度讲,可能需要调整模型的推理步数或者 early stopping 的策略。如果模型在一定时间内没有得出明确的结论,就应该及时停止推理,避免浪费计算资源。

除了数据,算法优化也很重要。DeepSeek 可以尝试引入一些更先进的代码生成技术,比如基于 Transformer 的代码补全、代码搜索等,来提高代码生成的效率和质量。

也可能是模型对问题的理解不够准确,导致一直在错误的道路上探索。这种情况下,可能需要改进模型的 Prompt Engineering,让模型更好地理解问题的意图。