DeepSeek模型悄然更新:超长上下文、知识更新与风格转变

DeepSeek模型迎来更新,最显著的提升是上下文处理能力扩展到1M Token!知识截止日期延至2025年5月,回答风格也更加热情。

原文标题:来了,DeepSeek悄悄上新模型!

原文作者:数据派THU

冷月清谈:

DeepSeek 近期悄然更新了其模型,最引人注目的是其超长上下文处理能力,从 V3.1 的 128K Token 提升至 1M Token,这使得模型能够处理更长的文本,例如《三体》三部曲。此外,模型的知识截止日期已更新至 2025 年 5 月左右,使其能够回答关于 2025 年上半年的事件。在回答风格上,新版本更加热情和细腻,这可能反映了 DeepSeek 在用户体验方面的调整。尽管如此,该模型目前仍专注于文本和语音处理,尚未具备视觉理解能力。另外,DeepSeek 近期还发布了 mHC 论文、Engram 论文和 OCR-2 模型,表明其在网络架构设计、条件记忆机制和视觉压缩能力方面都有所进展。

怜星夜思:

1、DeepSeek 这次更新直接把上下文长度干到 1M Token,这对实际应用场景会有哪些颠覆性的影响?除了能一次性处理更长的文档,还能想到哪些更有意思的用法?
2、DeepSeek 这次模型更新,回答风格变得更“热情”、更细腻了,你们觉得 AI 的个性化表达是好事吗?会不会让人们对 AI 产生情感依赖?
3、DeepSeek 开年搞了技术三连发,又是新架构,又是新机制,又是新模型,你们觉得这些技术最终会如何影响大模型的发展方向?

原文内容

图片
来源:Datawhale
本文约1000字,建议阅读5分钟
DeepSeek 悄悄上线最新模型,是V4?

新版本有什么不同?


一、超长上下文

新版本支持处理更长的文本输入,达到了 1M Token(百万级别)——如果属实,这个容量可以一次性处理《三体》三部曲那么多内容。相比之前 V3.1 的 128K Token,这是近 10 倍的提升。

二、知识更新了

模型在不联网的情况下,已经能准确回答 2025 年上半年的一些事件。知识截止日期从之前的 2024 年 7-8 月更新到了 2025 年 5 月左右

三、回答风格变了

新版本的语言风格明显变得更“热情”、更细腻。看起来 DeepSeek 可能在用户体验上做了一些调整。

四、依然是纯文本

这次更新目前没有加入视觉理解能力,模型仍然只能处理文本和语音,不能直接“看懂”图片(虽然可以通过 OCR 读取图片中的文字)。

DeepSeek实测

如今Agentic Coding能力十分重要,@PaperAgent 简单测了一个烟花coding的案例

打造一个震撼人心的动画烟花盛宴!用单一HTML文件,融合CSS与JavaScript,让屏幕瞬间化为璀璨夜空。烟花要有多种颜色、爆炸轨迹,最好能自动循环绽放。

思考更充分,速度挺快,效果比之前要更加酷炫~

最后测了一个近期较火的经典逻辑难题,快速模式下翻车了

深度思考模式下是对的。

DeepSeek 2026 的技术三连发

值得注意的是,DeepSeek 开年的技术三连发

  • 元旦期间公布了 mHC(流形约束超连接)论文,提出了一种新的网络架构设计思路

  • 1 月 12 日发布了 Engram 论文和代码,探索“条件记忆”机制

  • 1 月 27 日开源了 OCR-2 模型,视觉压缩能力提升明显


这些技术是否已经应用到当前测试版本中?目前还不确定。但从时间节点来看,这些研究成果很可能会出现在即将发布的版本里。

编辑:文婧



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


从人机交互的角度来看,更自然的语言风格可以降低用户的使用门槛,提高用户体验。但同时也要注意,过于“热情”的 AI 可能会让用户产生误解,认为 AI 真的具有情感和意识。所以,在设计 AI 的语言风格时,需要在友好性和透明度之间找到平衡。

语言风格的改变见仁见智吧。我觉得在一些需要情感交流的场景下,比如心理咨询、情感陪伴,更“热情”的 AI 可能会更受欢迎。但在一些需要客观、准确信息的场景下,比如科学计算、数据分析,还是理性一点的 AI 更靠谱。不过话说回来,AI 的语言风格终究是模仿人类的,关键在于如何让 AI 能够根据不同的场景和用户需求,灵活地切换不同的风格。

1M Token 啊,感觉以后可以直接把《魔戒》三部曲扔给 AI 当 prompt 了哈哈哈!认真讲,长文本处理能力肯定会给内容创作带来质变。以后写小说,AI 可以帮你记住前面埋的伏笔和人物关系,避免出现 bug。不过,这也会不会让作者失去一些创作的乐趣呢?毕竟,有时候不小心出现的 bug,反而能带来意想不到的惊喜。

DeepSeek 的技术三连发,感觉都是在解决大模型的一些痛点。mHC 可能是为了提升模型的表达能力,Engram 可能是为了增强模型的记忆能力,OCR-2 可能是为了扩展模型的感知能力。如果这些技术都能成功应用到大模型中,那大模型将会变得更加强大、更加智能,应用场景也会更加广泛。

楼上说的有道理!1M Token 确实是解决了长文本处理的燃眉之急。不过我更关心的是,这么长的上下文,模型会不会出现注意力衰减的问题?毕竟,信息密度不变的情况下,输入越长,模型就越难抓住重点。另外,计算成本也是一个需要考虑的问题,这么大的模型跑一次 inference 要花多少钱啊?如果成本太高,实际应用可能会受到限制。

这些技术看起来都很 fancy,但是否真的有效,还需要经过大量的实践检验。大模型的发展方向,最终还是要看哪个技术能够更好地提升模型的性能,同时降低模型的成本。现在各种技术百花齐放,但最终能胜出的,还得是那些真正具有实用价值的技术。

嗐,情感依赖?想多了吧!现在这些 AI 所谓的“热情”、“细腻”,还不是程序员预先设定好的?本质上还是在模仿人类的情感,并没有真正的情感。我倒是觉得,与其追求 AI 的个性化表达,不如把重点放在提升 AI 的能力上,让它更好地解决实际问题,这才是正道。

1M token,如果真能稳定应用,那直接把所有法律条文、医学文献、财务报表等等都丢进去,让AI直接当律师、医生、分析师算了!感觉很多行业都要重新洗牌了。不过安全性也是个大问题,如果有人恶意注入大量垃圾信息,或者泄露敏感数据,那后果不堪设想。

我就喜欢热情细腻的AI!社恐福音啊!以后啥事都让AI帮我搞定,它既能帮我写论文,还能安慰我的情绪,简直完美!至于情感依赖啥的,管他呢,开心就好!(手动狗头)

AI 的个性化表达有利有弊吧。好处是,它可以让 AI 更容易被人们接受,毕竟谁也不喜欢冷冰冰的机器。但坏处是,如果 AI 过度拟人化,可能会让人产生混淆,分不清 AI 和真人的区别,甚至对 AI 产生不切实际的期望。我觉得关键在于,要明确 AI 的定位,它始终是一个工具,而不是一个可以替代人类情感的伙伴。

大胆预测一波,DeepSeek 这是要 All in AGI 了!又是模拟人脑结构,又是增强记忆能力,野心不小啊!不过,AGI 这条路不好走,需要大量的资金和人才投入,希望 DeepSeek 能够坚持下去,为我们带来更多惊喜!

我觉得 1M Token 最直接的影响就是可以更好地进行长程依赖建模了。像以前做一些需要理解上下文的任务,比如长文本摘要、对话系统,都不得不对文本进行切分,这样就损失了很多信息。有了 1M Token,就可以直接把整个文档喂给模型,让模型自己去学习 long-range dependencies,想想就激动!另外,我觉得可以尝试用它来做一些创意性的工作,比如续写小说、生成剧本,甚至基于个人历史聊天记录生成专属 AI 伴侣。