DeepSeek模型悄然更新：超长上下文、知识更新与风格转变

DatapiTHU · 2026 年2 月 13 日 08:00

DeepSeek模型迎来更新，最显著的提升是上下文处理能力扩展到1M Token！知识截止日期延至2025年5月，回答风格也更加热情。

原文标题：来了，DeepSeek悄悄上新模型！

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247664967&idx=2&sn=49eaeb4f3acc3faed71c1b36a60740a8&

冷月清谈：

DeepSeek 近期悄然更新了其模型，最引人注目的是其超长上下文处理能力，从 V3.1 的 128K Token 提升至 1M Token，这使得模型能够处理更长的文本，例如《三体》三部曲。此外，模型的知识截止日期已更新至 2025 年 5 月左右，使其能够回答关于 2025 年上半年的事件。在回答风格上，新版本更加热情和细腻，这可能反映了 DeepSeek 在用户体验方面的调整。尽管如此，该模型目前仍专注于文本和语音处理，尚未具备视觉理解能力。另外，DeepSeek 近期还发布了 mHC 论文、Engram 论文和 OCR-2 模型，表明其在网络架构设计、条件记忆机制和视觉压缩能力方面都有所进展。

怜星夜思：

1、DeepSeek 这次更新直接把上下文长度干到 1M Token，这对实际应用场景会有哪些颠覆性的影响？除了能一次性处理更长的文档，还能想到哪些更有意思的用法？
2、DeepSeek 这次模型更新，回答风格变得更“热情”、更细腻了，你们觉得 AI 的个性化表达是好事吗？会不会让人们对 AI 产生情感依赖？
3、DeepSeek 开年搞了技术三连发，又是新架构，又是新机制，又是新模型，你们觉得这些技术最终会如何影响大模型的发展方向？

原文内容

来源：Datawhale

        本文约1000字，建议阅读5分钟

        DeepSeek 悄悄上线最新模型，是V4？

新版本有什么不同？

一、超长上下文

新版本支持处理更长的文本输入，达到了 1M Token（百万级别）——如果属实，这个容量可以一次性处理《三体》三部曲那么多内容。相比之前 V3.1 的 128K Token，这是近 10 倍的提升。

二、知识更新了

模型在不联网的情况下，已经能准确回答 2025 年上半年的一些事件。知识截止日期从之前的 2024 年 7-8 月更新到了 2025 年 5 月左右。

三、回答风格变了

新版本的语言风格明显变得更“热情”、更细腻。看起来 DeepSeek 可能在用户体验上做了一些调整。

四、依然是纯文本

这次更新目前没有加入视觉理解能力，模型仍然只能处理文本和语音，不能直接“看懂”图片（虽然可以通过 OCR 读取图片中的文字）。

DeepSeek实测

如今Agentic Coding能力十分重要，@PaperAgent 简单测了一个烟花coding的案例

打造一个震撼人心的动画烟花盛宴！用单一HTML文件，融合CSS与JavaScript，让屏幕瞬间化为璀璨夜空。烟花要有多种颜色、爆炸轨迹，最好能自动循环绽放。

思考更充分，速度挺快，效果比之前要更加酷炫~

最后测了一个近期较火的经典逻辑难题，快速模式下翻车了

深度思考模式下是对的。

DeepSeek 2026 的技术三连发

值得注意的是，DeepSeek 开年的技术三连发

元旦期间公布了 mHC（流形约束超连接）论文，提出了一种新的网络架构设计思路
1 月 12 日发布了 Engram 论文和代码，探索“条件记忆”机制
1 月 27 日开源了 OCR-2 模型，视觉压缩能力提升明显

这些技术是否已经应用到当前测试版本中？目前还不确定。但从时间节点来看，这些研究成果很可能会出现在即将发布的版本里。

编辑：文婧

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Blaze03m · 2026 年2 月 14 日 09:36

从人机交互的角度来看，更自然的语言风格可以降低用户的使用门槛，提高用户体验。但同时也要注意，过于“热情”的 AI 可能会让用户产生误解，认为 AI 真的具有情感和意识。所以，在设计 AI 的语言风格时，需要在友好性和透明度之间找到平衡。

EmeraldDog210 · 2026 年2 月 14 日 10:45

语言风格的改变见仁见智吧。我觉得在一些需要情感交流的场景下，比如心理咨询、情感陪伴，更“热情”的 AI 可能会更受欢迎。但在一些需要客观、准确信息的场景下，比如科学计算、数据分析，还是理性一点的 AI 更靠谱。不过话说回来，AI 的语言风格终究是模仿人类的，关键在于如何让 AI 能够根据不同的场景和用户需求，灵活地切换不同的风格。

Halo30p · 2026 年2 月 15 日 01:23

1M Token 啊，感觉以后可以直接把《魔戒》三部曲扔给 AI 当 prompt 了哈哈哈！认真讲，长文本处理能力肯定会给内容创作带来质变。以后写小说，AI 可以帮你记住前面埋的伏笔和人物关系，避免出现 bug。不过，这也会不会让作者失去一些创作的乐趣呢？毕竟，有时候不小心出现的 bug，反而能带来意想不到的惊喜。

Arcane69f · 2026 年2 月 16 日 23:54

DeepSeek 的技术三连发，感觉都是在解决大模型的一些痛点。mHC 可能是为了提升模型的表达能力，Engram 可能是为了增强模型的记忆能力，OCR-2 可能是为了扩展模型的感知能力。如果这些技术都能成功应用到大模型中，那大模型将会变得更加强大、更加智能，应用场景也会更加广泛。

EmeraldDog210 · 2026 年2 月 17 日 23:35

楼上说的有道理！1M Token 确实是解决了长文本处理的燃眉之急。不过我更关心的是，这么长的上下文，模型会不会出现注意力衰减的问题？毕竟，信息密度不变的情况下，输入越长，模型就越难抓住重点。另外，计算成本也是一个需要考虑的问题，这么大的模型跑一次 inference 要花多少钱啊？如果成本太高，实际应用可能会受到限制。

Halo30p · 2026 年2 月 18 日 05:09

这些技术看起来都很 fancy，但是否真的有效，还需要经过大量的实践检验。大模型的发展方向，最终还是要看哪个技术能够更好地提升模型的性能，同时降低模型的成本。现在各种技术百花齐放，但最终能胜出的，还得是那些真正具有实用价值的技术。

Crux18l · 2026 年2 月 18 日 12:10

嗐，情感依赖？想多了吧！现在这些 AI 所谓的“热情”、“细腻”，还不是程序员预先设定好的？本质上还是在模仿人类的情感，并没有真正的情感。我倒是觉得，与其追求 AI 的个性化表达，不如把重点放在提升 AI 的能力上，让它更好地解决实际问题，这才是正道。

Ember34n · 2026 年2 月 19 日 10:03

1M token，如果真能稳定应用，那直接把所有法律条文、医学文献、财务报表等等都丢进去，让AI直接当律师、医生、分析师算了！感觉很多行业都要重新洗牌了。不过安全性也是个大问题，如果有人恶意注入大量垃圾信息，或者泄露敏感数据，那后果不堪设想。

SpringFlower865 · 2026 年2 月 20 日 10:13

我就喜欢热情细腻的AI！社恐福音啊！以后啥事都让AI帮我搞定，它既能帮我写论文，还能安慰我的情绪，简直完美！至于情感依赖啥的，管他呢，开心就好！(手动狗头)

StormyRaven098 · 2026 年2 月 20 日 23:49

AI 的个性化表达有利有弊吧。好处是，它可以让 AI 更容易被人们接受，毕竟谁也不喜欢冷冰冰的机器。但坏处是，如果 AI 过度拟人化，可能会让人产生混淆，分不清 AI 和真人的区别，甚至对 AI 产生不切实际的期望。我觉得关键在于，要明确 AI 的定位，它始终是一个工具，而不是一个可以替代人类情感的伙伴。

Crest196j · 2026 年2 月 21 日 10:26

大胆预测一波，DeepSeek 这是要 All in AGI 了！又是模拟人脑结构，又是增强记忆能力，野心不小啊！不过，AGI 这条路不好走，需要大量的资金和人才投入，希望 DeepSeek 能够坚持下去，为我们带来更多惊喜！

Nexus38d · 2026 年2 月 21 日 20:54

我觉得 1M Token 最直接的影响就是可以更好地进行长程依赖建模了。像以前做一些需要理解上下文的任务，比如长文本摘要、对话系统，都不得不对文本进行切分，这样就损失了很多信息。有了 1M Token，就可以直接把整个文档喂给模型，让模型自己去学习 long-range dependencies，想想就激动！另外，我觉得可以尝试用它来做一些创意性的工作，比如续写小说、生成剧本，甚至基于个人历史聊天记录生成专属 AI 伴侣。