DeepSeek V4提前向华为等国内厂商开放,V4 Lite绝密参数曝光

DeepSeek V4 优先向国内厂商开放,V4 Lite 绝密参数曝光:100 万 tokens 上下文窗口,原生多模态架构。

原文标题:曝DeepSeek新模型提前给华为等国内厂商“开绿灯”,V4 Lite 绝密参数外泄

原文作者:AI前线

冷月清谈:

DeepSeek 最新旗舰模型 DeepSeek V4,打破行业惯例,在发布前优先向包括华为在内的国内供应商开放访问权限,以便国内芯片厂商能够提前进行软件适配和性能优化。这一举动表明 DeepSeek 更加重视与国内厂商的合作。同时,DeepSeek V4 Lite 的部分参数也已曝光,该模型代号为“sealion-lite”,拥有 100 万 tokens 的上下文窗口,效果优于网页端/APP 端模型,并且是原生多模态架构。V4 Lite 目前正处于密集测试阶段,至少有一家推理服务商获得了访问权限,但签署了严格的保密协议。

怜星夜思:

1、DeepSeek 优先给国内厂商“开绿灯”进行适配优化,你怎么看待这种策略?
2、DeepSeek V4 Lite 的 100 万 tokens 上下文窗口,会对哪些应用场景带来提升?
3、DeepSeek V4 Lite 是原生多模态架构,和传统的“单模态 + 桥接”方式相比,有哪些优势?

原文内容

左右滑动查看更多图片

整理|华卫

刚刚,有两位知情人士透露,去年凭借低成本模型震撼全球市场的DeepSeek,已提前向包括华为技术在内的国内供应商开放即将推出的旗舰模型DeepSeekV4的访问权限。

消息称,DeepSeek并未向美国芯片制造商展示V4以进行性能优化,反而给包括华为在内的中国芯片厂商留出了数周时间,提前为其处理器做软件适配与性能优化,这打破了在重大模型更新之前进行性能优化的行业惯例。

通常,大型模型在发布前会向英伟达、AMD等头部芯片厂商提供预览版,以确保软件能在主流硬件上高效运行。此前,DeepSeek也曾与英伟达技术团队保持密切合作。

与此同时,另有消息称,DeepSeek V4 Lite 正处于密集测试阶段,至少已有一家推理服务商获得访问权限,但签署了严格的保密协议。目前已知的是,V4 Lite 的代号为“sealion-lite”,拥有 100 万个tokens的上下文窗口,效果显著优于网页端 / APP 端模型,并且是原生多模态架构。

上下文窗口的增大,也可能给 AI 带来新的挑战,例如如何有效地利用长上下文信息,避免信息过载和干扰等等。这需要算法上的进一步优化。

商业角度来看,这可能是 DeepSeek 为了拓展国内市场,与华为等关键厂商建立更紧密联系的一种策略。同时也规避了某些风险,值得思考。

从技术角度分析,针对特定架构进行优化,确实可以在特定场景下发挥更好的性能。但如果只优化国内厂商的芯片,是否会影响模型在其他平台上的通用性?

如果能够将各个模态统一在一个模型中进行训练,能够减少人工干预,并提高模型的泛化能力。但对算力的要求也会更高。

100 万 tokens!这简直是质的飞跃。在长文本处理、代码生成和复杂对话方面,肯定能显著提升效果,让 AI 更好地理解上下文,生成更连贯、更准确的内容。

对于需要处理大量历史数据的应用,例如金融分析、法律文档处理、医学研究等,更大的上下文窗口意味着 AI 可以考虑更多因素,做出更明智的决策。

原生多模态意味着模型从一开始就设计成能够处理多种类型的数据,比如文字、图像、音频等。相比于先分别处理不同模态的数据,然后再进行桥接,原生多模态能够更好地融合不同模态的信息,捕捉它们之间的关联,从而提升模型的整体表现。

我觉得这挺好的,说明 DeepSeek 更重视国内市场和国产芯片的发展。长期来看,支持国产芯片生态是必然趋势。

形象地说,传统的“单模态 + 桥接”方式就像是找不同专业的几个人合作,需要一个翻译来沟通。而原生多模态就像是培养一个全才,各个方面都懂,沟通起来自然更加顺畅。