腾讯混元Turbo S:快思考模型实现秒回,部署成本大幅下降

腾讯发布混元Turbo S,快思考模型实现秒回,部署成本大幅下降。

原文标题:腾讯推出新一代快思考模型混元 Turbo S:主打秒回、低成本,将在腾讯元宝灰度上线

原文作者:AI前线

冷月清谈:

腾讯发布了新一代快思考模型混元 Turbo S,强调其“秒回”能力和低部署成本。相比之前的慢思考模型,Turbo S 的吐字速度提升一倍,首字延迟降低 44%。通过模型架构创新,部署成本也大幅下降。

在多个公开测试中,Turbo S 在知识、数学、推理等领域展现出与 DeepSeek V3、GPT 4o、Claude3.5 等领先模型相当的性能。通过长短思维链融合,Turbo S 在保持文科类问题快速响应的同时,提升了理科推理能力。

Turbo S 采用了 Hybrid-Mamba-Transformer 融合模式,降低了计算复杂度和缓存占用,实现了训练和推理成本的下降。该架构首次成功将 Mamba 架构应用于超大型 MoE 模型,兼顾了长序列处理效率和复杂上下文捕捉能力。

未来 Turbo S 将作为腾讯混元系列衍生模型的核心基座,为推理、长文、代码等衍生模型提供基础能力。基于 Turbo S 的推理模型 T1 已在腾讯元宝上线,正式版 API 也即将上线。目前 Turbo S 已在腾讯云开放 API 调用,一周内免费试用,定价相比前代模型下降数倍。

怜星夜思:

1、“快思考”和“慢思考”模型的本质区别是什么?除了响应速度,还有什么其他方面的差异?
2、Turbo S 的 Hybrid-Mamba-Transformer 融合模式是如何降低成本的?Mamba 架构的优势是什么?
3、Turbo S 将如何影响现有的 AI 应用生态?它会对哪些行业带来最大的变革?

原文内容

作者 | 褚杏娟

2 月 27 日,腾讯混元自研的快思考模型 Turbo S 正式发布。

据悉,区别于 Deepseek R1、混元 T1 等需要“想一下再回复”的慢思考模型,混元 Turbo S 能够实现“秒回”,吐字速度提升一倍,首字时延降低 44%,另外,通过模型架构创新,Turbo S 部署成本也大幅下降,持续推动大模型应用门槛降低。

在业界通用的多个公开 Benchmark 上,腾讯混元 Turbo S 在知识、数学、推理等多个领域展现出对标 DeepSeek V3、GPT 4o、Claude3.5 等业界领先模型的效果表现。

表格中,其它模型的评测指标来自官方评测结果,官方评测结果中不包含部分来自混元内部评测平台

据介绍,通过长短思维链融合,腾讯混元 Turbo S 在保持文科类问题快思考体验的同时,基于自研混元 T1 慢思考模型合成的长思维链数据,显著改进理科推理能力,实现模型整体效果提升。

架构方面,混元 Turbo S 采用了 Hybrid-Mamba-Transformer 融合模式,降低了传统 Transformer 结构的计算复杂度,减少了 KV-Cache 缓存占用,实现训练和推理成本的下降。新的融合模式也突破了传统纯 Transformer 结构大模型面临的长文训练和推理成本高的难题,一方面发挥了 Mamba 高效处理长序列的能力,也保留 Transformer 擅于捕捉复杂上下文的优势,构建了显存与计算效率双优的混合架构,这是工业界首次成功将 Mamba 架构无损地应用在超大型 MoE 模型上。

腾讯表示,作为旗舰模型,Turbo S 未来将成为腾讯混元系列衍生模型的核心基座,为推理、长文、代码等衍生模型提供基础能力。基于 Turbo S,通过引入长思维链、检索增强和强化学习等技术,腾讯自研了推理模型 T1,该模型已在腾讯元宝上线。腾讯混元表示,正式版的腾讯混元 T1 模型 API 也将很快上线,对外提供接入服务。

当前,开发者和企业用户可以在腾讯云上通过 API 调用腾讯混元 Turbo S,即日起一周内免费试用。定价上,Turbo S 输入价格为 0.8 元 / 百万 tokens,输出价格为 2 元 / 百万 tokens,相比前代混元 Turbo 模型价格下降数倍。

 直播预告

今年年初,扎克伯格宣布 Meta 计划用 AI 取代中级软件工程师,与此同时,Salesforce 也表示今年将暂停招聘软件工程师。种种迹象似乎都在进一步印证一个趋势——AI 正在加速取代部分软件工程岗位。在技术圈,人们一方面因 AI 带来的生产力飞跃而兴奋不已,另一方面,也难免弥漫着一丝焦虑。

3 月 3 日晚 20:00 直播,一起围绕“当下 AI 如何影响工程师的就业”、“工程师核心竞争力的再定义”等话题,探讨工程师如何应对这场变革。



今日荐文



图片
你也「在看」吗?👇

“Turbo S 的 Hybrid-Mamba-Transformer 融合模式是如何降低成本的?”,这个问题问得好!我觉得融合模式的关键在于“平衡”,它结合了 Mamba 和 Transformer 的优点,避免了单一架构的局限性,从而在性能和成本之间找到了最佳平衡点。

Turbo S 的出现,可能会加剧 AI 行业的竞争,推动技术不断进步。个人觉得,最大的变革可能发生在内容创作领域,比如自动写作、文案生成等,效率会有很大的提升。

我理解“快思考”模型侧重于快速检索和匹配信息,就像条件反射;“慢思考”模型则更注重逻辑推理和知识整合,就像深思熟虑。所以,前者更适合处理简单任务,后者则更适合处理复杂问题。

Turbo S 的低成本和高效率,可能会降低 AI 应用的门槛,让更多中小企业也能用上大模型。我觉得对实时交互、智能客服、在线教育等行业的影响会比较大。

关于这个问题,文中提到 Hybrid-Mamba-Transformer 降低了 KV-Cache 缓存占用,这也意味着节省了内存资源,进一步降低了成本。Mamba 架构的长序列处理能力也避免了传统 Transformer 在处理长文本时需要拆分的问题,提高了效率。

关于“Turbo S 将如何影响现有的 AI 应用生态?”这个问题,我觉得它可能会加速 AI 应用的普及,尤其是在对实时性要求较高的场景,比如自动驾驶、金融交易等。同时,更低的成本也可能催生新的商业模式。

Mamba 架构的核心优势在于高效处理长序列,它可以减少传统 Transformer 的计算复杂度。Turbo S 将 Mamba 和 Transformer 结合,既能处理长文本,又能捕捉上下文,从而降低了训练和推理成本。

引用一下问题,“快思考”和“慢思考”模型除了响应速度,还有什么其他方面的差异?我觉得最大的区别是应用场景。“快思考”适合实时对话、快速问答等场景,就像客服机器人;而“慢思考”更适合创作、分析、深度推理等需要更多思考时间的场景,就像写报告。

“快思考”和“慢思考”模型的区别,我觉得核心在于计算量和推理深度。快思考模型就像我们查字典,快速给出既有知识;慢思考模型更像写论文,需要整合、分析、推理。所以除了速度,输出质量、创造性、对上下文的理解,都会有差异。