商汤日日新V6:原生多模态大模型,强化学习加持,推理能力比肩GPT-4.5

商汤发布日日新V6多模态大模型,推理能力比肩GPT-4.5,通过多模态融合、长思维链和强化学习等技术,应用于机器人、办公、教育等领域。

原文标题:原生多模态大模型也能强化学习,思维链长达几万字,商汤日日新V6来了

原文作者:机器之心

冷月清谈:

商汤科技发布了最新的多模态大模型“日日新 SenseNova V6”,该模型在多模态推理和交互能力上实现了显著突破。V6版本通过多模态长思维链训练、全局记忆和强化学习等技术,在多项权威评测中超越了GPT-4.5和Gemini 2.0 Pro等国际一流模型,尤其在强推理能力方面大幅领先GPT-4o。日日新V6在音频和视觉理解等基准测试中也表现出色,主要体现在以下几个方面:

1. **多模态融合**:实现了从模型底层架构和数据训练阶段对不同模态(文本、图像、音频、视频等)的统一理解和生成,而非简单的后期拼接,从而更接近人类的感知方式。
2. **长思维链**:支持最长64K token的多模态长思维链,能够进行更长时间的思考,从而解决复杂问题,甚至在几何问题中可以进行辅助线的绘制。
3. **强化学习**:引入多模态混合强化学习框架,在提升推理能力的同时保证模型的情感表达。
4. **高效压缩**:具备长视频统一表征和动态压缩能力,能将长视频进行高比例压缩,同时保留关键语义。

商汤通过“模型-系统-计算”的垂直整合体系,以及6D自动并行和FP8低精度训练等技术,实现了训练和推理效率的优化,降低了成本。目前,日日新V6已正式开放API,并已应用于多个场景,如机器人交互、办公、教育、金融等,旨在提升工作效率和优化用户体验。

怜星夜思:

1、日日新V6强调多模态融合,那么在实际应用中,多模态信息融合相比单一模态信息,能带来哪些具体的优势?
2、文章提到日日新V6通过强化学习提升推理能力,那么强化学习在大模型训练中扮演了什么角色?它与传统的监督学习方法有什么不同?
3、日日新V6宣称具备长程记忆能力,能够记住过去一段时间内发生的事,并融入推理。这种长程记忆对大模型来说意味着什么?在实际应用中会带来哪些改变?

原文内容

机器之心报道

机器之心编辑部

拥有行业最强多模态推理与交互能力的商汤「日日新 SenseNova V6」来了。


如果让大模型像人一样聪明,应该是什么样的?


你可能会回答,我们生活的世界纷繁复杂,常常涉及多模态信息(如声音、文字、视觉、时间、空间等等),对大模型提出了极为复杂和严苛的挑战。


这要求大模型必须拥有极强的推理和交互能力。


GPT-4o 的出现让我们看到了人机交互新方式。就像这样,它可以为你讲解数学题。



可以说,一直以来,GPT-4o 是可交互模型的行业标杆。


现在,来自国内的一款大模型,表现甚至更胜一筹。


下面是来自国产大模型的解题过程,它能循序渐进的教你如何解题,看起来比 GPT-4o 更像一位有耐心的老师:



又比如,我们指尖指向哪个单词,它就进行精准翻译,并自动生成单词卡,整个过程自然丝滑。



这正是商汤全新升级的融合多模态模型「日日新 SenseNova V6」(以下简称:日日新 V6)在 APP 端的体验效果。


模型通过多模态长思维链训练、全局记忆、强化学习等方面的技术突破,拥有行业最强的多模态推理与交互能力。



相比此前 V5.5 版本,日日新 V6 / V6 Reasoner 推理能力显著增强。其中在多模态推理任务上,SenseNova V6 Reasoner 同时超过了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking 。在语言深度推理任务上,SenseNova V6 Reasoner 也同样超过了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking。



日日新 V6 在权威的推理能力及多模态能力评测中,也处于行业领先水平。在纯文本和多模态任务上,多项指标超越 GPT-4.5、Gemini 2.0 Pro,并且在纯文本任务上全面超越 DeepSeek V3。纯文本推理与多模态推理能力均对标 GPT-4.5 和 Gemini 2.0 Pro 等国际一流模型的水平。



在强推理能力上,日日新 V6 大幅领先 GPT-4o。



此外,日日新 V6 在音频理解、视觉理解等基准上也处于领先水平。



目前,日日新 V6 已经正式开放 API,并可通过商量 Web、商量 App(内测版),以及商汤小浣熊、咔皮记账等应用进行体验。


一手实测:主打多模态与深度思考的融合


既然日日新 V6 各项指标已经做到了全面领先水平,那真实体验效果如何呢?


接下来,我们第一时间上手实测一下日日新 V6 大模型,看看它在实际应用场景中的表现究竟如何。


首先考考它的推理能力。


我们出了一道纯文本的逻辑推理题,商量花了 42 秒进行了深度思考,先根据题目条件来逐步推理,再倒推验证,最终给出正确答案,整个思路非常清晰。



商量还支持多模态深度思考,换句话说,我们不仅可以输入文字,还可以上传最多 4 张图片。


比如,我们上传了一张莫妮卡・贝鲁奇的经典剧照,看它能否准确说出其出处。




商量综合分析了红发黑裙的人物造型,石板街道、户外咖啡馆等场景细节,以及主题氛围和视觉风格,最后认出这是《西西里的美丽传说》。同时,它还一并回答了该电影的导演以及主要的影片内容。


接着,我们又测了下它的交互能力,涉及数学讲题、翻译点读、文旅讲解和绘本故事四大应用场景。


对于年轻父母来说,辅导孩子学习可是一件苦差事,甚至「不写作业,母慈子孝;一写作业,鸡飞狗跳」一度成为网络热梗,而商量的「数学讲题」场景,简直帮了父母们的大忙。


它包括判题和讲题两大功能。只要拿着孩子写的试卷,咔嚓拍个照,它就能精准识别手写答案,而且它的深度思考模式可显著提高解题准确性,正确率可达到 95%。



同时,基于强大的音视频沟通能力,商量还搞了个「免费数学私教」,不仅能快速锁定孩子在解题中的错误、以引导提问的方式逐步剖析解题思路,还可以实时一对一语音答疑。


视频开启 2 倍速


给孩子讲绘本故事也让不少家长头疼,虽然绘本图文并茂,但照本宣科讲出来就显得干干巴巴。商量则通过多模态识别与语音表达技术,将绘本内容进行情感化演绎,融入语音互动或后续故事问答等内容。



如果出门旅游,商量还是个合格的导游。拍摄一段文物或景点画面,它就能声情并茂地讲解相关历史背景。



从基准测试到实际体验来看,毫不夸张的说,日日新 V6 确实是一位名副其实的全能优等生。大家可能会疑问了,打造这样一款大模型体系,成本一定很高吧。


事实上成本与效率这块商汤也拿捏了。


技术解读:原生融合多模态,还有独门技术


在日日新 V6 大模型上,商汤通过一系列创新性的技术突破和商业策略,成功实现了高性能与低成本的完美平衡。


从硬件基础说起,利用商汤大装置,商汤构建了「模型 - 系统 - 计算」的垂直整合体系,实现了大模型算法与基础设施的联合优化,大幅提升了日日新 V6 的训练和推理效率。


依靠 6D 自动并行、FP8 低精度训练等技术,日日新 V6 的训练成本达到了行业最优水平。在推理时,日日新 V6 实现了生产级的 INT4 量化、高适应性的分级缓存、分钟级弹性扩缩容,整体推理成本也做到了行业最低,效率超过了 DeepSeek。


在此之上的大模型算法,也是商汤在 AI 领域深耕多年的结果。


如今,多模态大模型已成为人们追求的方向。然而,我们在很多应用中接触到的多模态模型并不能说是「完全体」。正如我们在很多应用中所接触到的,不少大模型是把图像、语音、文本分别训练好,再用「胶水代码」粘在一起。就像用翻译软件先把图片转文字,再把文字转成语音 —— 看似多模态,实际上是多个单模态在接力干活。


真正的多模态应该像人类感官与大脑,比如当人类看到苹果时,视觉(颜色)、触觉(手感)、味觉(甜味)是同时感知的。


商汤从一开始就全面瞄准多模态。他们从模型底层架构和数据训练阶段就实现不同模态(如文本、图像、音频、视频等)的统一理解和生成,而非后期拼接多个单模态模型。


去年 7 月,商汤推出的日日新 SenseNova 5.5 大模型体系引发了业内关注。它是国内首个流式原生多模态交互模型,拥有 6000 亿参数,基于超过 10TB tokens 的高质量训练数据实现了 109.5 字 / 秒的推理速度。


今年 1 月,商汤在原生融合多模态训练上实现突破,发布了「日日新」融合大模型。并在 SuperCLUE 2024 年语言模型综合榜单、OpenCompass 多模态综合榜单上取得了国内模型榜首的成绩,验证和商汤融合训练技术的巨大潜力。


沿着这一路径,商汤进行了进一步优化和规模扩展,并在日日新 V6 上实现了多模态综合性能的显著提升。


日日新 V6 进一步强化了推理能力,它可以支撑起对人类意图的深化理解,对复杂信息进行分析判断,并解决真实环境中的难题。与此同时,它还可以充分理解感情,与人进行流畅的交互。它拥有足够长的记忆,能够记住过去一段时间内发生的事,并将记忆内信息融入推理。


模态越多,大模型处理的实际上下文就越长。在思维链上,商汤通过多智能体协作进行长思维链合成和验证,实现了多模态长思维链合成技术,可以支持合成最长 64K token 的多模态长思维链,这相当于让模型在给出答案之前可以连续进行长达 6 万字的思考,让模型具备了面对复杂问题的长时间思考能力。


日日新 V6 的思维链引擎中,商汤调用了一系列以往在计算机视觉方面的能力,包括视频、图像、3D 等以给出主思维链的反馈,其输出的多模态思维链会被智能体改写为符合模型的训练格式。日日新 V6 在思考时还可以调用沙盒甚至外部代码能力来呈现出更好的思维链。



这就让日日新 V6 在做立体几何问题时,甚至可以做辅助线。


前不久,DeepSeek R1 通过强化学习算法 GRPO 取得了突破,商汤在 SenseNova V6 上为大模型带来了多模态混合强化学习,面向多种图文任务构建起混合增强学习框架,可以同步进行基于人类偏好的 RLHF 和基于确定性答案的 RFT,并且通过动态调节机制保证主客观表现的均衡,能在提升推理能力的同时不损害模型的情感表达。


在这个过程中,原始的多模态模型可以被调用到奖励模型中,获得先验知识的反馈,随着持续反思,模型的响应长度变得更长,这也意味着推理变得更仔细。



最后,日日新 V6 还具备独一无二的长视频统一表征和动态压缩能力,它可以将视觉、听觉、文本、时间轴逻辑进行对齐,形成多模态统一的时序表征,通过细粒度级联信息压缩和内容敏感的动态过滤,实现长视频的 400 倍高比例压缩。据介绍,商汤的大模型可以把 10 分钟视频压缩到仅有 16K tokens,仍能保留关键语义。



对于真实世界中的应用,这一系列技术至关重要。


发布会现场,我们看到商汤与傅利叶机器人合作,基于 SenseNova V6,傅利叶机器人可以通过融合图像、视频、语音和文本信息理解环境进行思考与表达,洞察用户的需求与情绪,与人类进行顺畅交互,机器人在说话的同时,还能同步生成与语义相匹配的动作,实现语言与行为的统一。


此外还有更多搭载 SenseNova V6 的 AI 产品和应用,涵盖办公、儿童教育、金融、翻译、电商购物、情感陪伴、支付等等,让我们感受到,AI 已经落实于百姓的日常生活场景。


生成式 AI,正在进入新时代


时间进入 2025 年,大模型技术的发展正在进入新的阶段,一些重要技术已经走入瓶颈期,新的方向正在出现。


图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 在谈及 AI 为何难以做出科学发现时曾表示,纯粹的语言模型不能完整地表达智能,无法创造新的事物。


基于文本的生成式 AI 也在接近「上限」,大语言模型的发展正在快速耗尽互联网的文本数据。OpenAI 联合创始人 Ilya Sutskever 认为,耗尽的时间会在 2028 年前后。


另一方面,在数字世界、物理世界中还有很多、甚至更大数量级的更多模态的内容还没有挖掘。


从 DeepSeek 横空出世,到英伟达 H300 超算的发布,我们可以观察到,AI 领域正在出现几个新的趋势:


  • 首先是对于 Scaling Laws 的新思考,随着大模型参数和训练数据量级增加效益的递减,业界正在逐渐把关注点转向效率提升;

  • 其次是多模态能力,从 GPT-4o 和最近发布的 Llama 4 上可以看出,具备原生的多模态能力,能够实现更深度、更广泛的信息交互与整合,将会成为未来大模型的竞争重点;

  • 在它们的基础上,大模型的强推理则会成为人们打造复杂任务智能体,实现高价值场景应用的关键。


有趣的是这三个方面,也正是商汤的优势项:凭借大量融入真实业务的应用,商汤构建出的大模型体系拥有处理复杂信息和解决复杂问题的能力;多年在计算机视觉等方向上的积累,让商汤在大模型迈向多模态时具备了绝对优势;在算力方面,商汤的大装置 SenseCore 一直在推动 AI 算力设施、应用与行业需求的深度融合,其能力还在不断增长。


在 AI 2.0 时代,基础设施、大模型和应用三者的关系已变得密不可分。越来越广泛的应用场景在推动着 AI 模型的发展,AI 技术也在不断创造并推动新的应用需求;与此同时,对大模型优化的 AI 基础设施正在出现,新的模型也在催生着更为强大的技术。


未来,商汤的日日新大模型,还会向生产力工具 + 交互工具两大方向进行大规模落地。其中生产力工具面向传统企业、金融、政务等领域,能帮助人们提升工作效率、优化工作流程;交互工具则面向所有普通用户,覆盖从智能助手、智能硬件到智能营销……


过不了多久,最常见的日常场景,也都能用上原生多模态 AI 的力量。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



长程记忆使得大模型可以处理更复杂的对话场景。例如,在多轮对话中,模型可以记住之前的对话内容,从而更好地理解用户的意图,避免答非所问。这对于智能客服、虚拟助手等应用至关重要。

强化学习就像是给模型请了个“教练”,通过奖励和惩罚来引导模型学习。和传统的监督学习不同,强化学习不需要标注数据,而是让模型在与环境的交互中自主探索和学习。比如,训练一个下围棋的AI,不用告诉它每一步该怎么走,只需要告诉它赢了就给奖励,输了就给惩罚,它自己就能学会下棋。

从技术角度看,长程记忆的实现需要解决两个关键问题:一是如何存储和检索记忆,二是如何将记忆融入推理过程。目前,常用的方法包括Transformer-XL、记忆网络等。未来,随着技术的不断发展,我们有望看到更多具有更强大长程记忆能力的大模型涌现。

强化学习给大模型带来了自主优化的能力。监督学习只能让模型模仿已有的数据,而强化学习可以让模型超越已有数据,探索新的策略。举个例子,在文本生成中,强化学习可以训练模型生成更流畅、更符合人类偏好的文本,而不仅仅是模仿已有的文本。

从理论上讲,强化学习的目标是最大化累积奖励。在实际应用中,可以将强化学习看作是一种优化算法,用于调整模型的参数,使其能够更好地完成特定任务。与传统的梯度下降方法相比,强化学习更适合处理序列决策问题,例如机器人控制、游戏AI等。

从学术角度看,多模态学习能够让模型学习到不同模态之间的关联性,从而更好地理解数据。这种关联性蕴含着丰富的语义信息,有助于模型进行更深层次的推理和决策。例如,在医疗诊断中,结合病人的影像报告和文本描述,医生可以更准确地判断病情。

多模态融合的优势在于它更贴近人类的感知方式。比如,在智能客服中,如果模型只理解文字,可能无法识别用户的情绪。但如果融合了语音信息,就能更好地理解用户意图,提供更个性化的服务。就像我们跟人交流,不能只看文字,还要听语气、看表情,才能get到对方的真实想法。

谢邀,多模态融合最大的优势在于提升模型的鲁棒性和准确性。单一模态可能会受到噪声干扰,导致模型判断失误。而多模态信息可以相互补充,降低噪声的影响。举个例子,自动驾驶中,摄像头可能会被遮挡,但激光雷达仍然可以提供距离信息,保证车辆的安全行驶。

长程记忆就像是给大模型装上了一个“笔记本”,可以记录下来之前发生的事情。这样,在进行推理时,模型就可以参考之前的记忆,做出更准确的判断。没有记忆的模型就像金鱼一样,只能记住眼前的事情,很容易犯同样的错误。