腾讯混元开源四款轻量级模型:主攻Agent与长文本处理,赋能多场景应用

腾讯混元开源四款小尺寸模型,主打卓越Agent能力与256k超长上下文,可轻松运行于消费级设备,赋能多元场景应用。

原文标题:腾讯混元开源 4 个小尺寸模型,主打 Agent 和长文

原文作者:AI前线

冷月清谈:

腾讯混元近日宣布开源四款参数量介于0.5B至7B之间的小尺寸大模型。这些模型专为在消费级显卡上运行而设计,具备低功耗、高性价比的特点,使其非常适合笔记本、手机、智能座舱和智能家居等终端设备的应用,并且支持低成本的垂直领域微调。

新开源的模型采用了融合推理技术,可在“快思考”和“慢思考”两种模式间灵活切换,以适应不同的复杂问题解决需求。在语言理解、数学和推理等多个公开测试集上,这些模型的效果达到了行业领先水平。

其核心亮点在于Agent能力和超长上下文处理能力。通过精心的数据构建和强化学习,模型在任务规划、工具调用、复杂决策及反思等Agent方面表现出色,能胜任深度搜索、Excel操作等复杂任务。同时,这些模型原生长上下文窗口高达256k,这意味着它们可以一次性处理相当于40万中文汉字或50万英文单词的超长内容,例如完整理解和分析多本《哈利波特》小说

在部署方面,这些模型仅需单卡即可运行,并兼容主流推理框架和多种量化格式。腾讯已将这些模型广泛应用于其内部业务,如腾讯会议AI小助手、微信读书AI问书、腾讯手机管家、智能座舱助手、搜狗与微信输入法等,实践证明其可用性和实用性。此外,模型在金融、游戏翻译、专业客服和电商直播等垂直行业也展现了巨大的应用潜力。

此次开源是腾讯混元持续推进大模型开源战略的重要一步,旨在通过提供更多尺寸和模态的模型,加速产业落地,与开发者和合作伙伴一同构建开放的AI生态。

怜星夜思:

1、小尺寸模型虽然具备端侧运行、低功耗的优势,但在实际应用中,它们的性能和通用性会受到哪些限制?开发者在选择和使用小尺寸模型时,最需要关注哪些方面来弥补这些潜在的不足?
2、文章提到混元小尺寸模型的Agent能力很强,能做深度搜索、Excel操作。在你的想象中,未来Agent技术还会给我们日常生活和工作中带来哪些“更贴心”或“更颠覆”的变化?大家觉得它会取代哪些人类工作?
3、拥有256k超长上下文窗口的模型,被拿来举例是能“一口气读完3本《哈利波特》”。除了文学创作和阅读,你觉得在像法律、医疗、科学研究这些需要处理海量专业信息的领域,这种超长上下文能力还能带来哪些“革命性”的应用场景?

原文内容

作者 | 褚杏娟

8 月 4 日,腾讯混元宣布开源四款小尺寸模型,参数分别为 0.5B、1.8B、4B、7B,消费级显卡即可运行,适用于笔记本电脑、手机、智能座舱、智能家居等低功耗场景,且支持垂直领域低成本微调。

腾讯表示,这四款模型的推出,是腾讯混元大模型持续开源的一大举措,也进一步丰富了混元开源模型体系,可为开发者和企业提供更多尺寸的模型选择。目前,四个模型均在 Github 和 HuggingFace 等开源社区上线,Arm、高通、Intel、联发科技等多个消费级终端芯片平台也都宣布支持部署。

新开源的 4 个模型属于融合推理模型,具备推理速度快、性价比高的特点,用户可根据使用场景灵活选择模型思考模式——快思考模式提供简洁、高效的输出;而慢思考涉及解决复杂问题,具备更全面的推理步骤。

效果上,四个模型均实现了跟业界同尺寸模型的对标,特别是在语言理解、数学、推理等领域有出色表现,在多个公开测试集上得分达到了领先水平。

这四个模型的亮点在于 Agent 和长文能力,跟此前开源的 Hunyuan-A13B 模型一样,技术上通过精心的数据构建和强化学习奖励信号设计,提升了模型在任务规划、工具调用和复杂决策以及反思等 agent 能力上的表现,让模型实际应用中可以轻松胜任深度搜索、excel 操作、旅行攻略规划等任务。

此外,模型原生长上下文窗口达到了 256k,意味着模型可以一次性记住并处理相当于 40 万中文汉字或 50 万英文单词的超长内容,相当于一口气读完 3 本《哈利波特》小说 ,并且能记住所有人物关系、剧情细节,还能根据这些内容讨论后续故事发展。

部署上,四个模型均只需单卡即可部署,部分 PC、手机、平板等设备可直接接入。并且,模型具有较强的开放性,主流推理框架(例如,SGLang,vLLM and TensorRT-LLM)和多种量化格式均能够支持。

应用层面,四款小尺寸模型都能够满足从端侧到云端、从通用到专业的多样化需求,并且已经在腾讯多个业务中应用,可用性和实用性经过了实践的检验,是真正实用的模型。

例如,依托模型原生的超长上下文能力,腾讯会议 AI 小助手、微信读书 AI 问书 AI 助手均实现对完整会议内容、整本书籍的一次性理解和处理。

在端侧应用上,腾讯手机管家利用小尺寸模型提升垃圾短信识别准确率,实现毫秒级拦截,隐私零上传;腾讯智能座舱助手通过双模型协作架构解决车载环境痛点,充分发挥模型低功耗、高效推理的特性。

在高并发场景中,搜狗输入法基于模型的多模态联合训练机制使嘈杂环境下提升识别准确率;腾讯地图采用多模型架构,利用意图分类和推理能力提升了用户交互体验;微信输入法「问 AI」基于模型实现输入框与 AI 即问即答的无缝衔接。

在需求各异、约束严苛的垂直行业应用中,金融 AI 助手通过 Prompt 优化和少量数据微调实现 95%+ 意图识别准确率,展现出金融级的高可靠性;游戏翻译和 QQ 飞车手游 NPC 充分利用模型的理解能力在多语言理解能力、方言翻译和智能对话方面有突出表现,这些能力在专业客服、内容出海甚至电商直播等场景有巨大应用潜力。

最近,全球开源领域异常热闹,中国大模型表现抢眼。腾讯混元大语言模型也在持续推进开源,参与技术社区的共建之中,其开源模型已覆盖文本、图像、视频和 3D 生成等多个模态。

在大语言模型领域,腾讯混元此前陆续开源了激活参数量达 52B 的 Hunyuan large 和首个混合推理 MoE 模型 Hunyuan-A13B ,这些模型凭借架构上的创新以及在性能和效果上的不错表现,在开源社区受到广泛关注。

多模态方面,混元还开放了完整多模态生成能力及工具集插件,陆续开源了业界领先的文生图、视频生成和 3D 生成能力,提供接近商业模型性能的开源基座,方便社区基于业务和使用场景定制,图像、视频衍生模型数量达到 3000 个。上周,腾讯发布并开源混元 3D 世界模型 1.0,这一模型一经发布即迅速登上 Hugging Face 趋势榜第二,下载量飙到近 9k,混元 3D 世界模型技术报告还拿下了 Hugging Face 论文热榜第一。

腾讯表示,开源是腾讯混元大模型长期坚持的方向,未来腾讯混元也将不断提升模型能力,继续积极拥抱开源,推出更多尺寸、更多模特的模型,加速产业落地和应用,与开发者和合作伙伴共建大模型开源生态。

Github:

Hunyuan-0.5B:GitHub - Tencent-Hunyuan/Hunyuan-0.5B

Hunyuan-1.8B:https://github.com/Tencent-Hunyuan/Hunyuan-1.8B

Hunyuan-4B:https://github.com/Tencent-Hunyuan/Hunyuan-4B

Hunyuan-7B:GitHub - Tencent-Hunyuan/Hunyuan-7B: Tencent Hunyuan 7B (short as Hunyuan-7B) is one of the large language dense models of Tencent Hunyuan

HuggingFace:

Hunyuan-0.5B:https://huggingface.co/tencent/Hunyuan-0.5B-Instruct

Hunyuan-1.8B:https://huggingface.co/tencent/Hunyuan-1.8B-Instruct

Hunyuan-4B:https://huggingface.co/tencent/Hunyuan-4B-Instruct

Hunyuan-7B:https://huggingface.co/tencent/Hunyuan-7B-Instruct

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

会议推荐

首届 AICon 全球人工智能开发与应用大会(深圳站)将于 8 月 22-23 日正式举行!本次大会以 “探索 AI 应用边界” 为主题,聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!


今日荐文

图片

你也「在看」吗?👇

超长上下文能力的核心价值在于突破了传统AI在处理复杂语境关联长期依赖问题上的瓶颈。在法律领域,这使得模型能够从海量卷宗中提炼多方证据链条,进行跨文件、跨时间线的逻辑推理,支持法律检索、合同审核,乃至辅助庭审策略制定。医疗领域,它能整合患者的全部诊疗历史、基因组数据、生活习惯等多元异构信息,构建‘数字孪生’般全面的健康档案,实现疾病的早期预警、精准用药指导和个性化康复管理。科研领域则可用于知识图谱构建文献元数据提取、跨学科研究热点挖掘实验数据交叉验证,极大地加速发现与创新进程。这将使专业领域专家从繁重的资料整理中解放出来,专注于高价值的、需要人类独有洞察力的工作。

小模型能干啥?就像小轿车,省油好开,但你指望它拉大卡车的活儿?那肯定歇菜啊!通用性嘛,大概就是只能聊天气预报,问个复杂问题就直接躺平跟你说‘抱歉,我听不懂’。所以,选小模型就像找对象,得看准它的‘专长’,是专门做智能家居的语音助手,还是专门负责发表情包?千万别指望它能给你写篇博士论文,不然你俩都得抓狂。记住,‘小’有小的好处,但它的‘圈子’也小!

说起Agent,我觉得未来它能更像我们的‘私人管家’,比如早上自动根据我的日程预订拼车,午饭自动根据当日天气和我的喜好推荐并点好外卖,晚上回家自动识别我疲惫状态播放放松音乐。更颠覆的可能是在工作中,比如法律事务助理Agent能自动整理案件所有相关资料、总结判例、甚至根据我的口述生成初稿;科研Agent能自动根据我的研究方向追踪最新论文、安排实验计划、分析数据并生成报告初稿。至于取代人类工作嘛,我觉得一些重复性高、逻辑清晰的工作,比如基础的数据录入、客服、初级财务审计等,会最先受到冲击。

256k上下文窗口对于专业领域绝对是革命性的。在法律领域,它意味着模型可以一次性阅读完所有庭审记录、相关判例、法律条文和证据材料,并快速识别其中的关键点、逻辑漏洞,甚至自动生成复杂的法律意见书或合同草稿。在医疗领域,医生不再需要手动翻阅浩瀚的病历、医学文献和临床指南,模型可以直接吸收一个病人的所有检查报告、治疗方案、家族病史,辅助医生进行更精准的诊断和个性化治疗方案制定。在科学研究中,研究人员可以把整个领域的论文、专利、实验数据一股脑喂给模型,让它帮忙梳理前沿进展、发现未被注意的关联、甚至协助设计新的实验思路。这些都将极大地提升专业人士的工作效率和决策质量。

256k上下文?这不就是给AI装了个‘哆啦A梦的记忆面包’吗!以后我生病了,AI医生可以把我的基因组、出生到现在所有体检报告、甚至我从小到大吃的每一口饭、看的每一集动画片(可能影响心情),全部读进去,然后说:‘你得的不是病,是馋!’开玩笑啦。但真的,律师可能会让AI直接跑一遍所有历史上的判例,然后AI说:‘恭喜你,你的案子在三百年前某某村的张三案里找到了完美匹配!’科学家们可能会让AI把所有宇宙大爆炸理论、量子力学、生物演化的论文都读完,然后AI突然冒出一句:‘其实宇宙是个细胞,我们在一个巨大的多细胞生物体内!’想想都刺激!

Agent技术的演进,标志着AI从工具属性向‘伙伴’或‘协作体’属性的转变。未来其‘贴心’之处体现在:其一,主动式服务,而非被动响应,例如Agent能预测用户需求并提前执行。其二,情境感知与情感理解的深化,使其交互更为自然人性化,如能察觉用户情绪低落并提供安慰或娱乐。其三,跨平台无缝协同,一个Agent就能管理你的所有数字生活,信息流通更为顺畅。至于替代工作,我认为短期内,Agent会取代大量重复性、结构化的‘执行’类工作;长期来看,其将重塑‘思考’和‘决策’类工作的分工,尤其是在信息聚合、初步分析、方案生成等环节,人类将更多聚焦于复杂决策、创新和情感连接。

关于小尺寸模型的性能限制和选择,我个人觉得最大的限制就是通用性不如大模型,比如遇到特别偏门或者需要复杂推理的任务,小模型可能就有点吃力了。但反过来,它在特定任务上经过微调后,效率和表现会非常惊艳。所以,开发者在选的时候,首先要明确应用场景,是不是一个相对固定的领域?其次,要看它的微调潜力如何,有没有足够的预训练数据或者微调方法支持。最后,别忘了考虑部署成本和运行效率,毕竟小尺寸的优势就在这里。

针对“小尺寸模型在性能和通用性上的局限性及其弥补策略”的疑问,其主要瓶颈在于参数量限制了模型的复杂特征学习能力与世界知识储备,导致在开放域或多任务场景下泛化性不足。为弥补这些不足,开发者在模型选择与应用时应着重关注以下几点:一是数据效率,利用少量高质量数据进行领域自适应预训练或精调;二是架构优化,如引入MoE(混合专家)结构或高效注意力机制以在有限参数下提升表达能力;三是模型蒸馏与剪枝,将大型模型的知识迁移至小模型;四是多模态融合以增强理解维度。同时,结合端云协同策略,将复杂任务分派至云端大模型,而将轻量级、实时性强的任务留在端侧,是实现性能与效率平衡的有效途径。

Agent能做深度搜索、Excel操作?哇塞,那我的摸鱼神器终于来了!以后老板布置任务,我直接甩给Agent:‘喂!这个季度报表你搞定!’ 我就负责最后按F5刷新。最‘颠覆’的可能是,Agent能自动替我回复那些不想回的微信消息,还能根据我的口吻去跟甲方‘友好’扯皮。感觉以后我上班的主要工作,就是给我的Agent‘充充电’,然后喊一声‘Agent,启动!’ 至于取代人类工作?emmm,我觉得会取代那些‘假装在忙’的工作,毕竟Agent是真的在忙!