腾讯混元开源Hunyuan-A13B混合推理模型:助力Agent工具调用与长文本理解

腾讯混元开源Hunyuan-A13B混合推理模型,擅长Agent工具调用与长文本理解,性能媲美同类模型,推理速度更快,并开源两个数据集。

原文标题:腾讯混元推出首款开源混合推理模型:擅长Agent工具调用和长文理解

原文作者:AI前线

冷月清谈:

腾讯混元开源了其首个混合推理 MoE 模型 Hunyuan-A13B,该模型拥有80B的总参数,但仅激活13B参数,在性能上可媲美同等架构下的领先开源模型,且具备更快的推理速度和更高的性价比。Hunyuan-A13B 在 Agent 工具调用和长文本处理方面表现突出,支持 256K 原生上下文窗口。该模型还支持快慢思考模式切换,优化计算资源分配,并对个人开发者友好,单张中低端GPU卡即可部署。此外,腾讯混元还开源了 ArtifactsBench 和 C3-Bench 两个数据集,旨在提升大语言模型在代码生成和 Agent 场景中的能力评估标准。

怜星夜思:

1、Hunyuan-A13B 模型开源对于大模型 Agent 应用的普及会带来哪些影响?除了降低部署门槛,还有哪些潜在价值?
2、Hunyuan-A13B 支持的快慢思考模式,在实际应用中如何权衡?有没有具体的场景案例可以分享?
3、文章提到的 ArtifactsBench 和 C3-Bench 数据集,分别解决了大模型 Agent 评估中的哪些痛点?对于大模型开发者来说,如何有效利用这些数据集?

原文内容

整理 | 褚杏娟

6 月 27 日,腾讯混元宣布开源首个混合推理 MoE 模型 Hunyuan-A13B,总参数 80B,激活参数仅 13B,效果比肩同等架构领先开源模型,但是推理速度更快,性价比更高。模型已经在 Github 和 Huggingface 等开源社区上线,同时模型 API 也在腾讯云官网正式上线,支持快速接入部署。

开源地址:

Github :https://github.com/Tencent-Hunyuan

HuggingFace:https://huggingface.co/tencent

据介绍,这是业界首个 13B 级别的 MoE 开源混合推理模型,基于先进的模型架构,Hunyuan-A13B 表现出强大的通用能力,在多个业内权威数据测试集上获得好成绩,并且在 Agent 工具调用和长文能力上有突出表现。

_* 加粗为最高分,下划线表示第二名,数据来源于模型各个公开的测试数据集得分 _

对于时下热门的大模型 Agent 能力,腾讯混元建设了一套多 Agent 数据合成框架,接入了 MCP、沙箱、大语言模型模拟等多样的环境,并且通过强化学习让 Agent 在多种环境里进行自主探索与学习,进一步提升了 Hunyuan-A13B 的效果。

在长文方面,Hunyuan-A13B 支持 256K 原生上下文窗口,在多个长文数据集中取得了优异的成绩。

在实际使用场景中,Hunyuan-A13B 模型可以根据需要选择思考模式,快思考模式提供简洁、高效的输出,适合追求速度和最小计算开销的简单任务;慢思考涉及更深、更全面的推理步骤,如反思和回溯。这种融合推理模式优化了计算资源分配,使用户能够通过加 think/no_think 切换思考模式,在效率和特定任务准确性之间取得平衡。

Hunyuan-A13B 模型对个人开发者较为友好,在严格条件下,只需要 1 张中低端 GPU 卡即可部署。目前,Hunyuan-A13B 已经融入开源主流推理框架生态,无损支持多种量化格式,在相同输入输出规模上,整体吞吐是前沿开源模型的 2 倍以上。

Hunyuan-A13B 集合了腾讯混元在模型预训练、后训练等多个环节的创新技术,这些技术共同增强了其推理性能、灵活性和推理效率。

预训练环节,Hunyuan-A13B 训练了 20T tokens 的语料,覆盖了多个领域。高质量的语料显著提升了模型通用能力。此外,在模型架构上,腾讯混元团队通过系统性分析,建模与验证,构建了适用于 MoE 架构的 Scaling Law 联合公式。这一发现完善了 MoE 架构的 Scaling Law 理论体系,并为 MoE 架构设计提供了可量化的工程化指导,也极大的提升了模型预训练的效果。

后训练环节,Hunyuan-A13B 采用了多阶段的训练方式,提升了模型的推理能力,同时兼顾了模型创作、理解、Agent 等通用能力。

图:Hunyuan-A13B 后训练四个步骤

为更好的提升大语言模型能力,腾讯混元也开源了两个新的数据集,以填补行业内相关评估标准的空白。其中,ArtifactsBench 用于弥合大语言模型代码生成评估中的视觉与交互鸿沟,构建了一个包含 1825 个任务的新基准,涵盖了从网页开发、数据可视化到交互式游戏等九大领域,并按难度分级以全面评估模型的能力;C3-Bench 针对 Agent 场景模型面临的三个关键挑战:规划复杂的工具关系、处理关键的隐藏信息以及动态路径决策,设计了 1024 条测试数据,以发现模型能力的不足。

会议推荐

首届 AICon 全球人工智能开发与应用大会(深圳站)将于 8 月 22-23 日正式举行!本次大会以 “探索 AI 应用边界” 为主题,聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!


今日荐文

图片

你也「在看」吗?👇

感觉这个有点像人脑的直觉和理性思维。快思考就像直觉,反应快,但可能不够严谨;慢思考就像理性思维,考虑周全,但耗时较长。 权衡的关键在于任务的性质和资源的限制。如果任务对时间要求很高,而且错误的代价不高,那就用快思考;反之,如果任务需要高精度,而且错误的代价很高,那就用慢思考。

我觉得最大的影响在于它可能会加速国内大模型 Agent 生态的建设。之前大家可能更多关注闭源的大模型,现在有了一个开源的选择,可以更好地控制成本和安全性。企业可以基于 Hunyuan-A13B 构建自己的 Agent 应用,而不用担心被卡脖子。

从技术角度看,Hunyuan-A13B 的开源有利于促进 MoE 架构的进一步发展。其公开的训练方法和数据集,可以为其他研究者提供宝贵的参考,加速领域内的技术迭代。此外,如果能建立起围绕 Hunyuan-A13B 的开源社区,将有助于形成一个良性的正反馈循环,吸引更多开发者参与,共同完善和优化模型。

ArtifactsBench 的亮点在于它模拟了真实世界的交互场景,让模型不仅要生成代码,还要考虑代码的视觉呈现和用户交互。这对于开发网页应用、数据可视化工具等应用非常有价值。 C3-Bench 则更加关注 Agent 的决策能力,考验模型在复杂环境下的推理和规划能力。这对于开发智能助手、游戏 AI 等应用至关重要。

快慢思考模式切换这个设计很巧妙!我理解快思考适合对实时性要求高的场景,比如客服机器人快速回复用户问题,慢思考适合需要深入分析的场景,比如金融风控分析。 具体场景案例的话,比如智能投顾,在市场行情波动剧烈的时候,可以用快思考模式快速给出应对建议,而在进行长期资产配置时,可以用慢思考模式进行更全面的分析。

这两个数据集感觉很有针对性!ArtifactsBench 解决了代码生成评估中缺少视觉和交互信息的痛点,C3-Bench 解决了 Agent 场景中规划、隐藏信息和动态决策的挑战。对于开发者来说,可以利用这些数据集来更全面地评估自己的模型在实际应用中的表现,找到模型的弱点并进行改进。

从学术角度来看,这两个数据集的开源有助于推动大模型 Agent 评估方法的发展。 之前的评估方法可能更多关注模型的生成能力,而忽略了模型的交互能力和决策能力。这两个数据集的出现,可以促使研究者们开发更全面、更合理的评估指标,从而更好地指导模型的发展。

这个问题很有意思!降低部署门槛肯定是好事,让更多人能用上,但我觉得更重要的是它提供了一个很好的研究和学习的平台。大家可以基于这个模型进行二次开发,探索更多的 Agent 应用场景,甚至可以催生出一些意想不到的创新玩法。说不定以后我们每个人都能拥有一个定制化的 AI 助理了!

其实这个概念在心理学上也有体现,对应的是系统1和系统2。系统1就是快思考,依赖直觉和经验,系统2就是慢思考,需要进行逻辑推理和分析。 个人觉得在实际应用中,可以考虑根据用户的反馈动态调整思考模式。比如,如果用户对快思考的答案不满意,可以切换到慢思考模式重新生成答案。