Hammer 模型系列荣登工具调用综合榜首,展示了强大的泛化能力。利用函数掩码和不相关性数据增强,Hammer-7B 准确率高达 83.92%,在多个基准测试中接近闭源大模型 GPT-4 的表现。
原文标题:?哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一
原文作者:机器之心
冷月清谈:
- **工具调用**是 AI 的一项重要功能,可让模型动态选择和使用工具来执行复杂任务。
- **研究人员提出了 Hammer**,一个轻量级的工具调用模型系列,利用函数掩码和不相关性检测数据增强来提高泛化能力。
- **Hammer-7B**,该系列中最大的模型,在工具调用基准测试中总体排名第一,综合性能仅次于闭源模型 GPT-4。
- Hammer 技术已**开源**,使开发者可以构建个性化的终端智能应用。
**技术详情:**
- **函数掩码**减少模型对函数名称和参数名称的依赖,使其更关注功能描述信息。
- **不相关性检测增强数据集**有助于模型识别没有适用函数的情况,从而给出“不相关”的信号。
**实验结果:**
- Hammer-7B 在 BFCL 基准测试中的准确率达到 83.92%,优于其他工具调用模型,接近闭源模型 GPT-4。
- Hammer 系列模型在不同基准测试中的平均 F1 分数达到 76.21%,与闭源模型 GPT-4 相近,大幅领先其他工具调用模型。
- 函数掩码和数据增强技术也提高了其他基础模型的工具调用性能,展示了其通用性。
**结论:**
Hammer 模型系列为轻量级工具调用模型在终端应用中迈出了一步。其强大的泛化能力和稳定性使其成为构建个性化智能应用的宝贵工具。
怜星夜思:
2、函数掩码和不相关性检测数据增强在 Hammer 模型中扮演着怎样的角色?
3、Hammer 模型的开源是否会对工具调用领域产生重大影响?为什么?
原文内容

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
-
模型地址:https://huggingface.co/MadeAgents
-
论文地址:https://arxiv.org/abs/2410.04587
-
代码地址:https://github.com/MadeAgents/Hammer
-
函数掩码旨在减少模型对函数名称和参数名称的依赖,核心是通过哈希化函数名称和参数名称,使模型在执行工具调用任务时不得不依赖更完备且可靠的功能描述信息,而不是对名称的记忆或匹配。这种方式有助于减少因命名差异导致的误判问题,提升模型在多样化命名风格和应用场景中的稳定性和适应性。
-
不相关性检测增强数据集旨在帮助模型在给定用户意图而当前无适用函数的情况下,能够正确判断并给出「不相关」信号。该数据集包含了 7,500 个增强样本,设计时平衡了工具调用任务和不相关性检测任务的比例,以达到最佳的综合效果。(已开源至:https://huggingface.co/datasets/MadeAgents/xlam-irrelevance-7.5k)
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]