Cohere发布Command A模型:企业级多语言AI的新选择,仅需两张GPU

Cohere发布Command A模型,企业级多语言AI新选择。仅需两张GPU,速度更快,多语言能力更强,或成GPT-4o有力竞争者。

原文标题:Cohere 发布多语言 Command A 模型:仅需两张 GPU 即可服务全球企业

原文作者:AI前线

冷月清谈:

Cohere发布了最新的生成式AI模型Command A,专为企业应用设计。作为Command-R的继任者,Command A在检索增强生成(RAG)、外部工具集成和AI效率方面进行了优化,旨在提供更快的计算速度和答案交付。Command A在商业、STEM和编码任务中表现优异,可仅使用两张GPU运行,并提供更快的token生成速度和更低的延迟。它增强了多语言AI能力,尤其改进了对阿拉伯语方言的支持。Command A集成了高级RAG、代理式工具和North AI平台,支持私有部署,并具备出色的可扩展性和成本效率。该模型在23种常用语言中表现出色,并能快速生成响应。Command A已在Cohere平台上正式上线,并在Hugging Face上提供开放权重,但仅供研究使用。它的高速、低硬件要求和多语言功能使其成为GPT-4o和DeepSeek-V3等模型的有力替代方案。

怜星夜思:

1、Command A号称只需两张GPU就能运行,这对于希望部署大模型的企业来说意味着什么?除了成本降低,还有哪些潜在的好处和局限?
2、文章提到Command A在阿拉伯语方言支持方面有所改进,这对于哪些类型的企业或应用场景来说至关重要?
3、Command A声称在高精度检索增强生成(RAG)方面表现出色,RAG技术对于企业AI应用有哪些实际价值?企业应该如何评估和选择适合自己的RAG方案?

原文内容

整理 | 华卫、核子可乐

日前,加拿大 AI 初创公司 Cohere 发布了其最新生成式 AI 模型 Command A,据称专为企业应用场景设计而成。据了解,Cohere 由 2017 年开启大语言模型革命的 transformer 论文作者之一 Aidan Gomez 与他的两位多伦多大学校友 Ivan Zhang 和 Nick Frosst 联合创立。除此之外,该公司旗下非营利子公司 Cohere for AI 还于本月初发布了名为 Aya Vision 的开源多语言视觉模型(仅供研究)。

据介绍,作为 2024 年 3 月首次亮相的 Command-R 及后续 Command R+ 大模型的继任者,Command A 以 Cohere 在检索增强生成(RAG)、外部工具以及企业 AI 效率领域的研发成果为基础,主要强调以更快速度完成计算并交付答案。

比 Command-R 更进一步

当初 Command-R 于 2024 年首次亮相时,就曾引入一系列关键创新,如优级 RAG 性能、更好的知识检索效果与更低的 AI 部署成本。该模型很快获得企业青睐,并被整合至甲骨文、Nation、Scale AI、埃森哲及麦肯锡等公司的商业解决方案当中。不过 Menlo Ventures 在 2024 年 11 月发布的企业采用调查报告中指出,Cohere 在企业领域的市场份额仅为 3%,远低于 OpenAI 的 34%、Anthropic 的 24% 乃至 Mistral 等小型初创厂商的 5%。

如今,为了吸引更多企业的加入,Command A 进一步拓展了这些功能。根据官方介绍,新版本:

  • 在商业、STEM 及编码任务中等同或超越了 OpenAI 的 GPT-4o 与 DeepSeek-V3。

  • 可仅依托两张 GPU(A100 或 H100)运行,相较于其他需要多达 32 张 GPU 模型在效率上实现了显著提升。

  • 可实现更快的 token 生成速度,每秒可生成 156 个 token——相当于 GPT-4o 的 1.75 倍,DeepSeek-V3 的 2.4 倍。

  • 降低延迟,首 token 生成时间为 6500 毫秒,优于 GPT-4o 的 7460 毫秒与 DeepSeek-V3 的 14740 毫秒。

  • 增强多语言 AI 能力,改进了对阿拉伯语方言的支持并扩展支持 23 种全球语言。

Cohere 通过 Command A 延续了其企业优先战略,确保此模型能够无缝集成至业务环境当中。Command A 的核心特性包括:

  • 高级检索增强生成(RAG):为企业应用程序提供可验证的高精度响应结果。

  • 使用代理式工具:与企业工具相集成以支持复杂的工作流程。

  • North AI 平台集成:与 Cohere 的 North AI 平台配合使用,允许企业使用安全的企业级 AI 智能体自动执行任务。

  • 可扩展性与成本效率:私有部署的成本比 API 访问低 50%。

  • 支持多种语言,在阿语支持方面表现出色。Command A 的一大突出特点,是它能够对全球 23 种最常用语言生成准确响应,包括经过改进的阿拉伯方言处理能力。

此外,速度是企业 AI 部署中的关键因素,Command A 的设计目标正是以超越竞争对手的速度交付生成结果。100K 上下文请求的 token 流速度为:每秒 73 个 token(相比之下,GPT-4o 为每秒 38 个 token,DeepSeek-V3 则为每秒 32 个 token)。首次 token 生成速度更快:与其他大模型相比,Command A 的响应速度明显更快。

基准测试结果中,Command A 在使用阿拉伯语响应英语提示词的准确率为 98.2%——高于 DeepSeek-V3 的 94.9% 与 GPT-4o 的 92.2%。它在方言一致性方面的表现似乎也明显优于竞争对手,ADI2 得分为 24.7,远高于 GPT-4o 的 15.9 与 DeepSeek-V3 的 15.7。

凭借更快的速度、更低的硬件要求加上扩展后的多语言功能,Command A 将自身定位成 GPT-4o 及 DeepSeek-V3 等模型的有力替代选项——请注意,这里列出的均是经典的大语言模型,而非最近掀起行业热潮的新兴推理模型。与能够支持 12.8 万个 token 上下文长度(即大模型在一次输入 / 输出交换中可以处理的信息量,12.8 万 token 相当于一本 300 页的小说)的前身不同,Command A 将上下文长度增加了一倍,达到 25.6 万个 token(相当于 600 页文本),同时提高了整体效率与生产应用就绪水平。

行业反响

现在,Command A 已在 Cohere 平台上正式上线,并在 Hugging Face 上基于 Creative Commons Attribution Non Commercial 4.0 International (CC-by-NC 4.0) 许可证提供开放权重,但仅供研究使用。后续还将面向广泛云服务商提供支持方案。输入 token:每百万个 2.5 美元;输出 token:每百万个 10.00 美元。可根据要求提供私有与本地部署。

多位 AI 研究人员及 Cohere 团队成员表达了自己对于 Command A 的赞赏之情。Cohere 公司预训练专家 Dwaraknath Ganesan 在 X 上发帖表示:“很高兴能够展示我们过去几个月间倾力研究的成果!Command A 非常出色,只需两张 H100 GPU 即可部署!256K 上下文长度、经过扩展的多语言支持、代理式工具使用……我们对此深感自豪。”

Cohere 公司 AI 研究员 Pierre Richemond 补充道,“Command A 是我们全新打造的 GPT-4o/DeepSeek V3 级别、开放权重 111B 模型,可支持 256K 上下文长度,且针对企业用例的运行效率进行了优化。”凭借更快的运行速度、更大的上下文窗口、更好的多语言处理能力以及更低的部署成本,它将针对企业需求为现有 AI 模型提供强大的替代选项。

Cohere 在其开发者文档中指出,“Command A 非常健谈。在默认情况下,该模型为交互式设计,并针对对话进行了优化。就是说它的输出内容很长,而且会使用 markdown 来高亮显示代码。要覆盖此机制,开发人员可在前置词中要求模型仅提供答案,且不使用 markdown 或代码块标记。”

由此看来,Command A 有望成为那些预算有限、但又亟需建立 AI 优势的企业,以及快速响应类应用场景(例如金融、医疗、医学、科学和法律)下的理想模型选项。

参考链接:

https://venturebeat.com/ai/cohere-targets-global-enterprises-with-new-highly-multilingual-command-a-model-requiring-only-2-gpus/

 直播预告

AI 大模型的崛起带来了前所未有的算力需求,但数据存储与加载的瓶颈问题却成为制约发展的关键。如何优化数据预处理?如何实现分布式存储与计算资源的高效协同?如何提升大模型训练的效率?3 月 24 日晚 20:00 ,4 位资深专家将在直播上深入剖析这些痛点!


今日荐文




图片
你也「在看」吗?👇

RAG (Retrieval-Augmented Generation) 绝对是企业 AI 应用的救星!想象一下,有了 RAG,AI 就像拥有了一个超级强大的外脑,在回答问题之前会先去查阅各种资料,确保答案精准可靠。这对于需要专业知识的行业,比如金融、医疗、法律等,简直是刚需!企业在评估 RAG 方案时,别只看技术指标,更要关注实际效果。比如,在你的特定业务场景下,RAG 能否显著提升 AI 的回答质量?能否有效降低错误率?能否方便地集成到现有系统中?只有经过充分的测试和验证,才能找到最适合自己的 RAG 方案。

这个问题问得好!阿拉伯语方言的支持绝对是个亮点。我觉得这对于以下企业/场景至关重要:

1. 中东地区的电商平台:能更准确理解当地用户的搜索和评价,提升购物体验。
2. 跨国客服中心:处理中东客户的咨询时,沟通更顺畅,减少误解。
3. 新闻媒体:自动翻译和分析阿拉伯语新闻,更快获取信息。
4. 政府机构:监测和分析社交媒体舆情,维护社会稳定。

当然,对于那些想进军中东市场的公司来说,这也是一个福音,降低了语言方面的门槛。

RAG(检索增强生成)这玩意儿,在企业AI应用里可是个宝贝。简单说,就是让AI在生成答案的时候,先去“查资料”,确保答案靠谱。实际价值大了去了:

1. 提升答案准确性:避免AI胡说八道,尤其是在专业领域。
2. 提高知识覆盖面:AI可以回答它没“学过”的问题,因为它会自己去查。
3. 增强可解释性:答案有据可查,用户更信任。

企业评估RAG方案,得看这几点:准确率、速度、成本、易用性。具体怎么选,就得看自己的业务需求和预算了。

RAG技术对于企业AI应用来说,简直就是如虎添翼。它能让AI模型在回答问题或者生成内容时,先从海量知识库中检索相关信息,然后再结合自身知识进行生成。这样不仅能保证答案的准确性,还能让AI模型具备更强的知识覆盖面,避免出现“一本正经胡说八道”的情况。企业在选择RAG方案时,要重点关注检索效率、生成质量和知识库的可维护性。只有找到最适合自己的RAG方案,才能真正发挥AI的价值。

阿拉伯语方言的支持,对于出海中东的企业绝对是福音。想想看,跨境电商、旅游服务、文化交流,哪个不需要精准的本地化?以前用通用阿拉伯语模型,经常闹笑话,现在有了Command A,就能更好地理解当地用户的需求和习惯,提升用户体验。特别是对于那些做社交媒体运营的公司,能更精准地把握当地的流行趋势和用户情绪,效果杠杠的。

Command A 在阿拉伯语方言上的突破,简直是为那些在中东地区开展业务的企业量身定制的!要知道,阿拉伯语方言种类繁多,差异巨大,如果 AI 不能准确理解这些方言,就很容易造成沟通障碍,甚至引发误解。对于电商平台来说,这意味着更精准的商品推荐和更流畅的客户服务;对于新闻媒体来说,这意味着更快速、更准确的信息获取和传播;对于政府机构来说,这意味着更高效的舆情监控和更有效的政策沟通。一句话,谁想在中东地区玩得转,谁就离不开 Command A 的方言支持!

两张GPU就能跑,确实很吸引人。从技术角度看,这可能意味着Cohere在模型压缩、量化或者混合精度训练等方面做了很多优化。企业除了能省钱,还能更容易地在本地部署,数据安全性更高。不过,算力降低也可能意味着在某些复杂任务上,模型的表现会打折扣。所以,企业需要根据自己的实际需求来权衡。

如果 Command A 真的只需要两张 GPU 就能服务企业,那绝对是 AI 落地的一大福音!这意味着以前被高昂算力成本挡在门外的中小企业,现在也能轻松拥有自己的 AI 助手了。想象一下,小诊所可以用它快速分析病历,小型电商可以用它优化商品推荐,这都能大大提升效率和竞争力。当然,凡事都有两面性。两张 GPU 固然降低了门槛,但算力瓶颈也可能限制了 Command A 在处理复杂任务时的表现。企业在选择时,还是要结合自身业务场景和对 AI 的期望值,别盲目追求低成本,忽略了实际效果。

这是个好问题!“Command A号称只需两张GPU就能运行”,这意味着中小企业也能玩得起AI了!好处显而易见:1. 成本大大降低,省下来的钱可以投到其他业务上;2. 部署更灵活,说不定以后在办公室角落就能跑起一个AI服务;3. 降低了对大型数据中心的需求,更加环保。当然也有局限性:如果数据量一大,两张卡可能还是hold不住,性能还是会受限,而且模型调优可能也需要更精细。

从阴谋论角度讲,会不会是因为模型本身参数量不大,算力需求低导致的?