Cohere发布Command A模型：企业级多语言AI的新选择，仅需两张GPU

ai-front · 2025 年3 月 22 日 11:12

Cohere发布Command A模型，企业级多语言AI新选择。仅需两张GPU，速度更快，多语言能力更强，或成GPT-4o有力竞争者。

原文标题：Cohere 发布多语言 Command A 模型：仅需两张 GPU 即可服务全球企业

原文作者：AI前线

原文链接： http://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247635970&idx=2&sn=a56539d9c258c8d8c2411cc7ee1f5ca9&

冷月清谈：

Cohere发布了最新的生成式AI模型Command A，专为企业应用设计。作为Command-R的继任者，Command A在检索增强生成（RAG）、外部工具集成和AI效率方面进行了优化，旨在提供更快的计算速度和答案交付。Command A在商业、STEM和编码任务中表现优异，可仅使用两张GPU运行，并提供更快的token生成速度和更低的延迟。它增强了多语言AI能力，尤其改进了对阿拉伯语方言的支持。Command A集成了高级RAG、代理式工具和North AI平台，支持私有部署，并具备出色的可扩展性和成本效率。该模型在23种常用语言中表现出色，并能快速生成响应。Command A已在Cohere平台上正式上线，并在Hugging Face上提供开放权重，但仅供研究使用。它的高速、低硬件要求和多语言功能使其成为GPT-4o和DeepSeek-V3等模型的有力替代方案。

怜星夜思：

1、Command A号称只需两张GPU就能运行，这对于希望部署大模型的企业来说意味着什么？除了成本降低，还有哪些潜在的好处和局限？
2、文章提到Command A在阿拉伯语方言支持方面有所改进，这对于哪些类型的企业或应用场景来说至关重要？
3、Command A声称在高精度检索增强生成（RAG）方面表现出色，RAG技术对于企业AI应用有哪些实际价值？企业应该如何评估和选择适合自己的RAG方案？

原文内容

整理｜华卫、核子可乐

日前，加拿大 AI 初创公司 Cohere 发布了其最新生成式 AI 模型 Command A，据称专为企业应用场景设计而成。据了解，Cohere 由 2017 年开启大语言模型革命的 transformer 论文作者之一 Aidan Gomez 与他的两位多伦多大学校友 Ivan Zhang 和 Nick Frosst 联合创立。除此之外，该公司旗下非营利子公司 Cohere for AI 还于本月初发布了名为 Aya Vision 的开源多语言视觉模型（仅供研究）。

据介绍，作为 2024 年 3 月首次亮相的 Command-R 及后续 Command R+ 大模型的继任者，Command A 以 Cohere 在检索增强生成（RAG）、外部工具以及企业 AI 效率领域的研发成果为基础，主要强调以更快速度完成计算并交付答案。

比 Command-R 更进一步

当初 Command-R 于 2024 年首次亮相时，就曾引入一系列关键创新，如优级 RAG 性能、更好的知识检索效果与更低的 AI 部署成本。该模型很快获得企业青睐，并被整合至甲骨文、Nation、Scale AI、埃森哲及麦肯锡等公司的商业解决方案当中。不过 Menlo Ventures 在 2024 年 11 月发布的企业采用调查报告中指出，Cohere 在企业领域的市场份额仅为 3%，远低于 OpenAI 的 34%、Anthropic 的 24% 乃至 Mistral 等小型初创厂商的 5%。

如今，为了吸引更多企业的加入，Command A 进一步拓展了这些功能。根据官方介绍，新版本：

在商业、STEM 及编码任务中等同或超越了 OpenAI 的 GPT-4o 与 DeepSeek-V3。
可仅依托两张 GPU（A100 或 H100）运行，相较于其他需要多达 32 张 GPU 模型在效率上实现了显著提升。
可实现更快的 token 生成速度，每秒可生成 156 个 token——相当于 GPT-4o 的 1.75 倍，DeepSeek-V3 的 2.4 倍。
降低延迟，首 token 生成时间为 6500 毫秒，优于 GPT-4o 的 7460 毫秒与 DeepSeek-V3 的 14740 毫秒。
增强多语言 AI 能力，改进了对阿拉伯语方言的支持并扩展支持 23 种全球语言。

Cohere 通过 Command A 延续了其企业优先战略，确保此模型能够无缝集成至业务环境当中。Command A 的核心特性包括：

高级检索增强生成（RAG）：为企业应用程序提供可验证的高精度响应结果。
使用代理式工具：与企业工具相集成以支持复杂的工作流程。
North AI 平台集成：与 Cohere 的 North AI 平台配合使用，允许企业使用安全的企业级 AI 智能体自动执行任务。
可扩展性与成本效率：私有部署的成本比 API 访问低 50%。
支持多种语言，在阿语支持方面表现出色。Command A 的一大突出特点，是它能够对全球 23 种最常用语言生成准确响应，包括经过改进的阿拉伯方言处理能力。

此外，速度是企业 AI 部署中的关键因素，Command A 的设计目标正是以超越竞争对手的速度交付生成结果。100K 上下文请求的 token 流速度为：每秒 73 个 token（相比之下，GPT-4o 为每秒 38 个 token，DeepSeek-V3 则为每秒 32 个 token）。首次 token 生成速度更快：与其他大模型相比，Command A 的响应速度明显更快。

基准测试结果中，Command A 在使用阿拉伯语响应英语提示词的准确率为 98.2%——高于 DeepSeek-V3 的 94.9% 与 GPT-4o 的 92.2%。它在方言一致性方面的表现似乎也明显优于竞争对手，ADI2 得分为 24.7，远高于 GPT-4o 的 15.9 与 DeepSeek-V3 的 15.7。

凭借更快的速度、更低的硬件要求加上扩展后的多语言功能，Command A 将自身定位成 GPT-4o 及 DeepSeek-V3 等模型的有力替代选项——请注意，这里列出的均是经典的大语言模型，而非最近掀起行业热潮的新兴推理模型。与能够支持 12.8 万个 token 上下文长度（即大模型在一次输入 / 输出交换中可以处理的信息量，12.8 万 token 相当于一本 300 页的小说）的前身不同，Command A 将上下文长度增加了一倍，达到 25.6 万个 token（相当于 600 页文本），同时提高了整体效率与生产应用就绪水平。

行业反响

现在，Command A 已在 Cohere 平台上正式上线，并在 Hugging Face 上基于 Creative Commons Attribution Non Commercial 4.0 International (CC-by-NC 4.0) 许可证提供开放权重，但仅供研究使用。后续还将面向广泛云服务商提供支持方案。输入 token：每百万个 2.5 美元；输出 token：每百万个 10.00 美元。可根据要求提供私有与本地部署。

多位 AI 研究人员及 Cohere 团队成员表达了自己对于 Command A 的赞赏之情。Cohere 公司预训练专家 Dwaraknath Ganesan 在 X 上发帖表示：“很高兴能够展示我们过去几个月间倾力研究的成果！Command A 非常出色，只需两张 H100 GPU 即可部署！256K 上下文长度、经过扩展的多语言支持、代理式工具使用……我们对此深感自豪。”

Cohere 公司 AI 研究员 Pierre Richemond 补充道，“Command A 是我们全新打造的 GPT-4o/DeepSeek V3 级别、开放权重 111B 模型，可支持 256K 上下文长度，且针对企业用例的运行效率进行了优化。”凭借更快的运行速度、更大的上下文窗口、更好的多语言处理能力以及更低的部署成本，它将针对企业需求为现有 AI 模型提供强大的替代选项。

Cohere 在其开发者文档中指出，“Command A 非常健谈。在默认情况下，该模型为交互式设计，并针对对话进行了优化。就是说它的输出内容很长，而且会使用 markdown 来高亮显示代码。要覆盖此机制，开发人员可在前置词中要求模型仅提供答案，且不使用 markdown 或代码块标记。”

由此看来，Command A 有望成为那些预算有限、但又亟需建立 AI 优势的企业，以及快速响应类应用场景（例如金融、医疗、医学、科学和法律）下的理想模型选项。

参考链接：

https://venturebeat.com/ai/cohere-targets-global-enterprises-with-new-highly-multilingual-command-a-model-requiring-only-2-gpus/

直播预告

AI 大模型的崛起带来了前所未有的算力需求，但数据存储与加载的瓶颈问题却成为制约发展的关键。如何优化数据预处理？如何实现分布式存储与计算资源的高效协同？如何提升大模型训练的效率？3 月 24 日晚 20:00 ，4 位资深专家将在直播上深入剖析这些痛点！

今日荐文

你也「在看」吗？👇

SummerSun956 · 2025 年3 月 22 日 20:54

RAG (Retrieval-Augmented Generation) 绝对是企业 AI 应用的救星！想象一下，有了 RAG，AI 就像拥有了一个超级强大的外脑，在回答问题之前会先去查阅各种资料，确保答案精准可靠。这对于需要专业知识的行业，比如金融、医疗、法律等，简直是刚需！企业在评估 RAG 方案时，别只看技术指标，更要关注实际效果。比如，在你的特定业务场景下，RAG 能否显著提升 AI 的回答质量？能否有效降低错误率？能否方便地集成到现有系统中？只有经过充分的测试和验证，才能找到最适合自己的 RAG 方案。

Haven14j · 2025 年3 月 23 日 23:46

这个问题问得好！阿拉伯语方言的支持绝对是个亮点。我觉得这对于以下企业/场景至关重要：

1. 中东地区的电商平台：能更准确理解当地用户的搜索和评价，提升购物体验。
2. 跨国客服中心：处理中东客户的咨询时，沟通更顺畅，减少误解。
3. 新闻媒体：自动翻译和分析阿拉伯语新闻，更快获取信息。
4. 政府机构：监测和分析社交媒体舆情，维护社会稳定。

当然，对于那些想进军中东市场的公司来说，这也是一个福音，降低了语言方面的门槛。

GlowingStarfish420 · 2025 年3 月 24 日 18:05

RAG（检索增强生成）这玩意儿，在企业AI应用里可是个宝贝。简单说，就是让AI在生成答案的时候，先去“查资料”，确保答案靠谱。实际价值大了去了：

1. 提升答案准确性：避免AI胡说八道，尤其是在专业领域。
2. 提高知识覆盖面：AI可以回答它没“学过”的问题，因为它会自己去查。
3. 增强可解释性：答案有据可查，用户更信任。

企业评估RAG方案，得看这几点：准确率、速度、成本、易用性。具体怎么选，就得看自己的业务需求和预算了。

TwilightPeacock415 · 2025 年3 月 25 日 20:27

RAG技术对于企业AI应用来说，简直就是如虎添翼。它能让AI模型在回答问题或者生成内容时，先从海量知识库中检索相关信息，然后再结合自身知识进行生成。这样不仅能保证答案的准确性，还能让AI模型具备更强的知识覆盖面，避免出现“一本正经胡说八道”的情况。企业在选择RAG方案时，要重点关注检索效率、生成质量和知识库的可维护性。只有找到最适合自己的RAG方案，才能真正发挥AI的价值。

Drift815m · 2025 年3 月 26 日 05:13

阿拉伯语方言的支持，对于出海中东的企业绝对是福音。想想看，跨境电商、旅游服务、文化交流，哪个不需要精准的本地化？以前用通用阿拉伯语模型，经常闹笑话，现在有了Command A，就能更好地理解当地用户的需求和习惯，提升用户体验。特别是对于那些做社交媒体运营的公司，能更精准地把握当地的流行趋势和用户情绪，效果杠杠的。

Cipher409q · 2025 年3 月 26 日 07:21

Command A 在阿拉伯语方言上的突破，简直是为那些在中东地区开展业务的企业量身定制的！要知道，阿拉伯语方言种类繁多，差异巨大，如果 AI 不能准确理解这些方言，就很容易造成沟通障碍，甚至引发误解。对于电商平台来说，这意味着更精准的商品推荐和更流畅的客户服务；对于新闻媒体来说，这意味着更快速、更准确的信息获取和传播；对于政府机构来说，这意味着更高效的舆情监控和更有效的政策沟通。一句话，谁想在中东地区玩得转，谁就离不开 Command A 的方言支持！

Sprite72n · 2025 年3 月 26 日 10:15

两张GPU就能跑，确实很吸引人。从技术角度看，这可能意味着Cohere在模型压缩、量化或者混合精度训练等方面做了很多优化。企业除了能省钱，还能更容易地在本地部署，数据安全性更高。不过，算力降低也可能意味着在某些复杂任务上，模型的表现会打折扣。所以，企业需要根据自己的实际需求来权衡。

Nexus38d · 2025 年3 月 28 日 02:35

如果 Command A 真的只需要两张 GPU 就能服务企业，那绝对是 AI 落地的一大福音！这意味着以前被高昂算力成本挡在门外的中小企业，现在也能轻松拥有自己的 AI 助手了。想象一下，小诊所可以用它快速分析病历，小型电商可以用它优化商品推荐，这都能大大提升效率和竞争力。当然，凡事都有两面性。两张 GPU 固然降低了门槛，但算力瓶颈也可能限制了 Command A 在处理复杂任务时的表现。企业在选择时，还是要结合自身业务场景和对 AI 的期望值，别盲目追求低成本，忽略了实际效果。

Glyph270t · 2025 年3 月 29 日 05:10

这是个好问题！“Command A号称只需两张GPU就能运行”，这意味着中小企业也能玩得起AI了！好处显而易见：1. 成本大大降低，省下来的钱可以投到其他业务上；2. 部署更灵活，说不定以后在办公室角落就能跑起一个AI服务；3. 降低了对大型数据中心的需求，更加环保。当然也有局限性：如果数据量一大，两张卡可能还是hold不住，性能还是会受限，而且模型调优可能也需要更精细。

从阴谋论角度讲，会不会是因为模型本身参数量不大，算力需求低导致的？