xAI Grok-2大模型横空出世,与GPT-4o齐头并进!

原文标题:Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭

原文作者:机器之心

冷月清谈:

**Grok 2 隆重登场,性能逼近 GPT-4o**

马斯克领导的 xAI 团队推出了其最新人工智能模型 Grok 2,其性能表现直逼 OpenAI 的 GPT-4o。在人工智能基准测试 LMSYS 榜上,Grok 2 紧随 GPT-4o 之后位列第四,在编码、复杂问题和数学方面表现突出。

生图识图,样样精通

Grok 2 不仅在文本理解方面表现出色,还具备生图识图的能力,能够根据自然语言描述生成图像。此外,它还具备理解和解释各种视觉信息的能力。

推理能力显著增强

与前代 Grok 1.5 相比,Grok 2 在推理能力方面取得了重大进步,能够利用检索到的内容进行推理,正确识别缺失信息,并在事件序列中进行推理。

界面大变身,操作更灵活

xAI 重新设计了 Grok 体验的界面,使其更加直观和可控,提供了更多的功能选择,适用于各种任务。同时,Grok 2 mini 作为轻便版本,在速度和性能之间取得了平衡。

即将推出企业 API,开放开发者合作

xAI 将在近期通过企业 API 平台向开发者发布 Grok 2 和 Grok 2 mini,允许多区域推理部署,实现全球低延迟访问。此外,xAI 还在探索与初创公司合作,扩展 Grok 在 X 平台上的功能。




怜星夜思:


1、Grok 2 在哪些方面表现出优异的推理能力?
2、Grok 2 的新颖之处体现在哪里?
3、Grok 2 在实际应用中的潜力有哪些?




原文内容



机器之心报道

机器之心编辑部

GPT-5 不出,Grok 已经赶上了。

就在谷歌与 OpenAI 互相抢新闻的同一天,马斯克旗下的 xAI 也没有闲着。

北京时间周三下午,xAI 正式发布了新一代 Grok 2 大模型。


第三方大模型基准组织 Chatbot Arena 也立即更新了 LMSYS 榜的成绩列表。Grok 2 的早期型号(sus-column-r)紧随 GPT-4o(0513 版)之后可以位列第四,表现优于 Claude 3.5 Sonnet 和 GPT-4-Turbo。

它在编码、复杂问题和数学方面表现出色。



马斯克不免自夸起来,「Grok 的推进速度像坐了火箭。」


注意,这只是早期版本的分数,Chatbot Arena 表示后续还会测试一下正式版。

马斯克表示,Grok-2 是具有最先进推理能力的先进语言模型。新一代包括两个版本:Grok-2 和 Grok-2 mini。两种模型现在都在 X 平台上向 Grok 用户发布。目前,X Premium 和 Premium+ 用户已经可以体验 Grok-2 和 Grok-2 mini 这两种模型。

相比此前的 Grok-1.5,Grok-2 的早期预览版实现了重大进步,在聊天、推理、代码等方面展示出了领先的能力。xAI 表示,Grok-2 和 Grok-2 mini 目前正在 X 上处于测试阶段,将在本月晚些时候通过企业 API 的方式提供。

新模型发布后不到半小时,已经有网友在晒使用效果了,他使用 Grok 2 mini 生成了一张「我与马斯克吃热狗」的图像。


再试试其他的生成一张华盛顿的画像。


也有人试了试 Grok 2 mini,生成一只飞猫。


还有人生成了特斯拉 Model Y,看起来挺像的?


Grok-2 性能大 PK

随着 xAI 将 Grok-2 的早期版本「sus-column-r」放入到 Chatbot Arena,我们看到了它与其他流行开闭源模型的性能比较。

就总体的 Elo 得分而言,Grok-2 的表现要优于 Claude 系列模型和大多版本的 GPT-4。当然,排在第一位的是 OpenAI 这几天刚放出的 GPT-4o(8 月 8 日版本)。


下图为 Grok-2 与其他流行模型的胜率(Win Rate)比较。


下图为 Grok 1.5 与 Grok 2 两个版本基于事实性的胜率比较。


xAI 采取这样的流程来对 Grok 2 模型进行评估,利用 AI Tutors 在各种任务中与模型真实互动。在每次互动过程中,Grok 2 都会向 AI Tutors 提供两个响应,然后根据指南中列出的特定标准选择最佳响应。

xAI 专注于在两个关键领域评估模型性能, 分别是指令遵循和提供准确、真实的信息。结果显示,Grok 2 在利用检索到的内容进行推理以及使用工具的能力方面有了显著的进步,比如正确地识别缺失信息、通过事件序列进行推理、丢弃不相关的帖子等。

基准测试成绩

xAI 通过一系列学术基准对 Grok-2 模型进行了评估,这些基准包括推理、阅读理解、数学、科学和编码。

Grok-2 和 Grok-2 mini 都比之前的 Grok-1.5 模型有了显著改进。在研究生水平的科学知识 (GPQA)、常识 (MMLU、MMLU-Pro) 和数学竞赛问题 (MATH) 等领域的表现可与其他前沿模型相媲美。

此外,Grok-2 在基于视觉的任务方面表现也很出色,在视觉数学推理 (MathVista) 和基于文档的问答 (DocVQA) 方面性能显著。


Grok 2 界面和功能「大变身」

过去几个月,xAI 一直不断地提升 x 平台上的 Grok 体验。现在,随着下一代 Grok 2 的推出,xAI 重新设计了界面,如下图所示。


当然,xAI 提供了一些新功能,比如 Conway《生命游戏》的简单实现。


再比如多模态理解能力(看图说话)。


其中,Grok-2 是 xAI 最先进的 AI 助手,拥有文本和视觉理解功能,并集成了来自 X 平台的实时信息,可通过 X 应用程序中的 Grok 选项卡访问。

Grok-2 mini 是一款小巧但功能强大的模型,在速度和答案质量之间取得了很好平衡。


与其前代产品相比,Grok-2 更直观、更可控、更灵活,适用于各种任务,无论你是在寻找答案、协作写作还是解决编码任务。

此外,xAI 还与初创公司 展开合作,试验他们的 FLUX.1 模型,以扩展 Grok 在 X 上的功能。


本月晚些时候, xAI 还将通过新的企业 API 平台向开发人员发布 Grok-2 和 Grok-2 mini。即将推出的 API 建立在新的定制技术堆栈上,允许多区域推理部署,以实现全球低延迟访问。

当然,xAI 还提供了一些增强的安全功能,例如强制性多因素身份验证(例如使用 Yubikey、Apple TouchID 或 TOTP)。

可以看到,自 2023 年 11 月推出 Grok-1 以来,xAI 一直以惊人的速度推进该系列模型。很快,他们将发布具有多模态理解的预览版。xAI 之后的重点将是通过新的计算集群来提高模型的核心推理能力。

博客地址:https://x.ai/blog/grok-2

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

Grok 2 在利用检索到的内容进行推理方面表现出色,比如正确识别缺失信息、通过事件序列进行推理、丢弃不相关的帖子等。

此外,Grok 2 在推理能力上的进步使其能够处理更复杂、需要更深入理解的任务。

它还可以作为一个可视化交互助手,将复杂信息转换为易于理解的图像和解释。

Grok 2 能够生图识图,根据自然语言描述生成图像,这在其他类似模型中并不常见。

它还展现了使用工具的能力,例如在视觉数学推理 (MathVista) 和基于文档的问答 (DocVQA) 任务中的表现。

它对视觉信息的理解和解释能力也使其脱颖而出,使它能够执行更广泛的任务。

此外,它在编码、解决复杂问题和数学计算方面也表现出色的推理能力,这在 Chatbot Arena 基准测试中得到了验证。

Grok 2 可以作为强大的搜索引擎,利用其信息检索和推理能力帮助用户找到准确、相关的信息。

对于开发人员而言,Grok 2 的企业 API 开放了其功能,使其可以集成到各种应用程序和服务中,增强其人工智能能力。