Grok-3免费体验开启,中文创作惊艳,代码能力超群,推理能力强大,但DeepSearch仍需改进。
原文标题:地表最强Grok3突袭免费体验,网友实测对比DeepSeek,发现中文彩蛋
原文作者:机器之心
冷月清谈:
中文创作方面,Grok-3 生成的《我的故乡回忆》充满细节和情感,相比之下,DeepSeek 的类似作品略显平淡,OpenAI 的则像应试作文。此外,Grok-3 的毒舌点评能力也令人印象深刻。
代码能力方面,Grok-3 在生成游戏代码、动态地图等任务中表现出色,甚至可以根据提示复刻 Flappy Bird 游戏,其 Think 模式和 DeepSearch 模式更是如虎添翼。在复杂逻辑推理和数学推理方面,Grok-3 也展现了不俗的实力,甚至在黎曼猜想等难题上展现了探索意愿。
然而,Grok-3 的 DeepSearch 模式在信息搜寻和分析洞察力方面仍逊于 OpenAI 的同类工具,存在幻觉和信息准确性问题。此外,Grok-3 在幽默感、伦理问题处理和 SVG 绘图等方面仍有待提高。
怜星夜思:
2、Grok-3 的代码生成能力如此强大,未来是否会取代程序员?
3、Grok-3 的 DeepSearch 功能还有哪些需要改进的地方?
原文内容
AI好好用报道
又是一个文理兼修的优等生,能薅一点是一点。
堆了 20 万张 GPU、号称「地表最强」大模型 Grok-3 已经可用啦。
这两天,网友们已陆续晒出截图:
作为非付费用户,我们昨天只能旁观 Grok 3,今儿突然可以免费体验部分功能。
但,次数有限 !
由此看来,Grok 3 ( beta )提供「三件套」服务(除了基础模型)。
DeepSearch, 对标 OpenAI「深度研究」功能,解决更加复杂困难的问题。
DeepSearch 模式
Big Brain 可能是指推理模型 + 更多思考时间,类似 OpenAI o3 mini high。
要体验完整的 Grok3 「三件套」,大伙儿可得破费了。
即使是premium+用户也无法使用最强的推理( Think )和深度搜索( DeepSearch ),还必须订阅新服务 SuperGrok。
一顿操作下来,月费估计要 50 美金。
( )
准确地说,Grok 3 是一个系列,不只是某一个模型。轻量版本 Grok 3 mini 可以更快地回答问题,但会牺牲一些准确性。
-1-
意外啊
居然是中文写作高手
......
至于最后出场的 OpenAI o1 Pro,就像背了一堆典范作文、好词好句的人,写成的应试文。
DeepSeek 毒舌功力已经众人皆之,网友发现 Grok 3 辣评能力也是没有瓶颈!
让它犀利点评自己的推文,因为没告诉具体账号,这位网友先被 Grok 3 怼了一脸。告知账号后,Grok 3 开始毒舌,就连拍它马屁的推文也被怼:
夸得那么猛,也不怕把自己舌头闪了?光吹不给证据,跟放空炮有啥区别?
吹牛不带喘气、细节一抓就漏风 ......
-2-
Think 模式
确实是个理科高手
这些只是开胃菜。

下面是 DeepSeek R1(左)、o1-pro(右)的结果。

来自x@_akhaliq prompt: Write a p5.js script that simulates 25 particles in a vacuum space of a cylindrical container, bouncing within its boundaries. Use different colors for each ball and ensure they leave a trail showing their movement. Add a slow rotation of the container to give better view of what's going on in the scene. Make sure to create proper collision detection and physic rules to ensure particles remain in the container. Add an external spherical container. Add a slow zoom in and zoom out effect to the whole scene.
这是一个连马斯克本人都点赞的演示,看看 DeepSearch + Think 能创造什么?
网友让 DeepSearch 帮忙用 p5.js(一个网页动画工具)复刻《 Flappy Bird 》小游戏,它先帮忙从网上找好了游戏素材和图片。
然后,在同一个聊天窗口里启动 Think 模式,AI 就自动把完整的游戏代码给写出来了。
结果,Run 一次就成功。
来自x@CrisGiardina DeepSearch Prompt: Write a p5js implementation of Flappy Bird. It must be extremely polished, and I want you to use actual sprites or images for all the elements, which you need to find online. Think Prompt: now create a code block with the entire correct code please
结果,只有 Grok 3 (「Think 」)、OpenAI(如 o1-pro,月费$200)可以实现。
而 DeepSeek-R1、Gemini 2.0 Flash Thinking、Claude 均告失败。
谢耳朵玩的就是《卡坦岛》风格游戏。
特别是针对黎曼猜想,Grok 3(和 DeepSeek R1 )表现出探索意愿,而其他模型会立即放弃并仅回复「这是未解难题」。
一些常见的陷阱题目也难不到它,但要打开「 Think 」。
Grok 3 告诉我 9.11 比 9.9 小。
-3-
DeepSearch 模式
挑战 OpenAI ?还嫩了些
不过,对标OpenAI「深度研究」的 DeepSearch,它明显不如前者。
Andrzej Karpathy 的评价是:
优于 Perplexity 的类似功能,弱于:OpenAI 近期发布的「深度研究」工具。
作为一个 AI 研究助手,搜索范围要广、尽量全,而且来源是真实、可靠的。
如果具有洞察力,那更好。
而 AK 发现了幻觉问题,有时会编造根本不存在的网页链接,也会对事实做出错误陈述,数据统计上也存在问题。
其他网友也发现了类似问题。
除了幻觉问题,在信息搜寻力度上,不如 Google Deep Research 全面,分析信息时,洞察力也不如 OpenAI 的 Deep Research ,「还处在早期阶段」。
例如,谈到软件企业如何应对创新者困境,谷歌的研究助手引用了 80 多个来源,Grok3 最少。
OpenAI 研究助手也只引用了 29 个来源,但分析洞察能力很强。
-4-
始终翻不过的山
遗憾的是,大模型讲笑话真的很烂,Grok 3的幽默感也没有明显改善。
看来,思考推理能力对于幽默来说,更像是砒霜?
要么打太极,而 Grok 3 直面难题后,结论又明显功利主义了。
最离谱的当属 SVG 绘图挑战赛!
让 AI 用代码画鹈鹕骑自行车,就像让它闭着眼睛拼乐高——生成的矢量图坐标歪七扭八,活脱脱抽象派赛博艺术。
毕竟对 AI 来说,在 2D 网格上布置许多图形元素,就像让盲人指挥交通,结果比毕加索的画还魔幻。
以后我们会带来更多好玩的AI用例,也欢迎大家进群交流。




















