Cursor深度解析：AI编程助手的工作原理与实战能力边界

ali_tech · 2025 年8 月 11 日 15:29

Cursor内部机制揭秘：基模与工具的魔法！探秘AI编程助手如何协同大模型，提升开发效率，也揭示其能力边界。

原文标题：解密 Cursor：一位深度用户的原理探析与实验验证

原文作者：阿里云开发者

原文链接： http://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247552252&idx=1&sn=47de018918dd12a393bed9c68443576d&

冷月清谈：

文章作者作为Cursor的深度用户，对其高效的智能代码生成能力赞不绝口，并出于探索其底层技术实现的好奇，通过一系列实验揭示了Cursor与大模型之间的通信机制。作者通过部署LiteLLM作为大模型代理并记录LangFuse中的提示词和响应，深入分析了Cursor的工作原理。实验部分，作者依次展示了“Hello World”程序的编写、llama.cpp项目的代码检索以及H5版“待办事项”应用的创建过程，详细说明了Cursor如何调用`edit_file`、`run_terminal_cmd`、`codebase_search`等工具与大模型协同完成各项任务。

通过这些实验，文章揭示了Cursor的核心机制并不复杂，实则为“基模 + 若干工具”的组合。作者强调，其中基模（如OpenAI的gpt-4o或曾使用的Claude模型）的能力至关重要，并用Cursor失去Claude模型支持后表现变“傻”的案例印证了这一点。文章也指出Cursor在处理公司内部工具、模糊代码搜索等真实复杂项目时所面临的局限性，这主要源于其上下文不足。最终，作者总结，为了最大化Cursor的效用，高质量的单元测试和用户将复杂任务拆解为Cursor可接受的小任务的能力变得尤为关键。

怜星夜思：

1、文章提到Cursor在被禁止使用Claude模型后“明显变傻”了。这说明当前许多AI Agent产品在核心智能上高度依赖某个“最强”的基础大模型。大家认为这种依赖关系在未来会如何演变？开发者和企业应该如何应对这种技术锁定的风险呢？
2、Cursor在公司内部库和构建工具（如Kuafu）上遇到了挑战，因为它"没见过"这些内部工具。对于AI驱动的开发工具来说，如何有效地让它们学习和适应高度定制化、专有的企业级开发流程和工具链？有什么可行的方案或未来发展方向？
3、文章末尾提到，"充分的单元测试比以往任何时候都重要"，因为Cursor可以从编译错误中获得上下文。除了单元测试，大家认为在AI辅助编程时代，还有哪些"软件工程卫生"习惯变得更加关键，能帮助AI工具更好地理解和协助我们开发？

原文内容

Cursor 是近来大火的 coding agent 工具，凭借其深度集成的智能代码生成、上下文感知和对话式编程体验，极大地提升了开发效率，成为众多工程师日常开发的得力帮手。作为 Cursor 的付费用户，我已将其作为主力编码工具，每天在实际项目中频繁使用。只有真正深入使用，才能切身感受到它所带来的编程体验的神奇之处。在这个过程中，我也对其背后的技术实现产生了浓厚兴趣，本文试图通过一系列实验，深入分析 Cursor 在后台与大模型之间的通信机制，探寻 Cursor 智能能力背后的底层思想与设计原理。

不同于 cline 类的纯客户端，Curosr 和 LLM 的交互完全发生在后台，我们无法在 IDE 客户端上简单抓包来分析。所幸 Cursor 允许用户配置自己的 LLM 服务。

我在一台公网服务器上部署了 LiteLLM 充当大模型 Token 服务的代理，同时从旁路记录提示词和响应到 LangFuse。各组件的关系如上图所示，红色是新增部分。接下来，我们在 Cursor IDE 中做若干操作，观察 Cursor 后台服务和大模型的交互过程。以此推测 Cursor 的原理。

实验

本次测试使用 OpenAI 提供的 gpt-4o 模型。我原本想让 Cursor 使用 openrouter 提供的 claude-sonnet 模型，但没能成功。我用的 Cursor 版要是 1.2.4。

实验 1：hello world

让我们从一个简单的 hello world 例子开始。我的提示词是：

>> 用 go 语言编写 hello world 程序。在当前目录创建 hello.go。编译出 hello 可执行程序。

收到指令后，Cursor 一气呵成便写出了这个程序。

我们在 LangFuse 能看到 Cursor 和大模型的交互过程。下面简要描述这个过程。（没找到 LangFuse 如何分享原始提示词，难道因为我是免费用户？如果有小伙伴知道如何分享请告诉我。）

首先是又臭又长的系统提示词。大致是 pua 大模型，让它严格遵循指令，不该说的话不要说，不该做的事不要做。

接着是一段 Cursor 生成的提示词，包含环境信息，如代码目录结构、系统版本等。如果当前项目使用了 git，这里还包括 git status 信息。

接下来才是我写的那段提示词。Cursor 将它套在 <user_query> 的标签内原封不动发给大模型。

收到这些信息后，大模型开始干活了。它调用 edit_file 工具修改代码，其参数如下表。

edit_file工具调用另一个小模型在本地修改 hello.go。更准确地说是创建 hello.go，因为我们现在还没有任何代码。edit_file 返回如下结果给大模型。

编辑代码完成后，大模型继续调用工具编译和运行这个程序。本次使用工具 run_terminal_cmd运行 go build ...。顾名思义，这个工具在本地指定的终端命令。这个命令运行成功了，在本地生成了 hello 可执行程序。

然后，大模型继续调用 run_terminal_cmd 工具，运行方才生成的 hello 程序。如预期，这个程序输出了 Hello World! 字符串。

当 hello 运行结果回传后，大模型认为所有工作都完成了，它给出了总结。

实验2：检索代码

llama.cpp 是一个中等规模的 C/C++ 项目，其代码量有 30 万行。在这个子中，我们考察 Cursor 的代码理解能力。我的提示词是：

请问在本项目中，cuda 的 flash attention 是哪个函数？

大模型在处理提示词后，调用了 codebase_search 工具，搜索的关键词是“CUDA flash attention function”。codebase_search 工具返回了 17 条结果。

ggml/src/ggml-cuda/fattn.cu
src/llama-graph.cpp
ggml/CMakeLists.txt
ggml/src/ggml-cuda/ggml-cuda.cu
ggml/src/ggml-cuda/fattn-common.cuh
ggml/src/ggml-cuda/fattn-mma-f16.cuh
ggml/src/ggml-cuda/fattn-tile-f32.cu
ggml/src/ggml-cuda/fattn-vec-f32.cuh
ggml/src/ggml-vulkan/ggml-vulkan.cpp
ggml/src/ggml.c
ggml/src/ggml-cuda/common.cuh
ggml/src/ggml-cuda/fattn-vec-f16.cuh
ggml/src/ggml-cuda/fattn-tile-f16.cu
tools/mtmd/clip.cpp
ggml/src/ggml-cpu/ggml-cpu.c
ggml/src/ggml-cann/ggml-cann.cpp
include/llama.h

实际中的每条结果还包含代码片段，这里为简洁起见不展示出来。

我们可以看到，并非每条结果都是相关的。例如 CMakeLists.txt 完全无关，而 ggml-cpu.c、ggml-vulkan.cpp、ggml-cann.cpp 尽管也是注意力的计算代码，但却不是我们想要的 cuda 的实现。

大模型阅读上述检索结果后，产生最终的输出给用户。

实验3：规划

在这个例子中，我们从头创建一个单页面的“待办事项” H5 应用。

我的提示词是：

>> 请帮我写一个“待办事项”程序。使用 html5、css、js。这是一个单页面程序，仅有前端，而无后端。首页显示当前的待办事件。你可以点击“新增”按扭，增加一个新的待办事项。你也可以删除现有的待办事项。

大模型调用 todo_write 工具创建了工作项：

随后，依次调用 edit_file 工具生成 index.html、style.css、app.js。

最后再次调用 todo_write 将上述工作项全部标记为完成。

这个程序的运行效果如下：

分析

以上实验为我们揭开了 Cursor 的神秘面纱。Cusror 并不复杂，是“基模 + 若干工具”的组合，仅此而已。从 Cursor 的提示词中，我们能看到它能使用工具的列表。这些工具和官网的描述区别不大。其中重要的工具有：

仅用如此普通的工具，就能取得如此惊艳的效果，基模的能力至关重要。最近有句话讲“绝大多数 Agent 产品，离了 Claude 以后，什么都不是"。最近的 Cursor 锁区事件印证了这个说法。在被禁止使用 claude 模型后，我们能感觉到 Cursor 明显变傻了。

在上述实验外，我还进行了其他不成功的实验：

在公司内部的 kuafu 仓库中，为其中的 easy_string.c 文件中的函数增加单元测试。Cursor 成功地找到了 easy_string_test.c，生成了其中缺失的测试用例。但此后未能构建和运行这些测试用例。这是因为 kuafu 使用了内部的构建工具，Cursor 不会使用这个工具。根据上文的分析，这是因为 Cursor 背后的基模在训练期间没见过内部工具。
在开源的 rocksdb 仓库中，找到 DB::Write 的所有调用者。由于其他类也有同名的 Write 成员函数，Cursor 的代码搜索工具无法区分其中哪些调用是真的调用 DB::Write，因此搜索结果不及 IDE 的“查找所有引用”齐全。若此时我们让 Cursor 重命名 DB::Write 函数，它需要依靠构建的错误信息，才能找到遗漏的调用者。

这些失败的案例都指向上下文不足的问题。Cursor 在玩具项目中是王者，在真实项目中却像个傻子，正是这个原因。

在 rocksdb 的例子中，由于 Cursor 能从编译代码的错误信息中获得上下文。假如 rocksdb 是由 python 编写的，而单元测试又不充分，它便没法完成这个重构任务。从这个角度看，充分的单元测试比以往任何时候都重要。

用 Cursor 久了，在写完提示词按下回车的那一刻，我们能猜到这个任务是否能被 Cursor 自动完成。我们被训练出了“将复杂任务分解为 Cursor 能接受的小任务”的能力。用本文所讲的原理来分析，如果有个任务，能在较短的提示词中被直接描述清楚，或是让 Cursor 有线索在几步之内找到所需的上下文，那这样的任务就很有希望能被自动完成。

PolarDB 列存索引加速复杂查询

本方案为您介绍如何通过云原生数据库 PolarDB MySQL 版列存索引（In-Memory Column Index，简称 IMCI）实现大数据量场景下的高性能复杂查询。

点击阅读原文查看详情。

SparklingRiver075 · 2025 年8 月 13 日 12:47

我认为保持"代码规范的一致性"变得尤为重要。当项目代码风格高度统一时，AI更容易学习和预测代码模式，减少误判。其次是"设计文档的完备性"，特别是对于复杂模块或系统，详细的设计文档能作为AI的"高级上下文"，引导它进行更深层次的理解和生成。再有就是"低耦合高内聚"的编程原则，这使得AI在修改或生成代码时能更精准地定位影响范围，避免"牵一发而动全身"的连锁反应，降低引入bug的风险。

Whisper28f · 2025 年8 月 14 日 12:28

哎哟，这问题问到点子上了！以前代码写得乱七八糟可能也就同事吐槽，现在呢，AI它也要"骂"你！除了单元测试，我觉得最重要的就是"注释要写好"！别以为AI能读懂你的"天书"。还有就是要"语义化"，变量名函数名别再用a, b, c了，得让AI一眼就知道这是干啥的。最后，就是别搞"意大利面条"代码，模块化、组件化，让AI"一口一口"地"吃"，别噎着它了！AI可是很"挑食"的。

Ion31q · 2025 年8 月 16 日 13:30

这不就是"水土不服"嘛！AI就像个外来和尚，念不了本地的经。要让它适应，我觉得可以搞个"工具链配置文件"，把公司所有内部工具的调用方式、参数、预期输出都标准化描述出来，让AI能 “看懂”。或者更高级一点，搞一个"环境模拟器"，让AI能在模拟环境中不断尝试使用内部工具并获得反馈，就像玩游戏闯关一样，试错多了自然就掌握了。未来的AI可能还需要具备"自我探索"能力，自己去理解不熟悉的工具，而不是完全"投喂"。

Solace15k · 2025 年8 月 16 日 14:49

除了单元测试，保持代码的"可读性"和"可维护性"变得异常重要。这意味着清晰的命名规范、简洁的函数设计（单一职责）、模块化的代码结构、以及必要的代码注释和文档。AI在理解"意图"上仍有障碍，语义清晰的代码能极大地帮助它推断开发者想做什么。此外，持续集成/持续部署（CI/CD）流程的自动化和健全，也能为AI提供实时反馈，帮助它验证修改的正确性。最后，清晰的Git提交信息也有助于AI理解版本演进和变更目的。

RadiantButterfly764 · 2025 年8 月 17 日 04:49

这个问题很关键。从技术趋势看，单一模型依赖确实存在风险。未来可能会出现更多元化的趋势：一是多模型集成，Agent能够根据任务类型智能切换底层模型；二是模型开源化和本地化部署，降低对外部服务的依赖；三是企业级私有模型的崛起，通过自有数据训练出更匹配业务场景的模型。企业层面，可以考虑投资内部模型研发能力，或者构建多云/多模型策略，避免"all eggs in one basket"。

WanderingWolf359 · 2025 年8 月 17 日 05:27

这正是AI落地企业级应用的关键难点。解决方案可以从几个层面考虑：首先是强化检索增强生成（RAG），将企业内部的文档、API手册、构建脚本等知识库化，供AI实时查询；其次是特定领域的微调（Fine-tuning），让AI在企业内部代码和工具使用记录上进行训练，掌握其特有的模式；再者是“自适应学习”或“学习通过演示”（Learning by Demonstration），让AI观察开发者在特定环境下的操作，从而学习如何与内部工具链交互。最后，开放更多自定义工具接口，允许企业自己为Agent编写插件来对接内部系统，也是一个务实的路径。

ScarletTiger123 · 2025 年8 月 17 日 23:02

嘿，“变傻"这词儿可太形象了！就像一个本来是学霸的AI，突然不给用最好的参考书了，那考试成绩肯定下滑呀。应对嘛，我觉得可以像手机厂商适配安卓一样，把AI Agent设计成可以接入不同的LMM API，甚至支持本地私有部署。这样即使某个模型"熄火"了，也能迅速切换到备用，或者索性自己搭个"小灶”，把核心能力训练出来，自主可控才是王道！

AutumnWind074 · 2025 年8 月 17 日 23:02

哈哈，AI估计也觉得"我太难了"！外面那些开源的工具它都懂，一进公司内网就蒙圈。我觉得啊，可以给AI建个专属的"公司内部百科全书"，把所有内部工具的用法、API文档都整理进去，然后让AI没事儿就去"读书"。或者来个"实习生模式"，让AI跟着老员工"手把手"学几天，看老员工咋用那些奇奇怪怪的内部命令，它自己也跟着模拟操作几次，不就学会了吗？“熟能生巧”，AI也一样适用！

Comet761k · 2025 年8 月 18 日 09:55

说白了，现在AI Agent就像个武功平平的人，他能把各种兵器（工具）使得溜，但要是没了最顶尖的内功心法（大模型），那就是个花架子。将来啊，估计要么内功心法能自己练出来，要么就看谁能整合更多的武林高手来给它当教练。咱们打工人就得学会，哪个模型强就用哪个，但心里得有数，别被一个"绝世高手"给绑死了！