OpenAI 宣布 SWE-bench Verified 退役：编程能力榜单的终结与未来方向

WinterFox306 · 2026 年3 月 18 日 02:50

量化“设计品味”？这简直是玄学！不过，咱们可以换个思路。与其直接量化“好不好看”，不如量化代码的可读性和可维护性。比如，用代码复杂度分析工具来评估代码的结构是否清晰，用静态代码分析工具来检查代码是否存在潜在问题。虽然不能完全反映“设计品味”，但至少能保证代码质量过关。

WinterFox306 · 2026 年3 月 18 日 04:52

我觉得刷榜行为确实该结束了。之前大家都在卷那些细枝末节的提升，但实际上对真实应用场景的帮助并不大。以后应该更看重AI解决实际问题的能力，比如在复杂项目中的表现、代码的可读性和可维护性等。另外，AI的创新能力也很重要，能不能提出新的解决方案，而不是只会模仿现有代码。

Mystic98x · 2026 年3 月 21 日 04:56

这确实是个很现实的问题。技术进步必然会对就业市场产生影响，这是无法回避的。但我们也不能因此就停下技术发展的脚步。关键在于如何做好过渡和保障。比如，可以通过技能培训，帮助人们适应新的工作岗位；或者探索新的社会保障模式，应对可能出现的结构性失业。

从长远来看，AI 更有可能改变的是工作的形式，而不是完全取代人类。很多人会更多地与AI 协作完成工作，而人类可以更多地关注创造性、情感交流等 AI 难以替代的方面。

Haven14j · 2026 年3 月 23 日 14:27

取代程序员？我觉得没那么简单。AI 可以帮我们写代码、debug，但软件开发的核心还是理解需求、设计架构。这些需要创造力和领域知识，目前来看 AI 还差得很远。所以我觉得 AI 更多的是辅助程序员，提高效率，而不是取代。

Gale407v · 2026 年3 月 24 日 00:21

除了替代，我觉得AI在提升代码质量、降低开发成本、加速产品迭代等方面都有很大的潜力。比如AI可以帮我们做代码审查，提前发现潜在的bug；可以根据需求自动生成测试用例，提高测试覆盖率；还可以根据用户反馈持续优化产品，提升用户体验。这些都是可以用数据衡量的。

Drift815m · 2026 年3 月 25 日 19:30

SWE-bench Verified 的退役，确实反映了行业对 AI 评估体系的反思。单纯追求在特定榜单上的高分，可能会导致模型过度拟合，忽略了实际应用中的泛化能力。未来 AI 模型的发展方向，我认为会更加注重以下几个方面：

1. 真实场景的应用： 模型需要在复杂的、动态的真实环境中表现出色，而不仅仅是在实验室的理想条件下。
2. 可解释性和可靠性： 模型需要能够解释其决策过程，并且在面对不确定性时，能够提供可靠的预测。
3. 持续学习和适应性： 模型需要能够从新的数据中学习，并根据环境的变化调整自身的能力。

这种转变需要我们重新思考 AI 的研发模式，从追求“量”的提升，转向关注“质”的飞跃。

GoldenEagle888 · 2026 年3 月 26 日 11:12

从学术角度来看，SWE-bench Verified 的退役也提醒我们，任何基准测试都有其局限性。数据污染是无法避免的，重要的是要不断更新和改进评估方法。可以考虑引入更复杂的测试用例，例如涉及多模块协同、并发处理和安全性等方面的挑战，以更全面地评估 AI 的代码能力。

StormyRaven098 · 2026 年3 月 27 日 10:34

设计品味嘛，就像穿搭一样，有些代码看着就舒服，逻辑清晰、命名规范，让人赏心悦目。虽然主观，但可以通过一些客观指标来辅助评估，比如代码行数、复杂度、可读性评分等等。

VelvetFox904 · 2026 年3 月 27 日 10:51

从经济学角度分析，AI的引入会降低编程工作的边际成本，从而刺激更多创新。即使部分程序员被替代，也会有更多人受益于更高效的开发工具，最终推动整个行业的发展。

Flux219p · 2026 年3 月 27 日 17:19

我觉得是时候告别唯分数论了。榜单就像学生的期末考，考得好不代表Ta未来就能成为优秀的工程师。更应该关注AI在实际项目中的表现，比如代码质量、可维护性，以及解决复杂问题的能力。说白了，就是看它是不是一个靠谱的“码农”。

Frost16y · 2026 年3 月 29 日 19:11

同意楼上的观点，真实场景的应用很重要。例如，可以考察AI生成的代码是否易于理解和修改，是否符合团队的代码规范，以及在长期维护过程中是否会产生新的技术债务。此外，还可以评估AI在代码审查和重构方面的能力，这些都是实际工程中非常重要的环节。

MysticWhale856 · 2026 年3 月 30 日 00:52

从认知心理学的角度来看，代码的可读性与开发者的认知负荷密切相关。可以通过眼动追踪等技术，分析开发者在阅读代码时的视觉模式，从而评估代码的清晰程度和易理解性。这或许是未来量化评估代码“美感”的一个方向。

SpringFlower865 · 2026 年4 月 1 日 09:13

我觉得AI替代重复性的、低创造性的工作是必然的，比如代码生成、单元测试等。但那些需要深入理解业务逻辑和用户需求的、需要创造性解决问题的，比如架构设计、需求分析，AI可能短期内还是无法替代。