全球最强AI程序员诞生!Cosine Genie:请求到跑通仅84秒

原文标题:全球最强AI程序员:GPT-4o加持,需求到跑通只需84秒

原文作者:机器之心

冷月清谈:

- **GPT-4加持的新工具Genie横空出世**,击败亚马逊和Factory等公司,成为全球性能最好的AI程序员,在SWE-Bench基准测试中得分30%。
  • Genie是一款自主AI工程模型,可以编写和编辑代码、修复bug、重构代码、进行测试等。

  • Genie可以通过人类工程师的指示进行工作,采用专有流程开发,模型基于目前非通用的GPT-4o变体构建,训练数据来自十亿个token,覆盖多种编程语言和功能。

  • Genie的推出对软件开发团队具有深远影响,可以提高生产力,使团队专注于更具战略性的计划。

  • 创始团队Cosine只有5人,由华人Yang Li参与创立,已筹集250万美元种子资金,未来计划拓展模型组合和开源社区。




怜星夜思:


1、Genie会不会取代人类程序员?
2、Genie会不会导致程序员失业?
3、如何看待Genie的价格?

原文内容

机器之心报道

编辑:泽南、陈陈

大家都在排 waitlist。


大模型正在「替代人类程序员」的道路上快速前进。

今年 3 月,人工智能软件工程师 Devin 引爆了 AI 社区,该产品由 OpenAI 的 GPT-4 基础大型语言模型(LLM)提供支持,可以在收到自然语言文本指令后自主编写和编辑代码。

但在生成式 AI 领域,快速发展是主旋律,现在技术又迭代了。

本周,一家 Y Combinator 支持,名为 Cosine 的创业公司宣布推出自己的全新自主 AI 工程师 Genie。该公司表示,Genie 的表现轻松超越了 Devin,在第三方基准测试 SWE-Bench 上的得分为 30%,而 Devin 的得分仅为 13.8%。

新工具甚至超过了亚马逊的 Q 和 Factory 的 Code Droid 的 19%,现在是全球性能最好的 AI 程序员。

Genie 在 SWE-Bench 基准上的表现,以及与其他 AI 代码模型的比较。

「这个模型远不止是一个基准跑分而已:它是以像人类 SWE(软件工程师)一样思考和行动为目标从头开始训练的,」Cosine 的联合创始人兼首席执行官 Alistair Pullen 表示。


会修 Bug,能写代码的 Genie

作为一种先进的 AI 软件工程模型,Genie 可以按照人类工程师的指示自主处理各种编码任务,包括 bug 修复、功能构建、代码重构、代码测试等。

Genie 可以完全自主运行,也可以与用户协作完成任务。

它支持多种编程语言,在技术报告中显示,其中包括 JavaScript、Python、TypeScript、TSX、Java、C#、C++、C、Rust、Scala、Kotlin、Swift、Golang、PHP、Ruby。

Cosine 声称 Genie 可以模拟人类工程师的认知过程。「让它观察人类工程师是如何工作的,并模仿这个过程。」Alistair Pullen 表示。

一直以来,安全问题是大家比较关心的,Genie 生成的代码存储在用户的 GitHub 仓库中,因而 Cosine 不会保留代码副本,从而避免了随之而来的安全风险。

此外,Cosine 的软件平台已经集成了 Slack 和系统通知,它就像一位 AI 同事,提醒用户状态或标记 issues。

Alistair Pullen 演示了如何使用 Genie 来解决实际问题。目标是 GitHub 上的一个 issue,我们只需要直接往里丢链接,AI 会自动分析问题,自动开始思考解决这个问题需要用到哪些文件,一直到满足要求为止。

图片


然后,Genie 会开始尝试将问题分解成很多解决步骤,随后生成代码。

图片


接着就是跑代码了,如果生成的代码有问题,它就自动寻找出问题的地方进行分析、修改,然后再尝试运行。

图片


最后输出结果:两个文件、17 次测试,仅用时 84 秒。

图片


这不知道比人类程序员要快上多少倍了。

长上下文由 OpenAI 模型提供支持

 与许多依赖基础模型并辅以少量工具的 AI 模型不同,Genie 是通过专有流程开发的。

就模型而言,Genie 基于(目前)非通用的 GPT-4o 变体构建而成,OpenAI 允许 Cosine 将其作为实验访问计划的一部分进行训练。

通过技术报告我们得知,当研究者开始构建 Genie 之初,他们只能在 16-32k 范围内微调相对较短的上下文窗口模型。

为了解决这一问题,团队人员对这些模型进行了大量的早期探索,并在超过 1 亿个 token 的大量数据集上对它们进行训练,虽然发现架构具有一定优势,但还是面临模型在特定时间内可以处理的信息量的限制。

在尝试了各种压缩 / 分块方法后,团队认为唯一的解决方案是使用更大的上下文模型,尽管当时没有可供使用的模型。

幸运的是,不久之后,能够确保训练长上下文的 OpenAI 模型出现了。

Cosine 在其博客文章中表示,他们花了将近一年的时间来整理数据集,在最近的训练运行中,Genie 接受了数十亿个 token 数据的训练,选择的数据包含了用户目前最关心的编程语言。以下是训练 Genie 的过程中不同编程语言数据所占的比例:


以下是 Bug 修复、重构等不同功能的数据占比:


在价格方面,据 Pullen 透漏, Genie  最初定价将分为两个层级:

  • 入门级选项,定价大约在 20 美元左右。这个层级会有一些功能和使用限制,适合个人和小型团队使用;
  • 企业级选项,提供扩展功能,使用几乎不受限制,好比拥有了一个精通代码的 AI 同事。但这个层级的定价将更高。

Genie 的推出对软件开发团队具有深远的影响,特别是那些希望提高生产力并减少花在日常任务上的时间的团队。凭借其自主处理复杂编程挑战的能力,Genie 可能会改变工程资源的分配方式,使团队能够专注于更具战略性的计划。

 Pullen 表示,对于他来说,工程资源不再成为限制是一个巨大的推动力,特别是在创办公司以来。他认为,一个能够快速进入未知代码库并解决未见过的问题的 AI 同事,其价值显而易见,并且对世界有着巨大的影响。 

未来,该公司打算扩大其模型组合,包括用于简单任务的小模型和能够处理更复杂挑战的大模型。此外,Cosine 还计划将其工作拓展到开源社区。 

现在 Genie 已向部分用户推出,但更广泛的访问权限还未完全开放。

申请地址:https://cosine.sh/register

创始团队:只有五人

提出 Genie 的创业公司 Cosine 由 Pullen、Sam Stenner 和 Yang Li 于 2022 年创立,其使命是通过应用人类推理的方式来解决复杂问题,从而突破 AI 的界限。显然,他们的努力是从软件工程开始。


其中,Yang Li 是一名华人,他硕士毕业于牛津大学,在 2021 年曾入选过福布斯 30 Under 30 欧洲区名单。

Cosine 已经从 Uphonest 和 SOMA Capital 筹集了 250 万美元的种子资金,Lakestar、Focal 等公司也参与其中。

团队规模虽小,但 Cosine 已经在 AI 领域取得了重大进展,而 Genie 只是一个开始。

「我们坚信能够为任何工作和行业构建起人类级别的推理能力,」Pullen 在公告文章中表示。「软件工程只是最直观的起点,我们很快将会展示出我们正在研究的其他一切。」

参考内容:
https://venturebeat.com/ai/4-considerations-to-help-organizations-implement-an-ai-code-of-conducts/
https://cosine.sh/blog/genie-technical-report
https://cosine.sh/blog/state-of-the-art


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


短期内,Genie这类AI程序员的出现可能会导致部分程序员失业。但从长期来看,它也会创造新的工作岗位,例如AI程序员的培训和维护工程师。

Genie的企业级定价较高,但考虑到它可以作为一个精通代码的AI同事,其价值可能远超其价格。

对于个人开发者和小团队来说,入门级选项的价格还是比较合理的。

不可否认,AI程序员在效率和精准度上可能远远高于人类程序员,但人类程序员在创造力和解决复杂问题的能力上仍然具有不可替代性。二者可能会形成相互补充的局面,而不是完全替代。

随着AI技术的不断发展,程序员需要不断提升自己的技能和知识,向更高层次转型,才能避免被AI取代。

这是一个伪命题。AI程序员和人类程序员的职责不同,AI程序员可以帮助人类程序员更高效地完成工作,但并不会完全取代他们。就像计算机没有取代人类一样,AI程序员也不会取代人类程序员。

对于初级或重复性任务,Genie这类AI程序员可能会取代一部分人类程序员。但对于需要创造力和解决复杂问题的高级任务,人类程序员仍将占据主导地位。

哈哈,程序员失业?除非人工智能统治世界!