AI 编程新思路:蔻町智能的 Copilot 模式反思与 L3 路线选择

蔻町智能创始人宿文对 AI 编程提出新思路:大模型远未成熟,网络结构创新是关键;不避开大厂赛道,解决更复杂问题;个性化市场将爆发,L3 路线是蓝海。

原文标题:AI 编程十字路口:为什么说 Copilot 模式是创业陷阱?

原文作者:机器之心

冷月清谈:

蔻町智能创始人宿文对当前 AI 编程赛道提出了三个与主流观点不同的看法。首先,他认为大模型技术仍处于早期阶段,网络结构的创新是关键,蔻町智能通过迭代 MoE 架构,采用 PLE 架构来提升模型效率。其次,他认为创业公司不应避免与大厂竞争,而应在同一领域解决更深入的问题,蔻町智能选择通过底层技术创新,实现真正的 "All-in-one"。最后,他认为个性化应用市场即将爆发,新增需求将远超存量替代,因此蔻町智能选择 L3 的 Autopilot 路线,直接生成端到端软件,赋能更广泛的用户群体。宿文认为 L2 无法自然演进到 L3,坚持 L3 能够开辟新的增量市场,如同滴滴和美团激发了网约车和外卖市场一样。他相信随着软件生成成本降低,迭代和试错将更加自由,软件创造权力将得到彻底平权。

怜星夜思:

1、文章中提到蔻町智能选择自研基座模型,并在网络结构上进行创新,采用了PLE架构。那么,对于其他创业公司来说,自研基座模型是否是AI编程领域突围的必经之路?或者说,在应用层进行创新是否还有其他有效的出路?
2、文章中宿文提到 L2(Copilot)无法自然演进到 L3(Autopilot),两者需要解决的技术问题、优化的方向基本上没有大的重合。你是否认同这个观点?你认为 Copilot 模式的局限性在哪里?
3、文章中宿文认为个性化应用市场即将爆发,新增需求远超存量替代。你认为 AI 编程在哪些领域最有可能率先引爆个性化应用的需求?对于普通用户来说,AI 编程可能带来哪些改变?

原文内容

机器之心原创

作者:闻菲

当整个人工智能行业都在为「如何给程序员打造更快的马」而疯狂投入时,一支特立独行的团队选择「直接去造汽车」。


「大模型的发展,更像一场篮球比赛才刚刚打完第一节。所有人都在用第一节的比分去判断整场比赛的胜负,但我们认为,还有第二、三、四节要打。」蔻町智能(AIGCode)创始人兼 CEO 宿文用这样一个比喻,为当前略显拥挤的 AI 编程赛道,提供了一个不同的观察视角。


自 2022 年底 ChatGPT 引爆全球以来,AI 编程被普遍认为是大语言模型最快、最确定能实现严肃商业化(PMF)的一个赛道。从 GitHub Copilot 的成功,到科技大厂和创业公司纷纷推出自己的编程助手,行业似乎已经形成一种共识:AI 是程序员的「副驾驶」,其核心价值在于提升代码编写效率。


然而,宿文和他的蔻町智能,正试图证明这是对终局的误判。在与机器之心的最近一次访谈中,宿文拆解了他对 AI 编程的三大「非共识」判断。



非共识一:基座模型仍处「婴幼儿期」

网络结构创新是破局关键


在许多人眼中,大模型的基座之战似乎已尘埃落定。后来者尤其是创业公司,只能在应用层寻找机会。宿文对此的看法截然不同:「我们认为大模型技术,或者说基座模型的发展,还处于婴幼儿时期。」


他指出,现有以 Transformer 为基础的模型架构,在学习机制和知识压缩效率上存在根本性问题。「尽管 MoE 通过专家分工解决了部分计算效率问题,但其专家之间是 “扁平” 且缺乏协作的,整体上仍是一个依靠简单路由机制的 “黑盒”。」


蔻町智能从成立第一天起,就选择自研基座模型。他们的破局点,正是在于对模型网络结构的持续迭代和创新。「我们在 MoE 的基础上,继续向后迭代,最终采用了在推荐搜索领域已经非常成熟的 PLE(Progressive Layered Extraction)架构。」


他解释道,从 MoE 到 MMoE,解决的是专家的解耦问题;再到 PLE,则进一步解决了专家解耦后可能产生的冲突和信息损耗问题,实现了对任务共性与个性的精细化提取。


多任务学习(Multi-task Learning)网络结构的演进,从简单的底层共享(Shared-Bottom),发展到通过门控专家网络(MMoE、CGC)与渐进式分层提取(PLE),以实现更精细地分离与融合任务的共性与个性信息。图片来源:Gabriel Moreira@ Medium


宿文表示,网络结构创新使他们的模型在知识压缩和长逻辑链条的理解上,具备了与主流模型不同的潜力。


蔻町智能研发的新模型 AIGCoder 架构图,通过解耦的专家模块(De-coupled Experts)改良传统模型,利用多头专家感知注意力(MHEA)负责动态激活专家,定制化门控(CGC)负责精细整合信息,实现了在不增加计算开销的前提下,通过架构创新应对大模型扩展时遇到的瓶颈。

实验数据显示,无论是单个关键模块(左)还是整合后的完整架构(右),AIGCoder(橙色曲线)的训练效率均比基线模型(蓝色曲线)提升超过 1.3 倍。



非共识二:「避开大厂赛道」是个伪命题


在 AI 领域,创业者常常听到一句劝诫——不要做大厂发展道路上的业务,否则会被轻易碾压。


宿文却认为这是个伪命题。「如果真的是一件大事,为什么大厂会不做?更精准的说法应该是,“避免去摘低垂的果实”。」


「真正的护城河,不在于选择一个大厂看不上的 “缝隙市场”,而是在同一个领域里,解决比大厂更复杂、更深入的问题。」


「现在的许多 Coding 产品用工程化的方式集成各种 API,生成一个前端尚可的 Demo,这就是 “低垂的果实”。蔻町智能的策略,是通过底层技术创新,实现真正的 “All-in-one”。」


这种一体化的思路,也体现在宿文对 Agent 发展的看法上。他表示当前行业习惯性地将技术栈划分为 Infra、基座、OS、Agent 等层次,「这很像是对上一代 PC 互联网和移动互联网的技术架构的简单映射,这样 “刻舟求剑” 式的对新技术做定义意义不大。」


他强调,在新范式下,各个技术环节是深度耦合的。「奔着解决问题的角度,我们就把它一体化地解决。在最终效果没有出来之前,过早分工反而不利于提效。」


蔻町智能把 AI for Coding 划分为 L1 到 L5 五个阶段:


  • L1:类似低代码平台,目前不是主流;

  • L2:Copilot 产品,辅助程序员,根据提示生成代码,代表产品有 GitHub Copilot、Cursor;

  • L3:Autopilot 产品,能端到端地完成编程任务,不需要程序员介入;

  • L4:多端自动协作,让多个协作用户能直接把软件创意变成某个完整的产品;

  • L5:能够自动迭代,升级为成熟的软件产品。


宿文表示:「目前大部分 AI Coding 产品集中在 L2 阶段,而 AutoCoder 从一开始就定位在 L3。」


从 L2 到 L3,并非简单的量变。「将编程助手做到极致,并不会自然而然地通向端到端软件生成。」两者需要解决的技术问题、优化的方向,基本上没有大的重合:前者(Copilot)优化的是「写代码效率」,核心是上下文理解与精准补全;后者(Autopilot)解决「不写代码」的问题,核心是对复杂业务逻辑的理解、拆解与长逻辑链条的生成。


此外,L2 需要与 IDE(集成开发环节)深度融合,对大厂俩说有天然优势,对创业公司而言,则可能是一条事倍功半的险路。


非共识三:个性化应用市场即将爆发,

新增需求远超存量替代


坚持 L3 不仅是技术上的选择,也是宿文和他的团队对市场未来的判断。尽管行业普遍认同 AI 编程的终极目标在于赋能每一个人,但在实现路径上,由于 AI 技术瓶颈与普通用户相关知识的缺失,主流看法认为,当下最现实的路径,是先辅助程序员,解决存量市场的效率问题。


宿文则认为这恰恰是一种「战略绕行」,因为 L2 无法自然演进到 L3,所以沿着 L2 走,不仅无法抵达终点,更可能错失真正的蓝海——那个被现有开发模式压抑的、由海量个性化需求构成的增量市场。


「新增的需求远远大于存量的替代。程序员不会消失,但一个全新的、数倍于现有规模的市场会爆发。」


「很像是有了滴滴才有了网约车市场,有了美团才有了外卖市场,」他类比说:「以前人们打车、点外卖的大量潜在需求被高昂的成本和复杂的流程所压抑,一旦有了低成本、高效率的供给方式,市场便会迎来爆发式增长。」


在软件开发领域,对于大量的中小企业、创业者,甚至大企业的业务部门而言,都存在被压抑的需求。宿文举例,一个业务部门想为内部开发一套培训系统,传统模式下,从漫长的需求沟通、高昂的开发投入,到最终交付物偏离预期的风险,整个过程动辄数月,且试错成本极高。


蔻町智能希望将这个流程重塑为:「只要上午能明确定义需求,下午就能看到一个可直接上线部署的产品。」


蔻町智能最新发布的端到端软件生成产品 AutoCoder,定位「全球首款前后端一体化的应用与软件完整生成平台」,能够同时生成高度可用的前端、数据库和后端。例如,用户输入「帮我生成一个科技公司官网」,平台不仅生成用户可见的前台页面,也同步生成供企业员工管理网站内容和用户数据的后台系统。


AutoCoder 的受众不仅包括产品经理、设计师等专业人士(Prosumer),更涵盖了大量非技术背景的个人从业者、小型企业主(如咖啡店、健身房)、初创团队的非技术创始人等。这些人有明确的数字化需求,但被传统开发的高门槛挡在门外。


宿文引用了一个数据:海外一家类似理念的公司,其产品的月度访问量,在短时间内已经达到了发展近 20 年的 GitHub 的十分之一,并且 GitHub 的数据本身并未下滑。这意味着一个新的、增量用户的市场正在被激发。


当然,L3 这条路最直接的质疑就是——端到端生成的软件出了 Bug 怎么办?宿文的回应是:


「与其花费数小时去寻找一个 Bug,为什么不花几分钟重新生成一个正确的版本呢?」随着软件生成的边际成本趋近于零,迭代和试错的自由度将被前所未有地释放。


结语


自研基座模型,选择更难的端到端路径,瞄准被压抑的增量需求——这三个非共识但逻辑自洽的判断,构成了蔻町智能的核心战略和发展路径。


当然,选择一条少有人走的路,必然伴随着质疑和不确定性。正如汽车在诞生之初,远没有马车跑得快,甚至开几公里就散架。蔻町智能的「汽车」能否在性能、稳定性和可靠性上,快速迭代到可以与成熟的「马车体系」相抗衡甚至超越的阶段,仍需时间和市场的检验。


但毫无疑问,这场关于 AI 编程的篮球赛才刚刚开始。一个挑战者已经选择用自己的方式,去打一场完全不同的比赛。从用户的角度,我们也乐于期待一个软件创造权力被彻底平权的未来。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

我觉得自研基座模型不一定是必经之路,得看公司的资源和战略。如果资金和人才储备充足,自研当然能掌握核心竞争力。但如果资源有限,可以考虑在现有模型的基础上做微调和优化,或者专注于特定领域的应用开发,比如针对教育、医疗等垂直领域提供AI编程解决方案,也能闯出一片天。

不完全同意。我认为Copilot模式是Autopilot模式的基础。Copilot的不断进化可以积累大量数据和经验,这些数据和经验可以用于训练更强大的Autopilot模型。当然,要实现真正的Autopilot,还需要突破很多技术瓶颈,比如如何理解自然语言的需求描述、如何进行合理的任务分解、如何保证生成的代码的质量等等。

从长期来看,拥有自己的基座模型肯定更有优势,尤其是在数据安全和模型定制化方面。但是,短期内如果想快速进入市场,利用现有资源进行应用层创新可能更务实。关键是要找到自己的差异化竞争点,比如更懂行业Know-How,做更贴近用户需求的AI编程工具。

感觉宿文说得很实在。Copilot再智能,也只是个辅助工具,没法帮你搞定整个项目。它就像一个很厉害的助手,但最终决策还得你自己来。而Autopilot的目标是让你彻底解放双手,但这需要AI能够像人一样思考、理解和创造,难度可想而知。所以,从Copilot到Autopilot,不只是量的积累,更是质的飞跃。

我觉得在电商、教育、本地生活服务等领域,AI 编程最有可能率先引爆个性化应用的需求。比如,电商卖家可以利用 AI 快速搭建个性化的店铺页面和营销活动;老师可以利用 AI 快速生成定制化的教学课件和练习题;小商家可以利用 AI 快速创建一个简单的在线预订系统。对于普通用户来说,AI 编程可以降低开发门槛,让每个人都能轻松地创建自己的应用,实现自己的想法。

个性化应用感觉在内容创作领域会很有潜力!现在自媒体这么火,每个人都想打造自己的IP。如果AI能帮忙快速生成各种风格的短视频、文章、海报,那肯定能吸引一大批用户。再比如,游戏MOD制作,以前需要专业的编程知识,以后可能只需要用AI描述一下想法,就能自动生成各种MOD,想想就觉得很酷!

我更关注AI编程对教育的改变。以后孩子们学习编程,可能不再是死记硬背语法,而是学习如何与AI协作,用自然语言描述自己的想法,让AI来生成代码。这就像学习绘画一样,不再需要掌握复杂的技巧,而是专注于表达自己的创意。AI编程可以让编程教育更加普及,培养孩子们的创造力和解决问题的能力。

同意楼上的观点,感觉这就像是芯片行业的“造不如买,买不如租”的讨论。如果能找到合适的开源模型或者API,并通过巧妙的集成和创新来满足市场需求,也是一种可行的策略。毕竟,不是所有公司都有能力和必要从头造轮子的。更何况,现在大模型的迭代速度这么快,说不定刚搞出来一个,就被新的模型给超越了。

我很认同宿文的观点。Copilot 模式主要解决的是代码编写效率的问题,它更像是一个智能的代码提示器。而 Autopilot 模式则需要理解复杂的业务逻辑,进行任务拆解和代码生成,这需要更高的认知能力和推理能力,两者之间存在本质的差异。
Copilot 模式的局限性在于它仍然需要程序员主导整个编程过程,无法真正实现端到端的自动化。