GitHub Copilot 新规:默认使用个人代码训练 AI,开发者社区强烈反对

GitHub Copilot 新规:默认用个人代码训练 AI,用户需手动退出。隐私担忧引用户不满,考虑转投其他平台。

原文标题:用得越多、失业越快?GitHub 大改 Copilot 规则:默认拿个人代码训练 AI,还搬出 Anthropic 挡枪!

原文作者:AI前线

冷月清谈:

GitHub 宣布 Copilot 将默认使用 Free、Pro 和 Pro+ 用户的交互数据训练 AI 模型,用户需手动选择退出。可被用于训练的数据包括用户接受或修改后的输出内容、发送给 Copilot 的输入内容、光标位置周围的代码上下文、文件名、代码仓库结构以及导航模式等,但Business 和 Enterprise 客户的数据不会用于模型训练。GitHub 强调这是为了提升模型在更广泛场景中的表现,并称其他公司如微软、Anthropic 和 JetBrains 也在采取类似措施。然而,这一政策调整引发了用户对隐私和数据使用的担忧,许多用户表示不满,并考虑寻找替代方案。

怜星夜思:

1、这次 GitHub Copilot 默认开启用户数据训练,大家觉得最核心的争议点是什么?是侵犯隐私,还是对未来代码知识产权的影响?
2、GitHub 拿微软、Anthropic 和 JetBrains 当挡箭牌,说他们也在这样做。但这种“大家都在做”的说法,能说服你吗?
3、如果让你来设计一个更合理的 Copilot 数据使用策略,你会怎么做?

原文内容

整理 | 褚杏娟

当地时间 3 月 26 日,GitHub 宣布,自 4 月 24 日起,除非用户主动选择退出,Copilot Free、Pro 和 Pro+ 用户与 Copilot 的交互数据将被用于训练和改进其 AI 模型。此次调整不适用于 Copilot Business 和 Copilot Enterprise 用户。此外,免费获得 Copilot Pro 权限的学生和教师不受此次更新影响。

GitHub 强调用户仍然保有选择权。对于不希望参与训练的个人用户,可以在设置中的 “Privacy(隐私)”选项里手动退出。GitHub 强调会提前 30 天通知用户,并允许随时退出。不过,值得注意的是,Free、Pro 和 Pro+ 个人用户被默认纳入了训练范围,需要自行设置退出。

被吐槽很难找到的退出设置

被拿去训练模型的数据

根据 GitHub 的说明,可被用于模型训练的数据包括:

  • 用户接受或修改后的输出内容

  • 用户发送给 GitHub Copilot 的输入内容,包括展示给模型的代码片段

  • 用户光标位置周围的代码上下文

  • 用户编写的注释和文档

  • 文件名、代码仓库结构以及导航模式

  • 用户与 Copilot 功能的交互,包括 Chat 和行内建议

不过,GitHub 也划出了一些不会被纳入本次项目的数据范围:

  • 来自 Copilot Business、Copilot Enterprise 或企业拥有的代码仓库的交互数据

  • 在 Copilot 设置中选择退出模型训练的用户的交互数据

  • 静态存储的 issue、discussion 或私有仓库内容。

官方特意使用了“静态存储”这个说法,是因为当用户主动使用 Copilot 时,Copilot 确实会处理来自私有仓库的代码。这些交互数据是运行服务所必需的,并且除非选择退出,否则它们可能会被用于模型训练。

GitHub 明确表示,Business 和 Enterprise 客户的数据不会用于模型训练,原因是现有合同明确禁止这样做;如果某个 GitHub 账户属于付费组织,或者是付费组织的外部协作者,该账户的交互数据也会被排除在训练之外。对此,GitHub 的解释是,这是合同义务所决定的,并称自己对保护训练数据“很有信心”。

GitHub 对这项调整的解释是,Copilot 的使用量正在快速增长,模型需要更多“真实世界数据”来覆盖越来越多的编码场景。

GitHub 称,过去一年,其已经开始利用微软员工的交互数据训练模型,这一做法带来了明显改进,包括多种编程语言中的建议采纳率提升,“这证明了真实世界的交互数据确实能够提升模型在更广泛、更多样的使用场景中的表现。”

GitHub 强调,AI 辅助开发的未来赖于开发者提供的真实世界交互数据,因此除了微软员工数据之外,公司也将开始使用 GitHub 员工的交互数据来训练模型。”

数据共享方面,用于训练的数据可能会被 GitHub 和微软内部负责 AI 模型开发的人员访问,也可能交由签有合同限制的服务提供商代为处理,但不会卖给第三方,也不会提供给第三方模型厂商用于训练他们自己的模型。

GitHub:微软、Anthropic 和 JetBrains 也这样

GitHub 提到微软、Anthropic 和 JetBrains 也在采取类似措施,以说明自己并不是孤例。与此同时,GitHub 直接回应了一个尖锐问题:如果真实用户代码对模型这么重要,这是否意味着 GitHub 的竞争优势更多来自现有用户基础,而不是更好的研究?

对此,GitHub 的回答是,“目前已有 2600 万开发者 在使用 Copilot,这提供了极为丰富的使用场景和需求,因此公司希望通过用户自愿贡献的交互数据,让 Copilot 更好地覆盖多样化编码任务。”

除此之外,GitHub 还面临一个信任层面的老问题。GitHub 专门回应了外界对 Copilot Chat 暴露私有代码的担忧。GitHub 的说法是,外界提到的案例涉及第三方收集“曾短暂公开后又转为私有”的代码,不属于 GitHub 主动暴露数据的范畴;对于此次新计划收集的数据,公司会通过访问控制、审计日志和自动化过滤来保护,包括过滤 API key、密码、token 和个人身份信息。

GitHub 的回应,显然没有开发者买单。

有用户直言:“我真的非常讨厌这种做法。”






首先,它一上来就给出了具有误导性的“退出”操作说明。 如果我进入账户设置,再点 Copilot,实际上什么都不会发生,只是那个列表项展开而已。我根本没法像邮件里写的那样,在那里“选择是否允许将你的数据用于 AI 模型训练”。

其次,真正可以退出的设置项,文字表述和邮件里的说明也对不上。 所以他们就是在故意把人绕晕,赌很多用户根本找不到这个设置。更离谱的是,它还被放在设置页面最底部。

第三,我也不清楚,如果我的仓库里加了协作者,而他们没有选择退出,那我的代码会不会也被拿去用? 总之,这次政策调整烂透了。也许是时候看看别的 Git 平台了。我对 GitHub 也算有些经验,确实该试试别家了。这件事反而成了一个催化剂。

贪婪是没有尽头的。

而且这种事情本来就不该默认开启。 账户应该默认是退出状态,只有在你自己愿意的情况下,才主动打开。

除了退出设置的坑,还有用户陷入账户界定的迷茫中:

我有一个大约 20 人的组织。我们并没有在组织层级启用 Copilot;但当我进入 Security Code Quality 时,我却能使用 Copilot 来生成修复建议。而且正因为它没有被正式启用,所以那里也没有“退出”的选项。

所以我现在想知道,这个功能到底是来自我个人账号的 Copilot 免费版(因为它并没有在组织层面启用),还是说其实存在一个我没看到的、某种“隐藏的”组织级 Copilot 免费版。我只想弄清楚,我是不是需要去推动所有能访问这个组织的人都退出这次更新。

“这是我做过最快的退出操作。”“我正在认真考虑因为这件事关闭我的 GitHub 账号。”“如果有其他替代方案请告诉我,我实在受够了这种把消费者当成产品对待的做法。”这类声音充斥整个社区。

参考链接:

https://github.blog/news-insights/company-news/updates-to-github-copilot-interaction-data-usage-policy/

声明:本文为 InfoQ 整理,不代表平台观点,未经许可禁止转载。

会议推荐

OpenClaw 出圈,“养虾”潮狂热,开年 Agentic AI 这把火烧得不可谓不旺。在这一热潮下,自托管 Agent 形态迅速普及:多入口对话、持久记忆、Skills 工具链带来强大生产力。但这背后也暴露了工程化落地的真实难题——权限边界与隔离运行、Skills 供应链安全、可观测与可追溯、记忆分层与跨场景污染、以及如何把 Agent 纳入团队研发 / 运维流程并形成稳定收益。

针对这一系列挑战,在 4 月 16-18 日即将举办的 QCon 北京站上,我们特别策划了「OpenClaw 生态实践」专题,将聚焦一线实践与踩坑复盘,分享企业如何构建私有 Skills、制定安全护栏、搭建审计与回放机制、建立质量 / 效率指标体系,最终把自托管 Agent 从可用的 Demo 升级为可靠的生产系统。

今日荐文

图片
你也「在看」吗?👇

同意楼上的观点,默认开启数据收集太霸道了!想想看,如果你的代码里有一些敏感信息,或者你正在开发一些保密的项目,结果未经你允许就被拿去训练 AI 了,这得多让人担心啊!我觉得,必须要有明确的法律法规来约束这种行为,保护用户的数字权利。另外,开发者自己也要提高安全意识,避免在代码中泄露敏感信息。

我觉得这个问题不仅仅是选择哪个平台的问题,更重要的是要改变我们的开发习惯。比如,尽量不要在代码中存放敏感信息,定期检查代码仓库的安全性,使用加密技术保护数据等等。只有这样,才能从根本上保护我们的代码安全。当然,选择一个靠谱的平台也很重要,可以降低我们的风险。

我觉得这里面可能存在一些误解。企业用户和个人用户的数据价值是不一样的。企业用户的数据往往涉及到商业机密,一旦泄露可能会造成巨大的经济损失。而个人用户的数据,虽然也涉及到隐私,但其商业价值相对较低。因此,GitHub 更有动力保护企业用户的数据,因为这关系到它的声誉和收入。至于技术障碍,我觉得肯定存在,比如数据量的差异、数据类型的多样性等等。但是,只要 GitHub 真的想做,我相信这些障碍都是可以克服的。

从技术角度来说,我觉得保护个人用户的数据和保护企业用户的数据,原理上应该是相通的。GitHub 之所以能保证企业用户的数据不被使用,肯定是因为合同上有明确的约定,而且有相应的技术措施来隔离数据。那么,如果 GitHub 真的重视个人用户的隐私,完全可以采取类似的技术手段。也许,问题的关键不在于技术,而在于 GitHub 是否愿意投入足够的资源和精力。

我猜 GitHub 可能是想用一套模型同时服务企业和个人用户,这样可以降低成本。如果要把数据完全隔离,可能需要维护两套甚至多套模型,这在技术上和经济上都是一个挑战。当然,这只是我的猜测。也许 GitHub 应该更透明地公开它的技术架构和数据处理流程,这样才能消除用户的疑虑。

现在可选择的 Git 平台还是挺多的,比如 GitLab、Bitbucket 等等。GitLab 一直以来都比较注重开源和社区,在隐私保护方面也做得不错。Bitbucket 背靠 Atlassian,功能也比较完善。当然,还有一些更小众的平台,比如 Gitea、SourceHut 等等,它们更加强调自由和控制权。选择哪个平台,主要还是看个人的需求和偏好。

我觉得 GitHub 这次最大的问题在于,它默认用户参与数据收集,而不是默认退出。这种做法有点“先斩后奏”的味道,没有充分尊重用户的知情权和选择权。更好的做法应该是,默认退出,然后提供清晰、便捷的参与方式,让用户自主选择是否贡献数据。至于平衡,我觉得可以考虑一些技术手段,比如差分隐私,既能保护用户隐私,又能为 AI 提供有用的数据。

这个问题挺复杂的,一方面,AI 的进步确实需要大量数据,尤其是真实用户的使用数据,这样才能让 AI 更好地适应各种场景。另一方面,用户的数据隐私也必须得到保障。我觉得比较理想的方式是,用户完全知情并拥有控制权,可以选择是否贡献数据,以及贡献哪些数据。而且,数据的使用应该有明确的伦理规范,避免被滥用。

我比较关注数据隐私问题。虽然 GitHub 声明会保护用户数据,但谁知道会不会有“意外”发生?一旦数据泄露,后果不堪设想。而且,这种默认开启的模式,总感觉有点强迫的意思。用户应该有充分的知情权和选择权,而不是被动接受。如果 GitHub 能够更透明地说明数据的使用方式,并提供更便捷的退出机制,或许能赢得更多用户的理解和支持。

我觉得这事儿得分两头看。从好的方面说,更多真实代码参与训练,AI 可能会更智能,帮开发者解决更多实际问题。但要说弊端,那也很明显,大家的代码被拿去训练 AI,心里肯定会嘀咕自己的劳动成果是不是被“白嫖”了。万一 AI 训练出来的东西跟自己的代码太像,版权问题就说不清了。开源社区的核心是信任和共享,GitHub 这么一搞,可能会让一些开发者觉得自己的贡献没得到应有的尊重,积极性受挫。

我会选择退出。原因很简单,我的代码是我辛辛苦苦写的,我希望自己能够掌控它的用途。虽然 GitHub 承诺会保护数据安全,但我还是担心自己的代码会被滥用。另外,我也不想成为 GitHub 商业化的“小白鼠”。

我觉得不太合理。虽然AI训练需要更多数据,但不应该以牺牲用户权益为代价。默认加入就像是未经同意就拿走了你的东西,然后告诉你“你可以选择要回来”。如果让我选,我会选择默认退出,除非GitHub能提供更透明的数据使用承诺和更完善的隐私保护机制。

这属于典型的“集体责任”的逻辑谬误。即使微软、Anthropic、JetBrains 都这么做,也无法证明这种行为本身是合理的。更何况,用户协议这种东西,普通人很少会仔细去看,大厂稍微玩点文字游戏,用户就很被动。

从法律角度看,这种默认加入的做法可能存在争议。GDPR、CCPA 等隐私法案都强调用户对个人数据拥有控制权。即使GitHub声明会保护数据安全,但用户依然有权利选择是否参与。我个人会选择默认退出,数据安全第一!