根据 The Verge 报道,字节跳动内部文件证实“其基础 LLM 的开发依赖 OpenAI API 进行”。名为为“Project Seed”的项目报告称,几乎涵盖了模型训练、评估等开发的每个阶段。为此,OpenAI 暂停了字节跳动的帐户。
OpenAI 发言人表示,所有 API 客户都必须遵守“我们的使用政策,以确保我们的技术是用来做好事的。”
“虽然字节跳动对我们 API 的使用很少,但我们在进一步调查期间已暂停了他们的帐户。如果我们发现他们的使用不遵守这些政策,我们将要求他们进行必要的更改或终止他们的帐户。”据称,字节跳动使用 GPT 违反了微软和 OpenAI 的开发者许可。
根据 OpenAI 条款,客户不得“开发任何与我们的产品和服务竞争的人工智能模型”。用户也不能“使用 API 允许之外的任何方法从服务中提取数据”或应用程序编程接口,允许开发者使用 GPT 创建自己的应用程序。
The Verge 报道称,字节跳动意识到了这一点,但仍继续使用 API 来训练和比较其模型。The Verge 还表示,它看到了该公司指示员工使用“数据脱敏”来掩盖证据的内部通讯内容。
大约在字节跳动的聊天机器人豆包(Doubao)被国内监管机构批准使用时,公司指示员工停止使用该 API 来开发 Project Seed 项目。但 Verge 杂志报道称,该 API 仍被用于评估他们自己的聊天机器人的表现。据悉,豆包是字节在 8 月发布的首款 AI 对话产品,多家媒体评测结果显示,豆包的智能化水平在大模型 C 端助理类产品中不算突出。
对此,字节跳动相关负责人回应称,公司在使用 OpenAI 相关服务时,强调要遵守其使用条款。公司也正与 OpenAI 联系沟通,以澄清外部报道可能引发的误解。以下是字节跳动使用 OpenAI 服务相关情况的介绍:
今年年初,当技术团队刚开始进行大模型的初期探索时,有部分工程师将 GPT 的 API 服务应用于较小模型的实验性项目研究中。该模型仅为测试,没有计划上线,也从未对外使用。在 4 月公司引入 GPT API 调用规范检查后,这种做法已经停止。
早在今年 4 月,字节大模型团队已经提出了明确的内部要求,不得将 GPT 模型生成的数据添加到字节大模型的训练数据集,并培训工程师团队在使用 GPT 时遵守服务条款。
9 月,公司内部又进行了一轮检查,采取措施进一步保证对 GPT 的 API 调用符合规范要求。例如分批次抽样检测模型训练数据与 GPT 的相似度,避免数据标注人员私自使用 GPT。
未来几天里,字节会再次全面检查,以确保严格遵守相关服务的使用条款。
参考链接:
https://www.theverge.com/2023/12/15/24003151/bytedance-china-openai-microsoft-competitor-llm
https://www.businessinsider.com/bytedance-openai-tech-artificial-intelligence-tiktok-sam-altman-2023-12
《行知数字中国数字化转型案例集锦【第二期】》重磅发布,覆盖多个行业,对话一线专家,挖掘企业数字化的实践故事,揭秘数字化时代背景下如何重塑企业组织、技术与人才。扫描下方二维码,关注「InfoQ 数字化经纬」公众号,回复「行知数字中国」即可解锁全部内容。