OpenAI Sora发布时间定档，可能允许“裸体”内容出现

ai-front · 2024 年3 月 14 日 12:33

编译 | 核子可乐、Tina

OpenAI 公司首席技术官 Mira Murati 最近在接受《华尔街日报》采访时，透露 Sora 将于“今年”推出，“可能需要几个月”。

Murati 于 2018 年加入 OpenAI，担任应用人工智能与合作关系副总裁。彼时，OpenAI 的研究工作正处于快速发展阶段，巨额开支也逐渐超出其承受能力。2019 年，OpenAI 转型为盈利实体，但设置了盈利上限。

Murati 在 OpenAI 晋升迅速，先后担任产品与合作关系高级副总裁，以及首席技术官 (CTO)。在她担任 CTO 期间，OpenAI 发布了 DALL-E 2 和 ChatGPT 等备受瞩目的 AI 产品，引起了公众的广泛关注。

《华尔街日报》的这次采访广泛探讨了相关主题，包括 AI 引擎能够生成哪些内容类型、以及当前正在实施的安全措施。打击错误信息已经成为目前 OpenAI 公司的工作重点。Murati 表示，Sora 将设置多重安全护栏，以确保该项技术不会遭到滥用。她解释称，开发团队不希望发布“可能影响全球选举”的功能。报道指出，Sora 将遵循与 Dall-E 相同的提示词政策，即拒绝生成美国总统等“公众人物形象”。

Sora 的正式版本还将为输出添加水印。画面右下角将显示半透明的 OpenAI 标识，表示内容为 AI 生成产物。Murati 补充道，开发团队还考虑将内容来源作为另一项重要指标，即使用元数据来提供关于数字媒体的来源信息。这些努力当然都很好，但恐怕还远远不够。去年，一组研究人员已经成功打破了“现有图像水印保护”机制，其中也包括 OpenAI 的保护方案。希望这次开发团队能想出更加牢不可破的新办法。

更多生成功能

和传闻中生成视频需要数个小时的说法不同，现场展示 Sora 生成一段 20 秒长、720P 分辨率的视频，只用了几分钟。

另外，Sora 的运行成本要比 Dall-E“贵很多”。OpenAI 正在尝试使这个工具在公开发布时的成本与公司的 AI 文本到图片模型 DALL-E“相似”。

在聊起 Sora 的未来发展时，Murati 带来了不少有趣的消息。首先，开发团队计划“最终”为视频添加声音，以使其观感更加真实。编辑工具也在筹备当中，希望为在线创作者提供一种修复 AI 错误的良好方法。

尽管 Sora 已经相当先进，但它同样会经常犯错。采访中最突出的例子就是一段提示词，其要求引擎生成一段视频，内容是机器人从一名女性手中偷走相机。可结果恰恰相反，片段显示女子身体有一部分变成了机械结构。Murati 承认 Sora 仍有改进的空间，并表示 Sora AI“在连续性方面已经相当出色，但还不够完美”。

此外，展示裸体也被提上了议程。Murati 指出，OpenAI 正在与“艺术家们……共同探索”可以展示哪些裸体内容：“就像你可以想象的那样…… 艺术家们可能希望在创作过程中拥有更多的控制权。目前，我们正与来自不同领域的艺术家和创作者合作，共同探索最实用的功能，以及该工具应该提供怎样的灵活性水平。”

开发团队发现“艺术性”的裸体和严禁未经同意的 deepfakes 之间似乎并没有不可调和的矛盾。当然，OpenAI 肯定不希望被再次卷入的舆论讨伐的中心，他们的唯一目标是把自家产品打造成拓展创造力的平台。

测试仍在持续进行

在被问及 Sora 使用的训练数据时，Murati 的态度则有些躲闪。OpenAI 最近面临版权侵权诉讼，指控该 AI 公司在未经许可的情况下抓取内容来训练 ChatGPT。

她先是宣称，据她所知除了“公开可用的数据及许可数据”之外，应该没有使用其他数据来训练 AI。但 Murati 也承认，她并不确定有训练期间有没有使用过来自 YouTube、Facebook 或者 Instagram 的视频素材。而且她后来坦言，确实有使用 Shutterstock 的媒体内容进行训练。这里给大家提个醒，Shutterstock 与 OpenAI 之间属于合作伙伴关系，也许这就是 Murati 愿意确认这一素材来源的理由。

有网友评论说：“耐人寻味的是，当被问及他们训练数据来源时，Murati 的回答非常谨慎。她的肢体语言透露了很多信息，很明显他们使用了来自受版权保护来源的训练数据。多少有点「事后求原谅，而非事先请求许可」的意思。”

Sora 项目人员 Tim Brooks 在接受其他媒体采访时，也对“使用什么训练数据的问题”的问题避而不答：“这个不方便说太细，但大体上，包括公开数据及 OpenAI 的被授权数据。”

不过 Tim Brooks 在回答这个问题中，也额外分享了他们的通过海量视频数据进行训练的一个细节：“以前，不论图像还是视频模型，大家通常只在一个固定尺寸上进行训练。而我们使用了不同时长、比例和清晰度的视频，来训练 Sora。至于做法，我们把各种各样的图片和视频，不管是宽屏的、长条的、小片的、高清的还是低清的，我们都把它们分割成了一小块一小块的。接着，我们可以根据输入视频的大小，训练模型认识不同数量的小块。通过这种方式，我们的模型就能够更加灵活地学习各种数据，同时也能生成不同分辨率和尺寸的内容。”

Murati 承诺 Sora“肯定”会在今年年底前推出，但并没有给出确切日期，只表示应该会在未来几个月内发布。目前，开发团队仍在对引擎进行安全测试，希望找到任何“漏洞、偏见以及其他有害结果”。

如果大家想要第一时间体验 Sora，我们建议您首先学会使用编辑软件。毕竟需要牢记一点，Sora 会犯很多错误，哪怕在正式版发布后也不可能彻底避免。总之，让我们共同期待这位新秀的亮相演出！

参考链接：

https://www.wsj.com/tech/personal-tech/openai-cto-sora-generative-video-interview-b66320bb

https://archive.ph/D1pdw#selection-4625.38-4625.44

https://www.techradar.com/computing/artificial-intelligence/openais-sora-will-one-day-add-audio-editing-and-may-allow-nudity-in-content

https://www.reddit.com/r/OpenAI/comments/1bdta0a/mira_murati_says_openai_plans_to_release_sora/

内容推荐

OpenAI 的首个视频生成模型 Sora 发布，效果令人惊叹。作为技术人，除了看热闹，我们还要看门道；咱也不必跟着瞎焦虑，踏实下来研究些干货内容。看看郑建勋老师对 Sora 官方技术报告的深度解读，关注「AI前线」，回复「Sora」免费领取。

活动推荐

想要了解AI技术的最新演进与落地？微软技术专家的分享你不能错过！

3月29日（周五）13:00-17:00，Azure OpenAI Day武汉站即将落地！如果你对于Sora 、GPT-4 Vision、Azure OpenAI最新模型等时下热点感兴趣；如果你期待了解微软对于AI技术的解读与思考；如果你想收获一手AI技术的落地实践！欢迎报名此次活动，席位有限，抓紧扫码抢位！

今日荐文

你也「在看」吗？ 👇