OpenAI发布Sora 2并推出同名iOS应用,探索视频生成与社交新模式

Sora 2震撼发布,OpenAI视频生成迈入GPT-3.5时刻,App已上线并强化物理真实与防沉迷。

原文标题:Sora 2深夜来袭,OpenAI直接推出App,视频ChatGPT时刻到了

原文作者:机器之心

冷月清谈:

OpenAI出乎意料地发布了Sora 2,并将其产品化为一款名为“Sora”的iOS应用,旨在将视频生成带入“GPT-3.5时刻”。Sora 2在技术层面实现了多项突破,包括显著提升了物理准确性、视频真实感以及内容可控性。它能够模拟复杂的物理动态,例如篮球投篮不中后的真实反弹,而非像早期模型那样随意扭曲现实。模型还具备同步生成对话和音效的能力,并支持注入真实世界的元素(如用户本人)进行创作。
其核心亮点之一是推出的iOS社交应用“Sora”,内置了“客串(cameos)”功能,允许用户将自己的形象和声音融入Sora生成的任何场景中,并且用户拥有对自己肖像的完全控制权。 这款应用被OpenAI视为体验Sora 2魅力的最佳方式,并强调其社交互动属性。
OpenAI在产品设计上特别关注用户健康与安全,开发了新型推荐算法,通过自然语言指令控制内容流向,并内置了健康询问机制,以解决视频成瘾和信息茧房等问题。OpenAI表示,他们将Sora设计为一个优先促进创作而非消费的平台。 目前Sora iOS应用已在美国和加拿大免费提供,ChatGPT Pro用户可体验更高质量的Pro模型,并且未来计划通过API开放。 尽管Sora 2并非完美,但OpenAI认为其证明了通过扩大视频数据上的神经网络规模,能更接近于模拟现实世界。

怜星夜思:

1、Sora App的“客串”功能听起来很酷,能把自己加到任何视频里。大家觉得这个功能未来会有哪些意想不到的应用?或者说,它会不会带来一些新的隐私或肖像权问题呢?毕竟AI生成内容嘛,万一被滥用怎么办?
2、OpenAI说他们的推荐算法是特意防沉迷的,和TikTok那种不一样,更侧重创作。你们觉得这套机制真的有效吗?在商业模式上,跟追求用户时长的平台相比,这种“反主流”做法能走多远?
3、文章里说Sora 2达到了“视频领域的GPT-3.5时刻”,体验过的网友称这是“媒体、电影和娱乐的新时代”。大家觉得Sora 2的出现,会对我们现有的影视制作、广告创意甚至个人内容创作带来哪些颠覆性的改变?我们是不是要做好准备迎接更多“AI导演”和“AI演员”了?

原文内容

机器之心报道

机器之心编辑部


没想到吧,在别家节前卷大模型时,OpenAI 悄悄发布了 Sora2



而且,这次是直接产品化,推出了 App,甚至还有配套的视频推送算法,声称可以防成瘾。这是要做自己的 TikTok?  



据介绍,Sora 在物理准确性、真实感和可控性方面都优于以往的系统。


另外,就是它还具备同步的对话和音效能力。


Altman 称之为 ChatGPT for creativity 时刻。



在介绍文章中,OpenAI 更是直言 Sora2 直接进入了视频领域的 GPT 3.5 时刻,也就是当时的 ChatGPT 时刻。



如此看来,OpenAI对Sora2的技术能力与产品体验都极为满意。


我们也搞到了邀请码,在后续文章中将体验一波。海外已经体验上的网友称,这就是媒体、电影和娱乐的新时代。



接下来就让我们先看下Sora2的官方效果吧。



Sora来了


2024 年 2 月发布的初代 Sora 模型,在很多方面都堪称视频领域的 GPT-1 时刻 —— 这是视频生成首次让人觉得开始行得通,像物体恒存性这样的简单行为,也随着预训练计算量的提升而出现。从那以后,Sora 团队一直专注于训练具备更先进世界模拟能力的模型。OpenAI 认为,此类系统对于训练能深度理解物理世界的 AI 模型至关重要。实现这一目标的一个重要里程碑,是掌握大规模视频数据的预训练和后训练技术,与语言领域相比,这些技术在视频领域尚处于起步阶段。 



OpenAI 表示,有了 Sora 2,他们直接进入可能是视频领域的 GPT-3.5 时刻。Sora 2 能做到一些对于之前的视频生成模型来说极其困难,甚至在某些情况下完全不可能做到的事情:比如呈现奥运体操动作、在桨板上完成后空翻,精确模拟浮力和刚性的动态变化,以及在小猫紧紧抓着的情况下完成三周半跳。 



此前的视频模型过于乐观 —— 它们会扭曲物体并改变现实,以成功满足文本提示。例如,如果一名篮球运动员投篮未中,球可能会自发地瞬移到篮筐处。在 Sora 2 中,如果一名篮球运动员投篮未中,球会从篮板上反弹回来。有趣的是,该模型所犯的「错误」往往似乎是 Sora 2 隐含模拟的内部主体所犯的错误;尽管仍不完美,但与之前的系统相比,它在遵守物理定律方面表现得更好。对于任何有用的世界模拟器来说,这都是一项极其重要的能力 —— 你必须能够模拟失败,而不仅仅是成功。 


该模型在可控性方面也取得了重大飞跃,能够遵循复杂的多镜头指令,同时准确保持世界状态。它擅长写实、电影和动漫风格。



作为一个通用的视频音频生成系统,它能够以高度的真实感创建复杂的背景音、语音和音效。



你也可以直接将现实世界的元素注入到 Sora 2 中。例如,通过观看 OpenAI 一些员工的视频,该模型可以将他们插入到 Sora 生成的任何环境中,并准确呈现其外貌和声音。这种能力非常通用,适用于任何人、动物或物体。



该模型远非完美,会犯很多错误,但它证明了在视频数据上进一步 scale 神经网络规模将使我们更接近模拟现实。


Sora APP已上线


OpenAI 表示,几个月前,Sora 团队首次尝试了「上传你自己」的功能,大家都玩得很开心。这感觉就像是一种自然而然的交流演变 —— 从短信到表情符号,再到语音消息,直至发展到如今这个样子。 



所以今天,他们推出了一款全新的 iOS 社交应用,名为「Sora」,由 Sora 2 提供支持。在这款应用中,你可以创作作品、基于他人作品进行二创,在可定制的 Sora 信息流中发现新视频,还可以通过「客串(cameos)」功能让自己或朋友出镜。通过「客串」功能,在应用中进行一次简短的视频和音频录制以验证身份并捕捉外貌后,你就能以极高的逼真度直接融入任何 Sora 场景。 


在「客串」功能中,你可以完全掌控自己的形象使用权:只有你能决定谁可使用你的 cameo,你可随时撤销权限或删除含有你 cameo 的视频,且无论视频是否被他人保存为草稿,你都能随时查看。


上周,OpenAI 在内部向全体员工推出了这款应用程序。有些人表示,因为这个功能,他们在公司结识了新朋友。OpenAI 认为,围绕这个「客串」功能打造的社交应用程序,是体验 Sora 2 魅力的最佳方式。


除了视频生成,OpenAI 还做了推荐算法


对刷视频停不下来、成瘾、孤立以及强化学习优化的推送内容的担忧是 OpenAI 首要关注点。以下是他们针对这些问题正在采取的措施。


他们为用户提供工具和选择,让他们能够掌控在动态消息中看到的内容。利用 OpenAI 现有的大语言模型,他们开发了一类新的推荐算法,这些算法可以通过自然语言进行指令设定。他们还内置了相关机制,定期向用户询问他们的身心健康状况,并主动为他们提供调整动态消息的选项。 


默认情况下,OpenAI 向你展示的内容会严重偏向于你关注或互动的人,并优先展示模型认为你最有可能用作自己创作灵感的视频。OpenAI 表示,他们并非针对用户在视频中花费的时间进行优化,而且他们明确将应用程序设计为最大限度地促进创作,而非消费。详情参见:https://openai.com/index/sora-feed-philosophy/


OpenAI 表示,他们通过这款应用解决了许多安全问题,包括使用肖像的许可、来源出处、防止生成有害内容等等。更多详情,可以参见《Sora 2 安全文档》:https://openai.com/index/launching-sora-responsibly/。


OpenAI 认为,与现有的平台相比,Sora 将是一个更有利于娱乐与创意发展的平台,是更有利于娱乐与创意发展的平台。


可用性以及接下来的安排


Sora iOS APP 现已可供下载(美国和加拿大用户),最初免费,初始算力限制较为宽松。ChatGPT Pro 用户还可以在 sora.com 中使用实验性的、更高质量的 Sora 2 Pro 模型。OpenAI 还计划在 API 中发布 Sora 2。



参考链接:https://openai.com/index/sora-2/



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我倒觉得这在广告和营销领域会是爆炸性的。想象一下,你喜欢的明星给你录的专属广告语,或者你可以把自己“客串”到某个产品体验视频里,那种沉浸感和个性化体验是前所未有的。但是,这也会让品牌方和内容创作者面临新的挑战,比如如何确保内容的真实性和可信度,以及如何防止消费者对这种“超个性化”内容产生抵触心理。至于隐私,我觉得关键在于平台如何执行他们承诺的控制权,以及在发生侵权时如何追责。

关于Sora 2对行业的影响,我真是激动人心!我觉得影视制作的门槛会大大降低,独立电影人、短视频创作者有机会用极低的成本拍出高质量的视觉效果。原来需要昂贵特效团队的场景,Sora 2可能几句话就搞定了。广告行业肯定也要天翻地覆,个性化定制广告视频不再是梦想。以后也许真的没有“演员”了,只有“AI模型”,导演负责“描述”就好了!不过,这也会让很多传统从业者面临转型压力。

虽然技术很强,但艺术的灵魂在于创意和情感表达。Sora 2能生成物理真实的画面,但这是否等同于艺术的真实和深度?电影不仅仅是视觉的堆砌,更是导演的叙事,演员的表演,摄影师的构图,这些人工带来的细微之处和“不完美”才是作品的魅力。AI可能会成为强大的工具,但要完全取代人类导演和演员,我个人觉得还有很长的路要走。至少现在,AI还没法真正“感受”和“表达”情感。

说实话,OpenAI这套防沉迷算法我有点怀疑。毕竟推荐算法的核心目标是提高用户粘性,哪怕是为了创作。用户花时间在上面,哪怕是创作,也算是“粘性”的一种。而且,如果真的一点不追求用户时长,那商业模式怎么跑得起来?广告?订阅?会不会最终还是走上妥协之路,只是换个更隐晦的方式来“推荐”让你多玩?毕竟,反人性的东西,在商业上总是很难持久的。

这其实是个挺有趣的心理学实验。平台通常通过强化学习优化机制,不断刺激用户分泌多巴胺,形成上瘾回路。Sora 2强调创作而非消费,试图改变这一范式。其成功与否,可能取决于两点:一是它提供的创作乐趣能否持续超越纯粹消费的快感;二是这种“主动式”的防沉迷干预(如健康询问)是否会使用户感到被打扰,从而流失。如果能找到一个平衡点,让用户在享受创作的同时,获得健康的数字体验,那这无疑是视频社交平台发展的一个重要里程碑。

“客串”功能?哈哈哈,以后是不是可以把自己的脸P到任何电影片段里,直接体验当奥特曼打怪兽的感觉了?或者给朋友生日祝福的时候,直接让“他自己”在视频里跳段舞。不过,玩归玩,闹归闹,要是有人拿我的脸去生成一些不健康的或者虚假新闻的视频,那可就太可怕了。OpenAI虽然说有控制权,但技术更新这么快,真不好说。

关于OpenAI的防沉迷推荐算法,我觉得这很棒啊,大公司能有社会责任感,敢于挑战现有平台的“时长至上”模式,是值得鼓励的。如果真的能通过自然语言指令来调整推荐内容,甚至主动询问用户健康状况,这是一种全新的交互模式,把掌控权交还给用户。这不仅仅是技术创新,更是对数字伦理的积极探索。长远来看,一个健康、积极的平台更容易获得用户的信任和忠诚,这本身就是一种商业成功。

关于Sora App的“客串”功能,确实触及到了AI伦理和数字身份的深层议题。从积极方面看,它能极大地降低内容创作门槛,赋能普通用户进行个性化表达,甚至在教育、虚拟旅游等方面有巨大潜力。但从负面来看,肖像权滥用、深度伪造(deepfake)的风险骤增,即使Sora 2当前有严格的许可验证机制,也难以完全杜绝恶意行为。未来需要更完善的法律法规、技术鉴别手段和公众教育来共同应对这类挑战,形成技术发展与伦理规范的良性互动。

我认为Sora 2最大的影响是效率提升和成本优化。对于预可视化(pre-visualization)、概念设计、后期制作中的参考素材生成,它能大大加快流程。比如,拍一个科幻片,导演可以很快地用AI生成不同场景的概念视频,让团队对效果有更直观的理解。此外,在教育、培训、虚拟现实内容制作方面,它也能提供海量的、定制化的视觉素材。至于“AI导演”和“AI演员”,短期内更多是作为辅助工具,帮助人类创作者把脑海中的想法更快地具现化。长期来看,肯定会改变行业结构,但艺术的本质不会变。