华为天才少年创业:Xmax AI推出全球首个虚实融合实时交互视频模型X1

Xmax AI 发布 X1 模型,首个虚实融合实时交互视频,通过手势互动,让虚拟角色融入现实,开启AI互动新纪元。#虚实融合 #AI互动

原文标题:童年的滚球兽「走进」现实?华为天才少年创业,全球首个虚实融合的实时交互视频模型来了

原文作者:机器之心

冷月清谈:

Xmax AI 推出全球首个虚实融合的实时交互视频模型 X1,旨在打破虚拟与现实的壁垒,让用户通过简单的手势和触控与 AI 生成的内容进行实时互动。X1 模型拥有四大核心玩法:次元互动(将虚拟角色融入现实场景)、世界滤镜(实时转换视频风格)、触控动图(赋予静态照片生命力)、表情捕手(实时生成动态表情包)。这些功能的实现依赖于 Xmax AI 在极致实时性、意图理解和数据稀缺性等方面取得的技术突破,通过端到端的流式重渲染视频模型架构、统一的交互模型架构以及虚实融合数据的合成管线,Xmax AI 致力于搭建下一代内容交互引擎,重新定义用户与 AI 生成内容之间的个性化交互方式,让幻想走进现实,融入人们的日常生活。

怜星夜思:

1、X1 模型的核心优势在于“虚实融合 + 实时交互”,你认为这种模式在哪些场景下具有更大的应用潜力?除了文中所提到的娱乐互动,还能想到哪些创新应用?
2、文章提到 Xmax AI 团队解决了 AI 行业的三大痛点:极致实时、意图理解和数据稀缺。你认为哪个痛点是 X1 模型成功的关键?为什么?
3、Xmax AI 的愿景是让“万物可交互”,并最终实现虚实融合的“数字生命体”。你认为这个愿景面临的最大挑战是什么?在技术、伦理和社会层面又会带来哪些影响?

原文内容

图片
编辑|Youli

还记得童年的那个愿望吗?


随着《数码宝贝》进化曲的响起,屏幕前的你我或许都曾幻想过:要是那只从数码蛋中破壳而出的滚球兽,真的可以从电视屏幕那端跳出来,就好了。



彼时,我们只能将这种天马行空的「美梦」寄希望于「次元裂缝」的开启。再后来,技术增强现实(AR)技术曾一度带来了希望,但几经潮起潮落,结果仍停留在「预先制作的内容叠加」层面,数字角色无法真正感知环境。


而现在已经 2026 年了,生成式 AI、实时渲染、端侧算力、感知模型同时成熟,尤其是 Sora 展现出的前所未有的世界模拟能力,让大家意识到,原来虚拟内容不再需要完全预制,可以被实时生成、驱动,并具有物理合理性。技术的狂奔第一次让曾经的「中二梦」,具备了成为现实的可能:你真的可以从屏幕中「召唤」出一只滚球兽。



是不是很神奇?手机镜头对准桌面,选取一张滚球兽照片,下一秒,一只滚球兽就「脱屏而出」,出现在桌面上,四处张望。你伸出手,它刚开始会有点警惕,之后就亲昵地蹭你的手心,你轻轻一捏,它会给出Q弹的物理反馈,而当你把手摊开,它甚至可以被你「托」在掌心之中,就好像,这是一只「活」的滚球兽…… 通过一个手机摄像头,虚拟角色第一次实现了与现实世界的融合。


这就是由初创公司 Xmax AI 推出的首个虚实融合的实时交互视频模型 X1,没有复杂的 Prompt,不需要漫长的渲染等待,只需要手势进行交互,就可以让虚拟世界与现实相连,在镜头中令「幻想」成真,让用户体验到实时交互的心流体验。



目前,Xmax AI 已通过一款技术演示型应用 X-cam(目前开放 testflight 下载),将 X1 的能力开放给部分用户体验,感兴趣的朋友可以通过文末提到的方式获取邀请码,近距离体验一下技术的边界。


「虚实融合 + 实时交互」,视频生成进入「人人可玩」时代


过去这一年多,AI 视频生成领域可以说是遍地开花、神仙打架。


数据显示,2024 年全球 AI 视频生成市场规模已达 6.148 亿美元,预计到 2032 年将飙升至 25.629 亿美元。在市场的强需求推动下,从 Sora 到 Runway,各路玩家都在沿着「更强的生成能力」方向极力狂奔:卷画质、卷时长、卷分辨率…… 


仔细看下来,整个赛道,大多数玩家选择的技术路线依然是文生视频,致力于面向专业领域的创作者 —— 影视、广告、内容工业等,打造更强大、更完善的生产力工具。


可不得不承认,在当前的「视频模型军备竞赛」中,普通用户似乎没有参与到狂欢中,感受就是「热闹是他们的,我什么也没有。」


原因很现实,首先是上手难,当然,很多视频生成工具操作起来已经很便捷,可很多时候写出精准的 Prompt 依然像是在编写代码,而且等待时间长,生成时间动辄从数秒到数分钟,再到数十分钟不等,缺乏即时反馈的快感。而漫长的等待后,得到的也不过是一段存在于屏幕里的「只能看、不能碰」,与当下日常生活毫无关系的虚拟视频。


Xmax AI 敏锐地捕捉到了这一点:AI 视频生成要想真正走入大众,就不能仅停留在「工具」阶段,要容易上手,要让大众有参与感,能够「玩」起来。



可这也就意味着,在基础视频生成能力之外,行业还需要跨越两座「大山」:一是降低交互门槛,改变传统的文生视频工具需要专业想法和 Prompt 撰写能力的方式;二是要与现实世界有更多结合,人是生活在现实中,文生视频模型一定程度上确实满足了完全虚拟化的想象,可人对现实的幻想并没有被满足。


基于此,Xmax AI 走了一条截然不同的路线:推出首个虚实融合的实时交互视频模型 X1,让视频生成告别键盘输入,回归人类最本能的手势与触控,仅需要一个手机摄像头,就能打破虚拟与现实的「壁」。


具体来看,基于 X1 强大的端侧实时生成能力,Xmax AI 将这一技术落地为四大核心玩法:次元互动、世界滤镜、触控动图、表情捕手…… 每一台手机似乎都变成了连接虚实的「魔法棒」。


次元互动:这就是前面那个视频所展示的能力,手机摄像头拍摄现实场景,任意上传一张角色参考图,就可以将该角色在镜头中「召唤」出来。


比如下面这个小兔子,你可以在镜头前伸出手与它互动,捏一捏、拍一拍,甚至将把它托到手上。视频中可以看到,当抚摸到兔子眼睛旁位置时,它会跟随人的动作转头,甚至可以看到绒毛因为触碰而遮盖眼睛的情况,没有延迟,因为它所有的物理反应都是 X1 模型实时生成的,所以,看起来就好像真的在抚摸一个真实存在的生命体。



不仅仅是动漫角色,可以说是任何自己喜欢的纸片人、宠物、毛绒玩具,都可以在镜头中「活」过来。


世界滤镜:任意上传一张风格参考图,就可以将手机摄像头拍摄的画面实时转换,变成指定的风格,例如梵高画风、乐高画风等。可以用于渲染环境,也可以用于渲染人物,甚至可以用于渲染屏幕内容,像是正在玩的游戏画面。


直接来看一个例子,下面视频中的小姐姐通过选取不同风格的参考图,让自己「化身」为图片所示风格的人物,可以是经典动漫中的二次元虚拟形象,也可以是乐高积木风格。而且,当小姐姐做出挥手或是摇头动作时,视频中「变身」后的人物或形象会实时跟着做出相应的动作。



触控动图:让静态照片「活」过来、动起来,不再需要复杂软件。对于任意一张照片,都可以在触摸屏上对照片中的角色进行拖拽控制,让它实时运动起来。


比如下面视频中动漫风格的小兔子,左右拖动它的耳朵,它就开始左右摇头;上下挥动,它就做出被拍脑袋的动作;拖动嘴角,它会露出微笑。「实物」也可以,给自家猫咪狗子拍张照上传,就可以让它挥手、抡拳,跳起舞;眨眼、吐舌、卖起萌。甚至是「恶搞」的,将刘海剪成整齐模样的马,也在镜头下开始摇头晃脑…… 就像在操控提线木偶,轻松赋予静止图像以生命力。



表情捕手:将相机镜头对准任意的人或物体,选择一个「大拇指」或「怒气冲冲」的 Emoji,AI 就会实时「捕捉」对方的特征,实时生成一个神态精准、魔性十足的动态表情包。这简直就是「社交神器」,以后聚会也不用担心冷场,随时就可以拿出来玩一下。



强大能力背后的技术挑战与实现


是不是很好玩,即便是对技术没什么了解,也可以轻松上手。但在业内人士看来,这不仅是产品的创新,更是工程能力的「暴力美学」。


「有趣体验背后,是极高的技术挑战。」Xmax AI 向机器之心透露,要实现上述这些效果,必须同时解决当前 AI 行业的三大痛点:


首先是极致实时,从上面的视频中也可以看出来,视频中的人物或是形象的反应随时能够跟着手势变,给用户产生一种「我在和它互动」的感觉,而这就要求延迟必须控制在毫秒级,可当前市面上的大多数所谓「实时」模型响应往往需要数秒,难以满足 Xmax AI 想要在交互场景中呈现的效果需求。



其次是意图理解,Xmax AI 的想法是希望交互方式多种多样且自然,对普通人来说门槛足够低,这就要求模型做到能够自动理解人的意图,并实时生成精准的反馈结果。可当前大多数模型都是文生视频、图生视频,无法实现这些手势交互效果。比如,对于模型来说,当人做出「捏」这个动作时,要读懂其中的意图,可要比读懂一段文字难得多。


另外,还存在数据稀缺的问题,对于整个 AI 行业来说,数据都足够重要却又极致稀缺,更何况是相对小众的「虚实融合交互数据」,生产成本高,构造难度极大。但现实又是,想要实现好的虚实融合的效果就必须基于大量且专业的高质量训练数据。


这些挑战一度让 Xmax AI 犯了难。


但需要注意的是,Xmax AI 是一支既懂底层算法,又懂工程化落地,还拥有敏锐产品嗅觉的「特种部队」。


创始人史佳欣,出身于华为「天才少年」计划,是一位典型的技术极客。联合创始人梁宸,现任港科大(广州)助理教授、博导。联合创始人翁跃庭,是一位「六边形战士」型的全栈工程师。而公司核心技术团队则都是来自清华大学 KEG 实验室和 HCI 实验室的人才,是国内大模型领域和人机交互领域的顶尖力量。


不仅如此,团队核心成员也大都在字节、快手、华为、阿里等头部 AI 大厂历练过,有着丰富的技术落地实践经验。


因此,面对上述这些挑战,Xmax AI 交出了一份「硬核」的技术答卷。


针对极致实时性需求,Xmax AI 进行架构创新,提出了端到端的流式重渲染视频模型架构,实现了帧级别的自回归 DiT(Diffusion Transformer),并通过多阶段的蒸馏压缩和对抗训练,百倍提升了每一帧画面的扩散采样速度。不仅将延迟压低至毫秒级,更是通过自研的「循环回归架构」打破了时长的限制,支持无限时长的连续生成。


针对模型对意图理解的高要求,Xmax.AI 则构建了统一的交互模型架构,让模型既能理解摄像头透视下的空间三维关系,也能理解屏幕触控下的平面二维操作,从而对于用户的各类交互行为,模型都能够实现精准的意图识别。


而针对「数据荒漠」难题,Xmax AI 则搭建了虚实融合数据的合成管线,利用半自动化方式,低成本、批量化地生成了高质量的交互训练数据,构建了难以复刻的行业壁垒。


写在最后


体验了这么多玩法,相信大家已经隐约感知到 Xmax AI 想做的事情了。如果说 Sora 代表的是一条极致强化生成能力的路线,让 AI 学会拍电影、构图、运镜、叙事,那么 X1 则是希望 AI 能够陪你玩,随时出现在你周围的生活场景中。


从这个角度来看,对于 Xmax AI 团队而言,X1 模型仅仅是一个开始。


其实从前面 X1 的模型能力展现上也可以看出来,Xmax AI 不是想「再造」一个专业的视频创作工具,开发一款 App,更是在试图搭建下一代内容交互引擎,重新定义用户与 AI 生成内容之间的个性化交互方式。


在他们的愿景里,这个新时代中,那些曾经只能存在于影视作品和虚拟世界中的角色,不管是数码宝贝,还是银翼杀手式的仿生生命体,都可以走进现实,成为虚实融合的「数字生命体」,进入家庭,成为用户的虚拟陪伴、虚拟宠物等。


与此同时,「万物可交互」也不再只是一个空想,不管是刷短视频、看直播,还是视频通话、线上会议,都可以实时改变视觉形态,一边看一边玩,带来全新的个性化体验;社交互动变得更立体、更有趣,摄像头化身「精灵球」,随时随地「捕捉」一个好友过来,对 TA 进行打扮……


也就是说,Xmax AI 所做的,是通过 AI 将「幻想」拉得更近,近到可以触碰、互动、分享,真正融入人们的日常生活。


正如 Xmax AI Slogan 所言,Play the World through AI(用 AI 玩转世界),让世界触手可「玩」。


最后,感兴趣的朋友可以通过 testflight 邀请链接下载 APP,下载后在登录界面点击申请邀请码,也可以通过 Xmax AI 官网来提前体验、感受这一切。这一次,你可以亲自推开那扇通往虚实融合世界的「门」。


  • testflight 邀请链接:https://testflight.apple.com/join/8sWgKZeQ

  • Xmax AI官网链接:https://xmax.ai/ 

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

技术发展需要“玩”的心态,才能打破常规,敢于尝试新的可能性。就拿AI绘画来说,很多人一开始只是觉得好玩,随便输入几个关键词,结果发现AI竟然能画出这么惊艳的作品!这种体验会鼓励大家去探索AI的更多可能性,推动整个技术的发展。

“玩”其实是探索新事物、激发创造力的重要方式啊!你看Xmax AI这个产品,就是把AI技术和娱乐结合起来,让大家在玩的过程中了解AI能做什么。这种方式比单纯的科普讲座有效多了,更容易激发大家对AI的兴趣,促进技术的普及。

我倒是觉得X1在电商领域可以搞事情。现在很多电商都在用AR展示商品,但X1这种实时互动,可以让消费者更直观地感受商品,比如试穿衣服、体验家具摆放效果。甚至可以发展成一种新的直播带货方式,让主播和商品都“活”起来。

端侧实时生成能力是未来AI发展的重要方向。 这意味着AI不再完全依赖于强大的服务器和网络连接,而可以在本地设备上快速运行,这大大提高了AI的可用性和响应速度。 想象一下,未来的智能手机、智能家居、智能汽车,都可以拥有强大的AI能力,随时随地为我们提供服务。 当然,端侧AI也面临着算力、存储等方面的挑战,需要不断优化算法和硬件设计。#端侧AI#X1模型#未来发展

X1这种虚实融合的实时交互技术,想象空间很大啊!除了文中说的虚拟陪伴和娱乐,我觉得在教育领域潜力巨大。比如,可以模拟历史人物或者场景,学生直接和他们互动,比看书本强多了。另外,远程协作办公也可以用上,让大家感觉像在同一个空间里工作一样。当然,医疗领域也能发挥作用,比如远程手术指导,医生可以看到虚拟的手术环境,进行更精准的操作。

实时性,说白了就是得快!以前玩游戏卡一下都难受,现在要跟虚拟角色实时互动,延迟高了肯定没意思。所以,优化算法,提高计算效率是关键。
意图理解,我觉得更像是“读心术”。模型要猜到你想干什么,比如捏一下,它要知道你是想表达亲昵,而不是想把它捏死。这就需要大量的数据训练,让模型学会理解人类的情感。

除了这些,我觉得Xmax AI 还可以:
1. 提升模型的精度,让虚拟角色看起来更逼真,细节更丰富。
2. 增加更多的交互方式,比如语音控制、肢体动作捕捉等。
3. 开放SDK,让更多的开发者参与进来,一起创造更多的玩法。

别忘了游戏领域啊!现在AR游戏很多,但互动性还不够强。X1这种技术可以让游戏角色真正“走”到现实中,和玩家互动,想想就刺激。比如,可以把家里变成一个魔法世界,和朋友一起组队打怪,绝对比现在的手游更有沉浸感。

其实我觉得意图理解没那么玄乎,就是个概率问题。计算机要根据你之前的行为,推测你下一步想干什么。所以,Xmax AI 要做的就是收集足够多的数据,让模型学会“察言观色”。不过,这也有个风险,就是模型可能会“过度解读”,比如你只是想挠个痒痒,它却以为你想打它,那就尴尬了。

所以,我觉得Xmax AI 应该:
1. 加强模型的安全性,防止被恶意攻击。
2. 提升模型的鲁棒性,让它在不同的光照、角度下都能正常工作。
3. 优化用户界面,让操作更简单、更直观。

我个人觉得,虚拟陪伴这事儿,既有吸引力,也有点可怕。往好了说,对于那些缺乏社交或者有心理障碍的人来说,有个虚拟伙伴或许能帮他们打开心扉。但往坏了说,要是大家都沉迷在虚拟世界里,跟虚拟人物谈恋爱、交朋友,那现实世界会变成什么样?会不会出现更多“社恐”?更可怕的是,如果这些虚拟人物背后是AI操控,它们会不会收集我们的隐私,甚至操控我们?所以,我觉得这玩意儿得慎重发展。

“让世界触手可玩”!这个slogan太棒了!感觉未来的内容创作会更加注重沉浸式体验。比如,现在的VR游戏已经很有意思了,但如果能加入AI元素,让游戏角色更智能、更真实,互动性更强,那就更棒了!还有,未来的旅游也可能变成“AI+旅游”,你可以通过AI技术来定制旅游路线,甚至可以和虚拟导游互动,让旅行更有趣、更个性化。

从技术角度讲,我觉得会朝着更低延迟、更高精度的方向发展。现在的AR/VR设备还有很多局限性,比如延迟高、画面不够清晰等。未来,随着硬件技术的进步和算法的优化,这些问题都会得到解决,用户可以获得更加流畅和逼真的虚拟体验。

从工程角度来考虑,我觉得眼球追踪技术会更快落地。通过追踪用户的视线,模型可以判断用户关注的焦点,从而提供更精准的互动反馈。比如,你盯着滚球兽的眼睛,它就会做出害羞的表情,这种互动会更加自然和沉浸。

商业化推广肯定会遇到挑战,首先是内容生态。现在App里的玩法还比较单一,需要更多的开发者参与进来,创造更多有趣的AR内容。其次是硬件成本,如果只能在高端手机上运行,那普及率肯定不高。最后是用户习惯,大家已经习惯了传统的App交互方式,需要时间来接受AR这种新的形式。

有没有可能以后开会的时候,大家都变成二次元形象?想想就觉得很赛博朋克!不过话说回来,这种技术要是能应用到远程协作上,确实能让沟通更生动有趣。比如,建筑设计师可以把虚拟模型直接“放”到现实场景中,和甲方一起讨论方案,效果肯定比对着CAD图纸强多了。

不过,我最期待的还是它在娱乐方面的应用。以后看演唱会,说不定可以直接把偶像“召唤”到自己面前,想想就激动!

这种技术在虚拟陪伴、教育、娱乐等领域有很大的应用潜力。例如,可以创建个性化的虚拟宠物,陪伴独居老人或儿童;在教育领域,可以创造沉浸式的学习体验;在娱乐领域,可以实现更真实的虚拟演唱会或游戏互动。它会改变我们的社交方式、娱乐方式,甚至学习方式。

我认为数据稀缺是最难解决的。极致实时性和意图理解可以通过技术创新来突破,但高质量的虚实融合交互数据,需要大量的人工标注和场景构建,成本极高。Xmax AI搭建虚实融合数据的合成管线,利用半自动化方式批量生成数据,这个思路很聪明,解决了数据难题。

教育和医疗,这方向靠谱!教育方面,我觉得可以搞一个虚拟博物馆,让孩子们足不出户就能“亲临”现场,感受历史文化。医疗方面,除了远程会诊,还可以开发一些心理治疗的应用,比如社交恐惧症患者可以在虚拟环境中进行社交练习,逐步克服心理障碍。

取代真实社交?我觉得很难。虚拟陪伴再智能,也无法提供真实的情感连接和互动。人是社会性动物,需要真实的社交关系来满足情感需求。不过,虚拟陪伴可以作为一种补充,帮助那些孤独的人缓解寂寞,或者提供一些情感支持。如何看待这种新型人机关系?我觉得关键是要保持清醒的认识,不要过度依赖虚拟世界,要珍惜真实的社交关系。

这个问题很有意思!除了娱乐,我觉得虚实融合在教育和医疗上的潜力巨大。

* 教育领域:想象一下,学生可以通过AR技术,直接与虚拟的历史人物对话,或者在实验室里“徒手”进行化学实验,观察分子结构变化。这种沉浸式学习体验,比单纯看书效果好多了,能激发学生的学习兴趣和积极性。
* 医疗领域:医生可以利用VR/AR技术进行远程会诊,或者进行手术模拟训练,提高手术成功率。患者也可以通过VR技术,缓解术后疼痛和焦虑,加速康复过程。甚至可以构建虚拟的康复环境,帮助行动不便的患者进行康复训练。