李沐团队发布 Higgs Avatar v1:一张照片生成可实时对话的数字人

李沐团队发布实时数字人模型,一张照片即可生成可对话、会表情反馈的虚拟形象。

原文标题:大神李沐回归B站「做了个实时数字人」,直言「水平吊打我自己」

原文作者:机器之心

冷月清谈:

李沐时隔近一年回归 B 站,展示了 BosonAI 新发布的实时数字人模型 Higgs Avatar v1。该模型面向语音智能体,只需一张静态图片,就能生成具备唇形同步、头部动作、表情反馈和倾听反应的动态数字人。官方称,展示视频没有预设脚本、动画流程或预渲染循环,声音、对话、口型、表情等均为实时生成。技术上,Higgs Avatar v1 单帧生成约 16 毫秒,低于实时对话常见延迟要求,并可在单张 H100 上支持 8 路实时并发。BosonAI 希望通过自研 Higgs Audio 与 Higgs Avatar,解决语音和视觉拼接方案中常见的延迟、抢话、表情脱节等问题。该模型目前处于内测阶段,未来将接入 Boson Presence 语音聊天体验产品。

怜星夜思:

1、实时数字人如果真的做到低延迟,会最先在哪些行业落地?
2、只靠一张照片生成数字人,会不会带来新的身份冒用和隐私风险?
3、数字人越像真人,用户体验一定越好吗?还是会有“恐怖谷”问题?
4、BosonAI 强调全栈自研,不拼接外部 API,这对实时语音智能体真的那么重要吗?

原文内容

图片
机器之心编辑部

时隔近一年,那个在 B 站教大家阅读 AI 论文的大神李沐 @跟李沐学 AI,终于回归了!



在最新一期视频中,李沐「做了个实时数字人」,并与 TA 进行视频对话,从视频来看,数字人形象确实挺逼真的,用他自己的话说,「水平吊打我自己」!



而这背后的技术正是李沐的创业公司——BosonAI 发布的一款名为 Higgs Avatar v1 的模型:面向语音智能体的实时数字人。


官方介绍,作为一个实时基础模型,Higgs Avatar v1 能够为客服对话、虚拟助手、培训以及互动体验带来更接近真人的数字化形象与临场感。



而且操作起来非常简单,只需要一张静态图片,就能生成生动、富有表现力的面部表情,并支持说话、倾听和回应。所有操作都以逐帧方式完成,并与音频保持同步。


BosonAI 团队介绍,上述李沐的展示的视频内容完全由 AI 生成,不仅没有预设脚本,也没有动画制作流程、预渲染循环,每一帧都是实时渲染完成的 —— 包括声音、对话、口型同步、头部动作和表情。


并且,整套流程仅在单张 H100 上就可以运行。


下面再来看几个官方给的使用案例,大家来评一评效果如何?


实时保险 Agent 展示:



AI 教练鼓励用户的 Demo 展示:



AI 艾伦・图灵访谈:



两个 AI 虚拟形象在探讨人类情感:



只要一张照片,上演「大变活人」


根据 Boson AI 团队披露的技术细节,Higgs Avatar v1 具备以下四大核心优势:


无脚本的即兴表演: 模型会跟着语音流,逐帧实时渲染出唇形同步、头部动作和面部表情。你听到什么,就看到什么,完全是即兴发挥。


开局一张图,剩下全靠 AI: 不需要好莱坞级别的 3D 动捕,也不用预先录制僵硬的循环视频。只要给它一张静态照片,Higgs Avatar v1 就能瞬间生成一个会听、会说、会给反应的动态面孔。


快到没有「时差」: 业界公认保持实时对话不卡顿的延迟底线是 62.5 毫秒,而 Higgs Avatar v1 生成一帧画面只需要 16 毫秒!这意味着数字人的表情永远紧紧贴合声音,绝不拖泥带水。


极致的算力性价比: 对于企业级应用而言,成本是落地的关键。单张 H100 GPU 即可同时支持 8 路实时对话并发,将单次对话的成本压缩到了完全能够满足大规模生产部署的水平。



Higgs Avatar v1 的发布,为 Boson AI 的产品栈补齐了一块关键的视觉拼图。


在实际业务场景(如保险销售、企业教练、虚拟面试及互动娱乐等)中,Boson AI 现已形成了双擎驱动的格局:Higgs Audio 负责语音的理解与生成,Higgs Avatar 负责赋予 AI 真实的「面容」。


「我们之所以坚持自研基础模型,是因为生产环境中的对话式 AI 无法由外部组件拼凑而成。」 Boson AI 团队在发布声明中强调。


如果只是把现成的外部 API 缝合在一起,延迟卡顿、抢话冲突、声音跟表情脱节等问题根本没法解决。只有从头开始全栈自研,把声学与面部表情的情感对齐、端到端的工作流编排死死咬合在一起,才能彻底打破交互的隔阂。


怎么玩?


目前,Higgs Avatar v1 已经进入内测(Private Preview)阶段,接下来会搭载在他们即将推出的语音聊天体验产品 Boson Presence 中和大家见面。


迫不及待想看看沐神新作品的同学们,可以去官网排个 Waitlist 占坑了。对于有企业集成、定制模型或 API 访问需求的客户,也可直接通过官方邮箱联系。


B 站视频:https://www.bilibili.com/video/BV1pB586fEap/?spm_id_from=333.1387.upload.video_card.click

更多见: https://www.boson.ai/blog/higgs-avatar-v1 

加入试用:https://tally.so/r/VLvKgE



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

隐私风险肯定有,但也不能只怪技术。关键是产品层面要做水印、授权校验、生成内容标识。就像相机能拍假新闻,但我们不能因此禁止相机。

2 个赞

从工程角度看,拼 API 最大的问题不是不能用,而是不可控。延迟波动、接口更新、并发限制、计费方式都会影响产品稳定性。要做生产级实时数字人,自研至少能把关键链路握在自己手里。

1 个赞