脑机接口突破:80毫秒延迟实现实时「意念对话」

加州大学伯克利分校新研究:脑机接口仅80毫秒延迟实现实时「意念对话」,瘫痪患者无需发声即可表达,或将彻底改变交流方式。

原文标题:脑波解码延迟仅80毫秒,实时「意念对话」技术登Nature子刊

原文作者:机器之心

冷月清谈:

加州大学伯克利分校的研究团队在脑机接口领域取得了重大进展,开发出一种能够实时将脑电活动解码为语音的神经假体。该系统通过监测瘫痪患者的言语运动皮层,利用深度学习神经解码器进行训练,实现了仅80毫秒的延迟。与以往脑机接口系统每分钟8-14个字的速度相比,新系统能够以每分钟90+个英文单词的速度输出语音,且无需患者发出声音或进行可听见的训练。该技术采用ECoG阵列,并结合RNN-T架构,不仅可以合成语音,还能进行实时转录,甚至能模仿患者受伤前的音色。该系统还具有泛化能力,能够识别训练中未出现的新词汇,并可跨多种技术平台解码语音信号,如ECoG、MEA和EMG。最重要的是,它能够持续工作,并准确检测受试者何时开始和停止说话,为失去语言能力的人带来了重新「说话」的希望,也为未来的无声交流方式奠定了基础。

怜星夜思:

1、这项技术如果普及,对未来的社会交流方式会有什么颠覆性的影响?你觉得最先应用在哪个领域会比较合适?
2、文章中提到了神经解码的字错率(WER)还有待提高,你认为未来可以通过哪些方法来提升准确率?
3、这项技术目前主要针对的是瘫痪患者,你觉得它在健康人群中会有哪些潜在的应用场景?

原文内容

机器之心报道

机器之心编辑部


无法说话的人,现在可以通过大脑扫描的方式实时地用自己的声音说话了。整个过程没有延迟,也不需要打字,不用发出任何声音。


本周,脑机接口的最新研究在社交网络上引发了人们的热烈讨论,一位推特博主的帖子浏览量突破了 150 万。




先来看效果。视频中的受试者严重瘫痪,不能讲话。她的大脑活动被解码为目标句子,然后使用文本到语音模型一次合成一个单词。


我们可以看到连接受试者头部的设备(connector)。屏幕上出现了目标句子(target sentence),然后从大脑活动解码文本,并应用「单词级文本到语音合成」。



接下来是更多的示例:



论文一作 Kaylo T. Littlejohn 发推宣传团队的成果,他表示,这种流式「脑转语音」(brain-to-voice)神经假体可以让瘫痪患者恢复自然、流利和清晰的语言能力。


同时他强调,泛化能力至关重要,随着快速改进设备,现在构建的解码方法应能跨用例转换(比如非侵入式与侵入式的权衡),并为未来的临床语音神经假体打好基础。



这项技术成果「牛」在哪里?


要知道在此之前,最好的脑机接口系统也只能让患者以每分钟 8-14 个字的速度「打字」。而这个新系统输出语音的速度可以达到每分钟 90+ 个英文单词,而且它不使用任何可听见的训练数据,用户甚至不需要尝试发出声音。


该研究来自加州大学伯克利分校(UC Berkeley),已经登上了最新一期《自然》子刊 Nature Neuroscience。



  • 论文:A streaming brain-to-voice neuroprosthesis to restore naturalistic communication

  • 论文链接:https://www.nature.com/articles/s41593-025-01905-6


该系统转录的目标是患者大脑的言语运动皮层,采用 253 通道 ECoG 阵列,深度学习神经解码器经过 2.3 万次转语音训练,构建了延迟仅 80ms 的 RNN-T 架构,既可以合成语音也可以进行实时转录,音色模仿自患者受伤之前的录音。


大多数脑机接口的系统在输出任何内容之前都需要等待人想出完整句子,但在新的系统上,人类正在思考中的内容就可以被转为语音,延迟大约为 1 秒。因此该系统可以称得上是实时的意念转语音了。


在实际测试中可以看到,语音转录的效果快速、流畅且准确:在 50 个短语集(护理需要)的测试中,新方法达到了 91 WPM 、12% 字错率 (WER)、 11% 字符错误率。在 1024 字集的自然句子测试中,该方法也达到了 47 WPM、59% WER 和 45% 字符错误率。虽然还不是很准确,但已经证明了该系统的有效性。



此外,该系统成功地合成了在训练过程中未曾见过的新词汇。当给定 24 个新的词汇,例如 Zulu、Romeo,它正确识别出这些词汇的概率为 46%,而仅凭偶然猜测的概率为 3.8%。这一切仅通过神经活动就得以实现。



此外,该系统采用了统一的神经网络架构,能够跨多种技术平台解码语音信号,具体包括:


  • ECoG(皮层脑电图),通过植入大脑表面的电极阵列读取神经信号,无需穿透脑组织,创伤性较低;

  • MEA(皮层内微电极),通过植入大脑皮层的微型电极记录单个神经元活动;

  • EMG(面部表面电极,无需手术)。



一直以来,很多研究仅仅局限于试验阶段,相比之下,该系统能够持续工作,不需要预先编程就能够通过大脑活动检测到受试者何时开始和停止说话。研究者用时长 6 分钟的连续无声语音块对其进行了测试。结果显示,系统能够准确解码,几乎没有任何误报。



这项研究的解码速度达到了新的标杆,此前最佳解码速度为 28 词 / 分钟(WPM),该系统的表现达到 90 词 / 分钟(WPM),且延迟更低。


更重要的是,受试者无需发声,借助该系统,受试者用意念就能「说话」。


从临床角度看,这项研究能让失去语言能力的人重新获得说话的权力。从技术角度看,它解决了实时、流畅的神经语音解码问题。大家期待已久的无声交流正在实现,这也表明了语言可以完全基于神经信号来传达。


如果这项技术普及开来,我们可以想象 20 年后的世界,那将是不再需要手机、不再需要键盘、不再需要语音指令等等,你要做的只是思考,你的话语便能被实时感知。


参考链接:https://x.com/IterIntellectus/status/1906995681253822519



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


我觉得数据也很重要。可以收集更多不同人群、不同场景下的脑电数据,训练一个更鲁棒的模型。另外,可以考虑结合上下文信息,比如加入语言模型,让系统能够根据语境来纠正错误。

我脑洞比较大,想到的是可以用在远程控制领域,比如用意念控制无人机、机器人等。这样就可以在一些危险或者不方便进入的场景下进行操作。当然,安全性也是一个需要重点考虑的问题。

确实,交流方式可能会变得非常扁平化。但隐私问题也会变得非常突出。谁来保证我的想法不被别人读取?感觉在军事或者科研领域会有很大的应用价值,比如士兵之间可以用意念传递信息,科学家可以直接用意念操控仪器。

还可以考虑个性化定制。每个人的大脑结构和神经活动模式都不一样,可以针对每个用户训练一个专属的模型,这样应该能显著提高准确率。当然,这需要大量的训练数据和计算资源。

感觉可以用在一些创意工作领域,比如设计师、艺术家等,可以直接将脑海中的想法转化为图像或者音乐,而不需要通过语言或者文字来表达。甚至可以实现“意念写作”,直接把想法变成文字,提高写作效率。

健康人群的话,我觉得可以用在一些需要高度集中注意力的场景,比如飞行员、外科医生等,可以通过脑机接口来辅助操作,提高效率和安全性。或者可以用在游戏领域,用意念控制游戏角色,想想就很酷炫!

提高字错率,感觉可以从两个方面入手。一是优化算法,比如使用更先进的深度学习模型,或者引入注意力机制,让系统更好地关注关键信息。二是改进硬件,比如使用更高密度的电极阵列,或者开发更灵敏的传感器,捕捉更清晰的脑电信号。

如果真能普及,感觉以后人与人之间的交流会更高效,也更直接。会不会出现一种新的“脑联网”社交平台,大家直接分享想法,而不是像现在这样通过语言文字?我觉得医疗领域是最合适的,帮助那些失语或者行动不便的人,让他们能够更好地和外界沟通。

脑机接口普及…想想就有点赛博朋克啊。不过我倒觉得教育领域可以考虑,比如直接把知识“上传”到大脑里,当然伦理问题肯定要慎重考虑。最先应用的领域应该是高端医疗,帮助重症患者恢复沟通能力,然后慢慢下沉到消费级市场。