基于视觉的手语处理:识别、翻译与生成——研究综述与技术解析

探索基于视觉的手语识别、翻译与生成技术,弥合聋人与听人之间的沟通障碍。研究重点包括手语编码器设计、在线手语识别与翻译以及手语生成。

原文标题:【博士论文】基于视觉的手语处理:识别、翻译与生成

原文作者:数据派THU

冷月清谈:

本文概述了一篇博士论文中关于基于视觉的手语处理的研究工作,重点关注手语识别(SLR)、手语翻译(SLT)和手语生成(SLG)三个领域。为提升手语建模的鲁棒性,研究者提出了一种双流架构的手语编码器——视频-关键点网络(VKNet),该网络结合视频流和关键点流进行信息交互,以减少视觉冗余。在连续手语识别(CSLR)方面,通过引入手语金字塔网络、辅助监督和自蒸馏等策略来克服数据稀缺带来的挑战。此外,该研究还将VKNet扩展到SLT,实现了端到端的手语视频到文本转换。针对孤立手语识别(ISLR),研究通过调整时间感受野和引入语言感知标签平滑等方法,提高了模型对手语时长变化和视觉相似手势的区分能力。为了实现实时手语处理,研究还提出了一个基于短手语片段和滑动窗口的在线框架,并进一步探索了手语生成,通过3D虚拟人进行手语合成,以提升手语内容的可视化表达。整体目标是弥合听人与聋人之间的沟通障碍。

怜星夜思:

1、论文中提到的关键点流(keypoints stream)在手语识别中起到了减少视觉冗余的作用,那么在其他视觉识别任务中,引入关键点信息是否也能达到类似的效果?例如,在人脸识别或物体识别中,关键点信息能带来哪些潜在的优势和局限性?
2、论文中提到使用3D虚拟人进行手语生成,这似乎是一个很有前景的方向。除了论文中提到的提升手语内容的可视化表达,你认为3D虚拟人在手语生成方面还有哪些潜在优势?又可能面临哪些挑战?
3、论文中提到在线手语识别与翻译框架是基于短手语片段训练的ISLR模型。这种方式与传统的离线CSLR方法相比,有哪些优势和劣势?在实际应用中,如何平衡实时性和准确性?

原文内容

来源:专知
本文约1000字,建议阅读5分钟
本文为你介绍基于视觉的手语处理:识别、翻译与生成,手语编码器的设计等内容。


基于视觉的手语处理:识别、翻译与生成
手语(Sign Languages),也称为手势语言,是聋人和听障人士的主要交流方式。它通过手势(manual parameters)和非手势(non-manual parameters)参数来传递信息。这些视觉语言具有独特的语法规则和词汇,与其对应的口语通常存在显著差异,从而导致聋人与听人之间的双向沟通障碍。在本论文中,我们将详细介绍在手语处理(Sign Language Processing, SLP)各个领域的研究工作,包括手语识别(Recognition)、手语翻译(Translation)和手语生成(Generation),以期缩小这一沟通鸿沟。
手语编码器的设计
我们首先关注手语编码器(Sign Encoder)的设计。以往的手语编码器大多采用单模态(single-modality)方法,主要依赖于RGB视频,但这种方法容易受到视觉冗余(visual redundancy)的影响,如背景干扰和手语者的外观变化等。为提升手语建模的鲁棒性,我们在手语编码器中引入关键点(keypoints)作为额外的模态。关键点能够突出手语表达中的关键人体部位(如手部),并能有效减少视觉冗余。我们通过将关键点表示为一系列热图(heatmaps),不仅降低了关键点估计的噪声,同时也使关键点建模的网络架构能够与视频建模保持一致,无需额外的特殊设计。最终,我们提出了一种双流(two-stream)架构的手语编码器——视频-关键点网络(Video-Keypoint Network, VKNet),其中视频流和关键点流以跨流连接(inter-stream connections)的方式进行信息交互。
手语识别(Sign Language Recognition, SLR)
VKNet首先应用于连续手语识别(Continuous Sign Language Recognition, CSLR),这一任务是SLP的核心问题。然而,由于数据稀缺(data scarcity),训练这样一个大规模网络极具挑战性。除了采用连接时序分类(Connectionist Temporal Classification, CTC)作为主要目标函数外,我们还提出了一系列辅助训练策略,包括手语金字塔网络(Sign Pyramid Networks)与辅助监督(auxiliary supervision)、自蒸馏(self-distillation)等,以提升训练效果。最终形成的整体模型称为VKNet-CSLR。在此基础上,我们进一步扩展其功能,使其支持手语翻译(Sign Language Translation, SLT),通过附加一个翻译网络(Translation Network)完成端到端的手语视频到文本转换。
我们还研究了SLP中的另一传统任务——孤立手语识别(Isolated Sign Language Recognition, ISLR)。针对手语时长变化较大的问题,我们对VKNet进行拓展,使其能够接受不同时间感受野(temporal receptive field)的视频-关键点对作为输入。此外,我们发现手语中存在视觉上不可区分的手势(visually indistinguishable signs),为此,我们基于自然语言先验(natural language priors)提出了两种训练策略:语言感知标签平滑(language-aware label smoothing)跨模态混合(inter-modality mixup),以增强模型的区分能力和训练稳定性。
在线手语识别与翻译(Online CSLR & SLT)
在实际应用场景中,能够实时识别和翻译手语视频的系统更具用户友好性,这促使我们开发一个适用于CSLR和SLT的在线(Online)框架。与以往的离线CSLR方法不同,传统方法通常在整个未经裁剪的视频序列上进行训练和推理,而我们的框架则基于**短手语片段(short sign clips)训练一个ISLR模型,并采用滑动窗口(sliding-window)**方式进行实时预测。此外,该框架还可扩展用于提升离线CSLR的性能,并结合轻量级网络(lightweight networks)进一步支持在线SLT任务。
手语生成(Sign Language Generation, SLG)
手语识别和翻译任务的目标是将手语视频转换为文本表示(手语词序列或文本)。作为逆过程,手语生成(Sign Language Generation, SLG)旨在将口语文本转换为手语,从而完成双向沟通闭环(two-way communication loop)。为此,我们提出了一种简单而有效的手语生成基线模型(SLG baseline),通过**3D虚拟人(3D avatars)**进行手语合成,以提升手语内容的可视化表达。


关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


虚拟偶像学手语?这脑洞可以!以后会不会有AI虚拟偶像用手语直播啊?不过话说回来,这技术要是能成熟,对聋哑人肯定帮助很大。想象一下,一个可以生成各种风格手语的虚拟助手,那简直是沟通神器!但前提是,别整出恐怖谷效应,不然更吓人。

我觉得关键点这东西得看情况,像手语这种肢体动作比较复杂的,用关键点提取骨骼信息当然好。但如果识别的是喵星人,你提取一堆毛发关键点有啥用?怕不是会把模型搞晕。所以关键还是得结合具体场景,关键点选对了是神器,选错了就是猪队友。

短片段ISLR做在线识别,好处是响应快,实时性好,毕竟不用等整个视频录完。但劣势也很明显,就是上下文信息不足,容易出现误判。实际应用中,我觉得可以加个缓冲机制,保留一定长度的历史片段,结合上下文进行判断,牺牲一点实时性,换取更高的准确率。

从学术角度来说,引入关键点确实可以看作是一种Attention机制的变体,它强调了图像中信息量最大的区域。在人脸识别中,面部关键点能够提供更精确的对齐,减少姿态变化带来的影响。而在物体识别中,关键点可以帮助模型关注物体最具区分性的部分,提高识别的鲁棒性。然而,关键点检测算法的性能是一个关键因素,而且对于复杂或遮挡场景,关键点检测的准确性可能会下降,反而引入噪声。

这个问题很有意思!不止手语识别,很多视觉识别任务都能从关键点信息里获益。人脸识别里,关键点能帮助对齐人脸,提高识别率,尤其是在光照、角度变化大的情况下。物体识别里,关键点可以定位物体的重要组成部分,比如汽车的轮子、车灯,帮助模型更好理解物体结构。但是,关键点的提取算法本身的精度也会影响最终效果,而且对于形变比较大的物体,关键点可能不稳定。

从技术角度来看,3D虚拟人手语生成确实有很多优势。它可以解决数据稀缺的问题,通过程序生成大量的手语数据。此外,虚拟人可以提供更精细的控制,例如调整手势的速度、幅度等,方便教学和研究。然而,目前最大的挑战在于如何保证生成的手语的真实性和自然度。手语不仅仅是手势的组合,还包括面部表情、身体姿态等多种非语言信息,如何将这些信息融入到虚拟人中,是一个需要深入研究的问题。

从算法层面分析,基于短片段的ISLR模型,可以看作是一种近似的streaming处理方式。它的优势在于延迟低,适合实时应用,并且可以方便地集成到各种设备上。然而,这种方法忽略了长时序依赖关系,可能导致识别错误。为了平衡实时性和准确性,可以考虑使用一些轻量级的序列模型(如LSTM或Transformer)来捕捉上下文信息,或者采用confidence score机制,对识别结果进行过滤和修正。

3D虚拟人生成手语,我觉得最大的优势是可控性。它可以标准化手语的展示,方便学习者理解。其次,虚拟人可以定制,适应不同用户的需求,比如可以选择不同的形象、速度等。当然,挑战也不少。首先是动作的自然度,要让虚拟人的手语看起来像真人一样自然流畅,需要大量的研究和优化。另外,如何让虚拟人表达手语中的情感和非语言信息,也是一个难题。

说白了就是鱼和熊掌不可兼得。想快就得牺牲点准头,想要准那就得多花点时间。我觉得吧,在实际应用中,可以根据场景来调整。比如在紧急情况下,可以优先保证实时性,先翻译个大概意思,然后再慢慢修正。或者,干脆给用户一个选项,让他们自己选择是追求速度还是准确性。