SeqPO-SiMT:兼顾质量与延迟的同声传译新框架

新研究 SeqPO-SiMT 框架通过序贯策略优化,显著提升同声传译质量并控制延迟,在低延迟下翻译质量超越现有模型,甚至媲美离线翻译。

原文标题:ACL 2025 | AI字幕慢半拍,不知道大家在笑什么?新方法让同传性能直逼离线翻译

原文作者:机器之心

冷月清谈:

香港中文大学、字节跳动 Seed 和斯坦福大学的研究团队联合提出了 SeqPO-SiMT 框架,用以解决同声传译中“质量 - 延迟”的权衡问题。该方法将同传任务建模为序贯决策过程,通过优化完整的决策序列,显著提升了翻译质量,同时有效控制了延迟。SeqPO-SiMT 的核心思想在于综合评估整个翻译流程的翻译质量和延迟,并对整个决策序贯进行端到端的优化,而非孤立地评估每一步决策的好坏。实验结果表明,在低延迟水平下,SeqPO-SiMT 框架生成的译文质量相较于基线模型有明显提升,甚至在 70 亿参数规模上实现了媲美乃至超越 Qwen-2.5-7B 的离线翻译水平。SeqPO-SiMT 方法为需要进行实时、连续决策的自然语言处理任务提供了新的视角,并为未来开发更高效、更智能的同声传译系统提供了有价值的探索。

怜星夜思:

1、SeqPO-SiMT 框架中,奖励函数如何平衡翻译质量和延迟?这个平衡是如何影响最终翻译效果的?
2、SeqPO-SiMT 框架提到用大语言模型(LLM)做策略模型,那么选择不同的 LLM 会对结果有什么影响?未来是否可以针对同传任务定制 LLM?
3、SeqPO-SiMT 框架在实验中已经能媲美甚至超越一些离线翻译模型,那么它在实际应用中还面临哪些挑战?

原文内容


本文第一作者是徐婷,是香港中文大学博士生,主要研究兴趣是大模型的后训练;通讯作者分别是黄志超和程善伯,来自字节跳动Seed团队。


你是否经历过这样的场景:观看一场激动人心的全球发布会,AI 字幕却总是慢半拍,等你看到翻译,台上的梗已经冷掉了。


或者,在跨国视频会议上,机器翻译的质量时好时坏,前言不搭后语,让人啼笑皆非。


这就是同声传译(Simultaneous Machine Translation, SiMT)领域一直以来的核心技术挑战:“质量 - 延迟” 权衡问题(Quality-Latency Trade-off)


现在,这些问题迎来了新的解决方案。来自香港中文大学、字节跳动 Seed 和斯坦福大学的研究团队联手提出了一种面向同声传译的序贯策略优化框架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT)


该方法将同传任务巧妙地建模为序贯决策过程,通过优化完整的决策序列,显著提升了翻译质量,同时有效控制了延迟,其性能直逼、甚至在某些方面超越了同等大小的离线翻译模型。



  • 论文标题: SeqPO-SiMT: Sequential Policy Optimization for Simultaneous Machine Translation

  • 论文链接:https://arxiv.org/pdf/2505.20622


研究背景


同声传译的核心在于机器需要动态地决定 “继续听”(READ)还是 “开始说”(WRITE)。这个决策直接影响最终的翻译效果。例如,当模型接收到英文单词 “bark” 时,它面临一个困境:如果立即翻译,可能会译为 “狗叫”,但若后文出现 “of the tree”,则正确翻译应为 “树皮”。


传统的同传方法,它每一步决策(是继续听,还是开始翻译)都是孤立的。它可能会因为眼前的 “小利”(比如翻译出一个词)而牺牲掉全局的 “大利”(整个句子的流畅度和准确性)。



核心方法


针对这一难点,该论文提出了 SeqPO-SiMT 框架。其核心思想是将同声传译任务建模为一个序贯决策问题,综合评估整个翻译流程的翻译质量和延迟,并对整个决策序贯进行端到端的优化。


该方法的主要特点是:它不再孤立地评估每一步决策的好坏,而是将一整句话的翻译过程(即一个完整的决策序贯)视为一个整体,更符合人类对同传的评估过程。


同声传译采样阶段:使用一个大语言模型(LLM)充当策略模型 图片。在每个时间步 t,模型会接收新的源语言文本块 图片,并基于已有的所有源文本 图片 和之前的翻译历史 图片,来生成当前的翻译块 图片。这个决策过程可以被形式化地表示为:图片 。该框架的一个关键灵活性在于,如果模型决定等待更多上下文,输出的 图片 可以为空,其长度完全由策略模型 图片 自行决定。


奖励函数:在优化阶段,对于一个 batch 内的第 i 个样本,系统会通过一个在最终步骤 T 给予的融合奖励 图片 来评估整个过程的优劣。这个奖励同时评估翻译质量(Quality)和延迟(Latency)。具体而言,首先计算出原始的质量分 图片 和延迟分 图片,然后对两者进行归一化处理以统一量纲得到 图片 和 图片,最终的奖励被定义为:

图片


其中,λ 是一个超参数,用于权衡质量与延迟的重要性。


优化目标:模型的最终优化目标最大化期望奖励 图片,同时为了保证训练的稳定性,目标函数中还引入了 KL 散度作为约束项,防止策略模型 图片 与参考模型图片 偏离过远。这个结合了最终奖励和稳定性约束的优化过程,使得模型能够端到端地学会一个兼顾翻译质量与延迟的最优策略: 





实验结果与分析


为了验证方法的有效性,研究者们在多个公开的英汉互译测试集上进行了实验,并与多种现有的同传模型进行了对比。实验结果显示:在低延迟水平下,SeqPO-SiMT 框架生成的译文质量相较于基线模型有明显提升。



本文将 SeqPO-SiMT 的实时同传结果与多个高性能模型的离线翻译结果进行对比。结果显示,SeqPO-SiMT 的翻译质量不仅优于监督微调(SFT)的离线模型及 LLaMA-3-8B,其表现甚至能媲美乃至超越 Qwen-2.5-7B 的离线翻译水平。这表明该方法在 70 亿参数(7B)规模上实现了业界顶尖(SoTA)的性能。



总结与讨论


总的来说,SeqPO-SiMT 这项工作的主要贡献在于,为解决同声传译中的质量 - 延迟权衡问题提供了一个新的视角。它强调了对决策 “序贯” 进行整体优化的重要性。该研究提出的方法,对于需要进行实时、连续决策的自然语言处理任务具有一定的参考意义,并为未来开发更高效、更智能的同声传译系统提供了有价值的探索。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

研究里用了一个加权平均的方法,把质量分和延迟分归一化之后,再用一个超参数 λ 来控制两者的权重。这个 λ 值越大,说明越重视翻译质量,反之则更看重延迟。但具体怎么影响,我觉得得看实际应用场景的需求。比如,新闻发布会可能更看重准确性,λ 可以设大点;日常对话可能更看重流畅性,λ 就可以设小点。

虽然 SeqPO-SiMT 在实验中表现出色,但实际应用中仍然面临诸多挑战:1)领域泛化能力:模型在特定领域的语料库上训练,可能难以适应其他领域的翻译需求。需要引入领域自适应技术,提高模型的泛化能力。2)口语化表达:同声传译通常涉及口语化的表达,模型需要能够准确捕捉口语中的俚语、习语和语气。3)实时性能:虽然 SeqPO-SiMT 框架在延迟方面有所改进,但在高并发场景下,仍然需要进一步优化实时性能。4)数据稀疏问题:对于一些低资源语言,同传语料库的规模可能较小,导致模型训练不足。5)伦理问题:同声传译可能涉及敏感信息,需要考虑数据隐私和安全问题。

奖励函数通过结合质量和延迟两个因素来评估翻译过程。具体来说,它首先计算原始的质量分和延迟分,然后对两者进行归一化处理,以统一量纲。最终的奖励是质量分和延迟分的加权平均,权重由超参数 λ 控制。λ 的选择直接影响最终的翻译效果,λ 越大,模型越倾向于生成高质量的翻译,但可能牺牲一定的延迟;反之,λ 越小,模型越倾向于降低延迟,但可能会降低翻译质量。因此,平衡翻译质量和延迟需要根据具体的应用场景和需求进行调整。

换个 LLM,就像换了个“翻译官”,水平肯定不一样。有的 LLM 擅长咬文嚼字,翻译出来可能很准确,但是太慢;有的 LLM 反应快,但是容易犯错。所以啊,选 LLM 也得“看人下菜碟”,得根据同传的应用场景来选。至于定制嘛,我觉得很有搞头!就像 F1 赛车一样,专门优化一下,速度和性能都能提升一大截!

选择不同的 LLM 作为策略模型肯定会对结果产生显著影响。LLM 的规模、预训练数据、微调策略等都会影响其翻译质量、流畅度和延迟。更大的 LLM 通常具有更好的语言理解和生成能力,但同时也可能带来更高的计算成本和延迟。针对同传任务定制 LLM 是一个很有前景的方向。可以考虑以下几个方面:1)优化 LLM 的架构,使其更适合处理实时序列数据;2)使用专门的同传语料库进行训练,提高 LLM 在同传场景下的翻译准确性;3)引入延迟损失函数,引导 LLM 在训练过程中学习如何平衡质量和延迟。

我觉得实际应用里最大的挑战还是鲁棒性。实验室环境的数据比较干净,但真实场景里口音、语速、噪音啥都有,对模型的抗干扰能力要求很高。另外,不同领域的同传对专业术语的翻译要求也很高,模型需要有很强的领域知识。

这个奖励函数的设计挺有意思的,它不是简单地加权平均,而是先归一化,保证了质量和延迟在同一尺度下比较。λ 超参数就像一个“指挥棒”,指挥模型往哪个方向努力。如果 λ 接近 1,那就是“质量优先”,模型会尽量提高翻译的准确性,哪怕慢一点;如果 λ 接近 0,那就是“速度至上”,模型会追求更低的延迟,但翻译质量可能打折扣。说白了,这个 λ 的值就是个 trade-off,需要在实际应用中不断尝试和调整,才能找到最合适的平衡点。

实验室里跑得欢,不代表田里也能撒开丫子跑。实际应用场景复杂多了!你想啊,发布会现场,speaker 说话带口音,还夹杂着各种术语,背景还有噪音,这模型不得懵圈?还有,这玩意儿的成本也是个问题,跑一套 SeqPO-SiMT,得烧多少 GPU 啊?要是成本太高,谁用得起?

这肯定有影响啊!LLM 本身的语言理解和生成能力就直接决定了翻译的上限。如果 LLM 对源语言和目标语言的掌握都不够好,或者对同传这种实时性要求高的任务不擅长,那再怎么优化策略也没用。当然,专门为同传定制 LLM 肯定是个方向,可以针对同传的特点,比如上下文依赖、低延迟等,进行专门的训练和优化。