欧易

欧易(OKX)

国内用户最喜爱的合约交易所

火币

火币(HTX )

全球知名的比特币交易所

币安

币安(Binance)

全球用户最多的交易所

Google翻译中的实时语音翻译

2023-03-01 15:45:55 385

摘要:Google Translate应用程序中 的转录功能可用于为会议和演讲等活动创建实时的,翻译的转录,或者只是在餐桌上以您不懂的语言编写一个故事。在这样的设置中,及时显示翻译后的文本很有用,以帮助读者保持即时参与。但是,使用此功能的早期版本...

Google Translate应用程序中 的转录功能可用于为会议和演讲等活动创建实时的,翻译的转录,或者只是在餐桌上以您不懂的语言编写一个故事。在这样的设置中,及时显示翻译后的文本很有用,以帮助读者保持即时参与。

但是,使用此功能的早期版本,翻译后的文本会遭受多次实时修订,这可能会分散注意力。这是由于源和翻译文本之间的非单调关系,其中源句子末尾的单词会影响翻译开始时的单词。

笔录(旧)—左:来自语音识别的原始笔录。右:显示给用户的翻译。经常对译文进行更正会干扰阅读体验。

今天,我们很高兴地介绍Google Translate应用程序中最近发布的转录功能更新背后的一些技术,该功能可显着减少翻译修订并改善用户体验。有两篇论文介绍了实现这一目标的研究。第一个制定了适合实时翻译的评估框架,并开发了减少不稳定的方法。在第二表明,这些方法都非常好比较的替代品,同时仍保留原有方法的简单。结果模型更加稳定,并在Google Translate中提供了明显改善的阅读体验。

笔录(新)—左:来自语音识别的原始笔录。右:显示给用户的翻译。以一点点延迟为代价,现在很少需要更正翻译。

评估实时翻译

在尝试进行任何改进之前,很重要的一点是首先了解并量化地衡量用户体验的各个方面,以期最大程度地提高质量,同时最大程度地减少延迟和不稳定性。在“用于长格式,同时,口语翻译的重新翻译策略”中,我们开发了一种实时翻译评估框架,此框架自此一直指导我们的研究和工程工作。这项工作使用以下指标提出了一项绩效指标:

    擦除:测量由于不稳定而给用户带来的额外阅读负担。它是最终翻译中每个单词被删除和替换的单词数。

    滞后:测量从用户说出单词到屏幕上显示的单词翻译稳定之间经过的平均时间。要求稳定性避免了奖励系统,该系统由于频繁的修正而只能快速运行。

    BLEU分数:衡量最终翻译的质量。中间翻译的质量差异是通过所有指标的组合来捕获的。

重要的是要认识到质量的这些不同方面之间的内在取舍。Transcribe通过在实时自动语音识别的基础上堆叠机器翻译来启用实时翻译。对于识别的成绩单的每次更新,都会实时生成一个新的翻译。每秒可能会发生几次更新。这种方法将Transcribe置于3D质量框架的一个极端:它显示了最小的滞后和最佳的质量,但是擦除率很高。了解这一点使我们能够努力寻求更好的平衡。

稳定重新翻译

减少擦除的一种直接解决方案是降低翻译的更新频率。沿着这条思路,“流式翻译”模型(例如STACL和MILk)可以智能地识别出何时已接收到足够的源信息以安全地扩展翻译,因此无需更改翻译。这样做,流翻译模型能够实现零擦除。

这种流翻译模型的缺点是它们再次处于极端位置:零擦除必须牺牲BLEU和滞后。相对于完全消除擦除,为偶尔的不稳定制定的少量预算可能会带来更好的BLEU和滞后。更重要的是,流翻译需要重新培训和维护专门用于实时翻译的专门模型。在某些情况下,这会排除使用流翻译,因为对于支持100多种语言的Google Translate这样的产品,保持精简管道是重要的考虑因素。

在我们的第二篇论文“重新翻译与同时翻译的流式传输”中,我们表明可以微调我们原来的实时翻译“重新翻译”方法以减少擦除并实现更有利的擦除/滞后/ BLEU交易-关。在不训练任何专业模型的情况下,我们对原始机器翻译模型应用了一对推理时间启发式方法-掩蔽和偏见。

正在进行的翻译的结尾倾向于闪烁,因为它更可能依赖于尚未到达的源单词。我们通过从翻译中截断一些单词直到观察到源句的结尾来减少这种情况。因此,此屏蔽过程将等待时间换成了稳定性,而不影响质量。这与在流方法(如Wait-k)中使用的基于延迟的策略非常相似,但仅在推理过程中而不在训练过程中应用。

神经机器翻译常常在同样好的翻译之间“拉锯”,造成不必要的擦除。我们通过将输出偏向我们已经显示给用户的内容来提高稳定性。除了减少擦除,偏向还可以通过更早地稳定翻译来减少延迟。偏向与掩蔽很好地相互作用,因为可能不稳定的掩蔽词也可以防止模型偏向它们。但是,此过程的确需要仔细调整,因为高偏差以及掩蔽不足可能会对质量产生负面影响。

掩蔽和偏置的结合产生了高质量和低延迟的重新翻译系统,同时几乎消除了擦除。下表显示了指标如何响应我们引入的启发式方法,以及它们如何与上述其他系统进行比较。该图表明,即使擦除预算很小,重新翻译也超过了专为实时翻译而训练的零闪烁流式翻译系统(MILk和Wait-k)。

在有和没有掩盖和偏见的推理时间稳定启发法的情况下,对IWSLT测试2018 Engish-German(TED演讲)的重新翻译进行评估。稳定度大大减少了擦除。由于偏见,以BLEU衡量的翻译质量受到的影响很小。尽管有掩蔽,但有效延迟仍然保持不变,因为转换会更快地稳定下来。

WMT 14英德文上的重新翻译与稳定化和专用流传输模型(Wait-k和MILk)的比较。通过偏移和掩蔽的不同组合获得重新翻译的BLEU滞后权衡曲线,同时每10个生成的擦除预算保持少于2个字的擦除预算。与无法进行更正并需要针对每个折衷点进行专门培训的流模型相比,重新翻译提供了更好的BLEU /滞后折衷。

上面概述的解决方案可以非常快速地返回不错的翻译,同时可以随着更多源句的使用而对其进行修订。简单的重新翻译结构使我们能够以最小的努力来应用我们最好的语音和翻译模型。但是,减少删除只是故事的一部分-我们也期待通过新技术改善整体语音翻译体验,这种新技术可以减少口译时的延迟,或者可以在多人讲话时提供更好的转录效果。

版权声明:本站所有文章皆是来自互联网,如内容侵权可以联系我们( 微信:bisheco )删除!
友情链接
币圈社群欧易官网