时间:2023-03-01 15:35:39 | 浏览:32
要将一个外国人说的话翻译成本国文字,通常需要两种机器学习模型:语音识别和文本翻译。最近,谷歌提出的 Translatotron 模型创造性地实现了单一模型端到端(End-to-End)的直接语音翻译。不仅如此,它还可以保留说话人的声音特征输出语音,实现最直接的翻译。
可能是职业习惯,《流浪地球》中有一幕让小编印象非常深刻:刘培强戴着耳机和俄罗斯宇航员交流,两人各自说着母语,然后被实时同步翻译,毫无障碍不说,甚至拉家常开玩笑都没问题。这种黑科技,太好用了叭!
最近谷歌的一项研究不仅实现了这项黑科技,而且比起电影里的机器人声音,谷歌的模型还可以模仿源说话者的声音生成目标语音。这么说吧,利用这个模型,当你说英文时,可以直接输出你 “讲” 的西班牙语。
这一神奇的模型叫做 Translatotron,它不仅可以实现端到端的语音翻译,还可以比传统的串联模型更快地完成翻译,并避免一些复杂过程所导致的「并发症」。
在过去的几十年里,语音到语音翻译系统的发展目标一直是帮助使用不同语言的人互相沟通。这种系统系统通常可以分为三个部分:将源语音转换为文本的自动语音识别、将得到的文本翻译为目标语言文本的机器翻译以及从翻译文本生成目标语言语音的文本 - 语音合成(TTS)。这种将任务分为几个阶段的级联模式一直以来都非常成功,支撑了很多商业语音到语音的翻译产品,包括谷歌的 Google Translate。
然而,这种 “三步走” 的方法能否再简化一下?
答案是肯定的。近日,谷歌提出了一种新的转换系统 ——Translatotron,可以实现源语音到目标语音的直接转换,还能保留源语音的声音特征。相关研究发表在 “Direct speech-to-speech translation with a sequence-to-sequence model” 论文中。
这一新系统基于单个注意力序列到序列模型,无需依赖中间的文本表征就能直接实现语音到语音的翻译。该系统没有将任务分为多个阶段,因此增加了一些传统级联系统无法比拟的优势,如推理速度更快、自然而然地避免识别和翻译之间的复合误差、翻译后更容易保持源语音的声音特征以及更好地处理无需翻译的单词(如名字和专有名词)。
Translatotron
端到端语音翻译模型最早出现在 2016 年,那时,研究者展示了使用单个序列到序列模型实现语音到文本翻译的可行性。2017 年,谷歌表明,这种端到端模型的表现优于级联模型。
最近,研究者们提出了很多端到端语音到文本翻译模型的改进方法,包括谷歌在利用弱监督数据上所做的努力(参见 “Leveraging Weakly Supervised Data to Improve End-to-End Speech-to-Text Translation”)。Translatotron 又往前推进了一步,无需依赖中间文本表征就能实现不同语言之间的语音翻译,这是之前的级联系统所无法做到的。
Translatotron 基于一个序列到序列的网络,该网络将源声谱作为输入,生成目标语言的翻译内容声谱。它还利用了另外两个单独训练的组件:一个神经语音编码器(vocoder),可以将输出声谱转化为时间域波形;以及一个扬声器编码器(speaker encoder)(可选),可用于在合成翻译语音中保持源语音的声音特征,如下图所示。
Translatotron 的模型架构。
在训练过程中,序列到序列的模型利用一个多任务目标来预测源和目标转录本,同时生成目标声谱。然而,推理期间并不使用任何转录脚本或其他中间本文表征。
性能
虽然简化了翻译流程,但翻译质量仍然是很重要好的问题。谷歌研究人员测试了 Translatotron 的翻译水平,以 BLEU 分数为标准(该分数是以语音输出再转录为文本计算的)。测试发现新方法目前仍无法达到传统方法的业内最佳水平,但已高于一些基线标准,实验证明了端到端直接语音翻译的可行性。
对于端到端的语音模型而言,如何训练是一个大问题 —— 目前多国语言语音对照数据集还很少。谷歌的研究中使用了语音合成的方法,把 Spanish-English MT 数据集中对应的文字生成了语音用于训练。此外,研究人员也找到了容量为 12 万对的 Fisher 西班牙语 - 英语语音数据集进行模型训练。
谷歌还放出了一些音频剪辑,展示了 Translatotron 的直接语音到语音翻译结果(见后文)。
保留声音特征
结合 speaker 编码器网络,Translatotron 能够在翻译后的语音中保留源说话者的声音特征,使得翻译后的语音听起来更加自然、和谐。这项功能利用了谷歌之前关于 speaker 验证和 multispeaker 文本语音合成技术的研究。
speaker 编码器在 speaker 验证任务上预训练,学习根据简短的示例表达编码说话者的声音特征。根据这种编码调节声谱图解码器,模型可以合成具有说话者相似特征的语音,即使内容为不同的语言。
下面的音频片段展示了 Translatotron 将源说话者的声音迁移到目标语音的效果。在这个示例中,Translatotron 给出的翻译结果比基线级联模型更准确,同时还保留了源说话者的声音特征。保留源说话者声音的 Translatotron 输出使用的训练数据比使用标准声音(不保留源说话者声音)更少,所以它们生成的翻译略有不同。
音频地址:
https://google-research.github.io/lingvo-lab/translatotron/#conversational
结论
谷歌表示,据目前所知,Translatotron 是第一个可以直接实现从一种语言到另一种语言语音转换的端到端模型。它还能在翻译后的语音中保留源说话者的声音。谷歌希望这项研究可以作为今后端到端语音翻译系统研究的起点。
论文:Direct speech-to-speech translation with a sequence-to-sequence model
论文地址:
https://arxiv.org/abs/1904.06037
摘要:谷歌展示了一种基于注意力的序列到序列神经网络,该网络可以直接实现从一种语言到另一种语言的语音转换,而无需依赖中间的文本表征。该网络是端到端训练的,学习将源语的语音声谱图映射到目标语声谱图中,翻译内容也是对应的。
该模型还能够使用源说话者的声音合成翻译语音。谷歌在两个西班牙语 - 英语语音翻译数据集上进行了实验,发现该模型的性能略低于语音 - 文本翻译模型和文本 - 语音合成模型的级联基线模型,表明了该方法在此极具挑战性的任务中是可行的。
参考内容:
https://ai.googleblog.com/2019/05/introducing-translatotron-end-to-end.html
https://venturebeat.com/2019/05/15/googles-translatotron-is-an-end-to-end-model-that-mimics-human-voices/
下面是我的建议:股票投资的入门知识主要包括证券交易基础知识、证券法规、证券投资分析、证券市场发展史这四个方面。股民几乎没有人去学习证券法规、证券市场发展史这类的内容。学好这些基础知识,有助于我们对股票市场的发展有一个深刻的认识,有助于我们树立正确的投资理念。
据其他爆料,华为Mate50系列将搭载骁龙8 4G处理器,预装鸿蒙3.0系统,其中标准版将采用中置挖孔直屏,Pro版将配备一块刘海屏,支持高级别人脸识别,内置4400mAh电池,支持66W快充,预计9月7日发布,届时将推出至少三款机型:华为Mate 50、华为Mate 50 Pro、华为Mate 50 RS保时捷设计版。
价格上也低于其他品牌,是主流企业邮箱中性价比算很高的了。企业邮箱的命名与格式高度统一,在对外邮件往来中,有助于树立统一的企业形象,轻松实现附带宣传效应。即使员工离职,通过对工作企业邮箱的回收,即可将所有业务联系保留和延续下来。
Linux操作系统,包括Ubuntu、Debian、CentOS等系统版本,这些都是非常优秀的开源系统,功能大同小异,界面和操作方法略有不同,参照对系统的熟悉程度和喜好选择即可。与Ubuntu比较,它没有太多的花哨,稳定压倒一切,对于服务器系统来说是一条不变的真理,debian这个linux系统,底层非常稳定,内核和内存的占用都非常小,在小内存的就可以流畅运行Debian,比如128m的内存,但debian的帮助文档和技术资料比较少。
自主建站可以适应于各种类型的商户和开发商。自主建站不仅可以帮助中小型企业、个体进行自主式的搭建网站,更可以在建站的时候提供特别简单的操作,满足各种类型员工的使用和维护。以上就是关于“自助建站系统模板”的相关介绍,西部数码云建站可以享受买2年送1年,买3年送2年,买5年送3年的优惠活动。
一、NFT简介非同质化通证(Non-Fungible Token,NFT)是一种架构在区块链技术上的,不可复制、篡改、分割的加密数字权益证明,可以理解为 一种去中心化的“虚拟资产或实物资产的数字所有权证书”。
“不可替代/非同质化”一词在经济学中通常用于表示拥有独特的对象,并描述无法被其他对象替代的事物,因为它们具有一组独特的属性。作为记账单位的“代币”是由智能合约的计算机算法控制的分布式区块链中的账户,其中记录了代币持有者账户上的余额值,从而可。
动力电池、驱动电机、电控系统是新能源汽车的核心零部件,合称三电系统,是决定汽车性能的关键。动力电池是新能源汽车的“能量”来源,而驱动电机、电控系统作为传统发动机功能的替代,其性能直接决定电动汽车的爬坡、加速、最高速度等主要性能指标。
相信大家都非常清楚手机操作系统对于手机的重要性,一个好的操作系统能够为用户带来更加人性化、更合理的使用体验。近日,一个即将到来的操作系统在数码圈引起了发烧友们的注意,它就是vivo全新操作系统—— #OriginOS#,此系统也将于本月18。
一个独特的宝宝名字往往会让人眼前一亮,不自觉的也会增加人的好感。运用什么样的方法来为宝宝起名呢?免费取名网专业免费自动取名100分生成名字系统:wwwchahaomingcom