时间:2023-03-01 15:47:44 | 浏览:21
【新智元导读】今天,谷歌发布Translatotron语音翻译系统,这是第一个可以直接将一个人的声音从一种语言转换成另一种语言,同时保持说话人的声音和节奏的翻译模型。
让说不同语言的人更容易地、直接地相互交流,这是语音到语音的翻译系统(Speech-to-speech translation)的目的,这样的系统在过去几十年里取得了不错的进展。
今天,谷歌发布Translatotron语音翻译系统,这是第一个可以直接将一个人的声音从一种语言转换成另一种语言,同时保持说话人的声音和节奏的翻译模型。
传统上,语音翻译系统通常有3个独立的部分:自动语音识别将源语音转录为文本,机器翻译将转录的文本翻译成目标语言,最后,文本到语音合成(TTS)系统将翻译文本转换成目标语言的语音。
许多商业语音到语音翻译的产品都采用这样的系统,包括Google Translate。但是,这类系统依赖于中间文本,准确率不高,而且效率较低。
谷歌的新工具Translatotron舍弃了将语音翻译为文本再返回语音的步骤,而是采用端到端的技术,直接将说话者的声音翻译成另一种语言。这使它能够快速地翻译,但更重要的是,能够更容易反映说话人的语调和节奏。
在论文《基于序列到序列模型的直接语音到语音翻译》(Direct speech-to-speech translation with a sequence-to-sequence model)中,谷歌的研究人员提出一种基于单个注意力序列到序列模型的直接语音到语音翻译的新实验系统,该系统不依赖于中间文本表示。
这个系统被称为Translatotron,避免了将任务划分为独立的阶段,比级联系统更有优势,包括推理速度快、自然地避免了识别和翻译之间的复合错误,能够在翻译后保留原说话者的声音,以及能够更好地处理不需要翻译的单词(如名称和专有名词)。
语音翻译端到端模型的出现始于2016年,当时研究人员证明了使用单个序列到序列模型进行语音到文本翻译的可行性。2017年,我们证明了这种端到端模型可以超越级联模型(cascade models)。
最近有许多工作进一步改进了端到端语音到文本翻译模型的方法,包括同样来自谷歌的利用弱监督数据的工作(
https://arxiv.org/abs/1811.02050)。
Translatotron更进一步,证明了单个序列到序列模型可以直接将一种语言的语音翻译成另一种语言的语音,而不需要像级联系统那样依赖于任何一种语言的中间文本表示。
Translatotron基于一个sequence-to-sequence网络,它将源声谱图(spectrograms)作为输入,生成目标语言翻译内容的声谱图。
输入和生成的声谱图
此外,Translatotron还使用了另外两个单独训练的组件:一个神经声音编码器(neural vocoder),可以将输出声谱图转换为时域波形;另外,还可以选择使用一个speaker encoder,用于在合成翻译语音时保持源speaker的语音特征。
在训练过程中,序列到序列模型使用一个多任务目标预测源和目标转录文本,同时生成目标声谱图。然而,推理过程中不需要使用转录文本或其他中间文本表示。
Translatotron的模型结构
谷歌通过测量BLEU分数来验证Translatotron的翻译质量。该分数是通过语音识别系统转录的文本计算的。虽然结果落后于传统的级联系统,但已经证明了端到端直接语音到语音转换的可行性。
对比Translatotron到基线级联方法的直接语音到语音翻译输出,在这种情况下,两个系统都提供合适的翻译并使用相同的规范语音很自然的说话。
通过结合扬声器编码器网络,Translatotron还能够在翻译的语音中,保留原始说话者的声音特征,这使得翻译的语音听起来更自然,不那么刺耳。
此功能利用了之前针对TTS的演讲者验证和演讲者调整的Google研究。扬声器编码器在演讲者验证任务上进行预训练,学习从简短的示例话语对扬声器特性进行编码。在该编码上调节频谱图解码器,即使内容是在不同的语言中,也可以合成具有类似扬声器特性的语音。
谷歌提供了诸多使用示例,如下面的例子,Translatotron将西班牙语对话转换为英语,下面的音频分别是西班牙语输入、真人参考翻译,以及Translatotron的翻译。
(由于微信智能插入一个音频,请点击原文链接听更多语音。)
Translatotron的翻译:
更多示例:
https://google-research.github.io/lingvo-lab/translatotron/#conversational
在这个例子中,Translatotron提供比基线级联模型更准确的平移,同时能够保留原始说话者的声音特征。保留原始说话者声音的Translatotron输出训练的数据,少于使用规范声音的数据,因此它们产生的翻译略有不同。
结论
谷歌声称,Translatotron是第一个可以直接将一种语言的语音,翻译成另一种语言的语音的端到端模型。它还能够在翻译的语音中保留源说话者的声音。谷歌希望这项工作可以作为未来端到端语音转语音翻译系统研究的起点。
参考链接:
http://ai.googleblog.com/2019/05/introducing-translatotron-end-to-end.html
更多声音样本:
https://google-research.github.io/lingvo-lab/translatotron/#conversational
论文地址:
https://arxiv.org/abs/1904.06037
下面是我的建议:股票投资的入门知识主要包括证券交易基础知识、证券法规、证券投资分析、证券市场发展史这四个方面。股民几乎没有人去学习证券法规、证券市场发展史这类的内容。学好这些基础知识,有助于我们对股票市场的发展有一个深刻的认识,有助于我们树立正确的投资理念。
据其他爆料,华为Mate50系列将搭载骁龙8 4G处理器,预装鸿蒙3.0系统,其中标准版将采用中置挖孔直屏,Pro版将配备一块刘海屏,支持高级别人脸识别,内置4400mAh电池,支持66W快充,预计9月7日发布,届时将推出至少三款机型:华为Mate 50、华为Mate 50 Pro、华为Mate 50 RS保时捷设计版。
价格上也低于其他品牌,是主流企业邮箱中性价比算很高的了。企业邮箱的命名与格式高度统一,在对外邮件往来中,有助于树立统一的企业形象,轻松实现附带宣传效应。即使员工离职,通过对工作企业邮箱的回收,即可将所有业务联系保留和延续下来。
Linux操作系统,包括Ubuntu、Debian、CentOS等系统版本,这些都是非常优秀的开源系统,功能大同小异,界面和操作方法略有不同,参照对系统的熟悉程度和喜好选择即可。与Ubuntu比较,它没有太多的花哨,稳定压倒一切,对于服务器系统来说是一条不变的真理,debian这个linux系统,底层非常稳定,内核和内存的占用都非常小,在小内存的就可以流畅运行Debian,比如128m的内存,但debian的帮助文档和技术资料比较少。
自主建站可以适应于各种类型的商户和开发商。自主建站不仅可以帮助中小型企业、个体进行自主式的搭建网站,更可以在建站的时候提供特别简单的操作,满足各种类型员工的使用和维护。以上就是关于“自助建站系统模板”的相关介绍,西部数码云建站可以享受买2年送1年,买3年送2年,买5年送3年的优惠活动。
一、NFT简介非同质化通证(Non-Fungible Token,NFT)是一种架构在区块链技术上的,不可复制、篡改、分割的加密数字权益证明,可以理解为 一种去中心化的“虚拟资产或实物资产的数字所有权证书”。
“不可替代/非同质化”一词在经济学中通常用于表示拥有独特的对象,并描述无法被其他对象替代的事物,因为它们具有一组独特的属性。作为记账单位的“代币”是由智能合约的计算机算法控制的分布式区块链中的账户,其中记录了代币持有者账户上的余额值,从而可。
动力电池、驱动电机、电控系统是新能源汽车的核心零部件,合称三电系统,是决定汽车性能的关键。动力电池是新能源汽车的“能量”来源,而驱动电机、电控系统作为传统发动机功能的替代,其性能直接决定电动汽车的爬坡、加速、最高速度等主要性能指标。
相信大家都非常清楚手机操作系统对于手机的重要性,一个好的操作系统能够为用户带来更加人性化、更合理的使用体验。近日,一个即将到来的操作系统在数码圈引起了发烧友们的注意,它就是vivo全新操作系统—— #OriginOS#,此系统也将于本月18。
一个独特的宝宝名字往往会让人眼前一亮,不自觉的也会增加人的好感。运用什么样的方法来为宝宝起名呢?免费取名网专业免费自动取名100分生成名字系统:wwwchahaomingcom