欧易

欧易(OKX)

国内用户最喜爱的合约交易所

火币

火币(HTX )

全球知名的比特币交易所

币安

币安(Binance)

全球用户最多的交易所

同声传译被攻陷!谷歌发布Translatotron直接语音翻译系统

时间:2023-03-01 15:47:44 | 浏览:57

【新智元导读】今天,谷歌发布Translatotron语音翻译系统,这是第一个可以直接将一个人的声音从一种语言转换成另一种语言,同时保持说话人的声音和节奏的翻译模型。让说不同语言的人更容易地、直接地相互交流,这是语音到语音的翻译系统(Spe


【新智元导读】今天,谷歌发布Translatotron语音翻译系统,这是第一个可以直接将一个人的声音从一种语言转换成另一种语言,同时保持说话人的声音和节奏的翻译模型。

让说不同语言的人更容易地、直接地相互交流,这是语音到语音的翻译系统(Speech-to-speech translation)的目的,这样的系统在过去几十年里取得了不错的进展。

今天,谷歌发布Translatotron语音翻译系统,这是第一个可以直接将一个人的声音从一种语言转换成另一种语言,同时保持说话人的声音和节奏的翻译模型

传统上,语音翻译系统通常有3个独立的部分:自动语音识别将源语音转录为文本,机器翻译将转录的文本翻译成目标语言,最后,文本到语音合成(TTS)系统将翻译文本转换成目标语言的语音。

许多商业语音到语音翻译的产品都采用这样的系统,包括Google Translate。但是,这类系统依赖于中间文本,准确率不高,而且效率较低。

谷歌的新工具Translatotron舍弃了将语音翻译为文本再返回语音的步骤,而是采用端到端的技术,直接将说话者的声音翻译成另一种语言。这使它能够快速地翻译,但更重要的是,能够更容易反映说话人的语调和节奏。



在论文《基于序列到序列模型的直接语音到语音翻译》(Direct speech-to-speech translation with a sequence-to-sequence model)中,谷歌的研究人员提出一种基于单个注意力序列到序列模型的直接语音到语音翻译的新实验系统,该系统不依赖于中间文本表示。

这个系统被称为Translatotron,避免了将任务划分为独立的阶段,比级联系统更有优势,包括推理速度快、自然地避免了识别和翻译之间的复合错误,能够在翻译后保留原说话者的声音,以及能够更好地处理不需要翻译的单词(如名称和专有名词)。

Translatotron:不依赖中间文本,直接翻译语音

语音翻译端到端模型的出现始于2016年,当时研究人员证明了使用单个序列到序列模型进行语音到文本翻译的可行性。2017年,我们证明了这种端到端模型可以超越级联模型(cascade models)。

最近有许多工作进一步改进了端到端语音到文本翻译模型的方法,包括同样来自谷歌的利用弱监督数据的工作(
https://arxiv.org/abs/1811.02050)。

Translatotron更进一步,证明了单个序列到序列模型可以直接将一种语言的语音翻译成另一种语言的语音,而不需要像级联系统那样依赖于任何一种语言的中间文本表示。

Translatotron基于一个sequence-to-sequence网络,它将源声谱图(spectrograms)作为输入,生成目标语言翻译内容的声谱图


输入和生成的声谱图

此外,Translatotron还使用了另外两个单独训练的组件:一个神经声音编码器(neural vocoder),可以将输出声谱图转换为时域波形;另外,还可以选择使用一个speaker encoder,用于在合成翻译语音时保持源speaker的语音特征。

在训练过程中,序列到序列模型使用一个多任务目标预测源和目标转录文本,同时生成目标声谱图。然而,推理过程中不需要使用转录文本或其他中间文本表示。


Translatotron的模型结构

性能

谷歌通过测量BLEU分数来验证Translatotron的翻译质量。该分数是通过语音识别系统转录的文本计算的。虽然结果落后于传统的级联系统,但已经证明了端到端直接语音到语音转换的可行性。



对比Translatotron到基线级联方法的直接语音到语音翻译输出,在这种情况下,两个系统都提供合适的翻译并使用相同的规范语音很自然的说话。

保持声音特征

通过结合扬声器编码器网络,Translatotron还能够在翻译的语音中,保留原始说话者的声音特征,这使得翻译的语音听起来更自然,不那么刺耳。

此功能利用了之前针对TTS的演讲者验证和演讲者调整的Google研究。扬声器编码器在演讲者验证任务上进行预训练,学习从简短的示例话语对扬声器特性进行编码。在该编码上调节频谱图解码器,即使内容是在不同的语言中,也可以合成具有类似扬声器特性的语音。

谷歌提供了诸多使用示例,如下面的例子,Translatotron将西班牙语对话转换为英语,下面的音频分别是西班牙语输入、真人参考翻译,以及Translatotron的翻译。

(由于微信智能插入一个音频,请点击原文链接听更多语音。)

Translatotron的翻译:

更多示例:

https://google-research.github.io/lingvo-lab/translatotron/#conversational

在这个例子中,Translatotron提供比基线级联模型更准确的平移,同时能够保留原始说话者的声音特征。保留原始说话者声音的Translatotron输出训练的数据,少于使用规范声音的数据,因此它们产生的翻译略有不同。

结论

谷歌声称,Translatotron是第一个可以直接将一种语言的语音,翻译成另一种语言的语音的端到端模型。它还能够在翻译的语音中保留源说话者的声音。谷歌希望这项工作可以作为未来端到端语音转语音翻译系统研究的起点。

参考链接:

http://ai.googleblog.com/2019/05/introducing-translatotron-end-to-end.html

更多声音样本:

https://google-research.github.io/lingvo-lab/translatotron/#conversational

论文地址:

https://arxiv.org/abs/1904.06037

相关资讯

谷歌翻译好用?维基百科联手谷歌帮助编辑翻译文章

【CNMO新闻】多年来,维基百科一直致力于让其同名百科全书支持更多种语言。但非营利组织的努力进展缓慢,部分原因在于它使用的翻译工具。长期以来,网站上的编辑表达了使用谷歌翻译的愿望,因为它可以使翻译更快。维基百科的母公司维基媒体基金会(Wik

谷歌翻译杨绛《我们仨》背后,是资深语言学家揭秘谷歌翻译之不能

编译 | 张震、Edison Ke来源 | The Atlantic作者 | Douglas Hofstadter周末,在我们每周的 Salsa 舞蹈课上,朋友 Frank 带了一位丹麦客人。我知道 Frank 会说丹麦语,因为他妈妈就是丹

谷歌揭秘自家翻译系统:如何利用AI技术提高翻译质量

对于机器翻译来说,如果一门语言可用的文字资料越多,经过人工智能模型训练出来的翻译效果就越好。但并不是所有语言都具备丰富可用训练的文字资料,这样一来,如何在数据不多的情况下,训练出更好的翻译器,成为机器翻译领域里需要解决的问题之一。近日,谷歌

翻译器实时翻译-谷歌SEO必备神器「批量自动翻译」

翻译器实时翻译,今天给大家分享一款免费批量翻译的翻译器,我们为什么要选择这款好用的翻译器,因为汇集了世界最好的几个翻译平台(百度/谷歌/有道),第一点翻译质量高,选择性多。第二点支持各种语言互译,第三点可以各种批量文档翻译,第四点保留翻译前

谷歌回应谷歌翻译辱华

谷歌翻译系统出现恶毒攻击中国词汇,网友怒斥“真恶心!”谷歌回应今天微博上有多位网友发现了一个令人非常气愤的情况,令#谷歌翻译#成为引发很多人反感的标签。原因是网友发现,在谷歌翻译的英文翻中文程序中,在英文对话框输入“艾滋病毒”等相关词汇,对

专业广告翻译-商业广告翻译-公益广告翻译-联邦在线翻译

广告专业翻译广告有广义和狭义之分,广义广告包括非经济广告和经济广告。非经济广告指不以盈利为目的的广告,如政府行政部门、社会事业单位乃至个人的各种公告、启事、声明等。狭义广告仅指经济广告,又称商业广告,是指以盈利为目的的广告,通常是商品生产者

同声传译被攻陷!谷歌发布Translatotron直接语音翻译系统

【新智元导读】今天,谷歌发布Translatotron语音翻译系统,这是第一个可以直接将一个人的声音从一种语言转换成另一种语言,同时保持说话人的声音和节奏的翻译模型。让说不同语言的人更容易地、直接地相互交流,这是语音到语音的翻译系统(Spe

重建「巴别塔」:谷歌推出全新端到端语音翻译系统

要将一个外国人说的话翻译成本国文字,通常需要两种机器学习模型:语音识别和文本翻译。最近,谷歌提出的 Translatotron 模型创造性地实现了单一模型端到端(End-to-End)的直接语音翻译。不仅如此,它还可以保留说话人的声音特征输

笑掉牙!那些街头日文翻译成的中文,你确定没用谷歌翻译?

翻译是两国文化交流中最重要的一环。特别是出国旅游时,翻译可以说是不可缺少的一个要素。但是由于各种因素,常常有些令人捧腹的粗糙机翻出现在人们眼前。近几年,日本的中国游客达到了一个空前的数量,于是各种翻译也就应运而生,其中,尤其以各种街头告示牌

翻译器在线翻译-大家都在用的谷歌SEO优化排名神器

翻译器在线翻译,今天给大家分享一款免费翻译器在线翻译,我们为什么要选择这款好用的翻译软件,因为汇集了世界最好的几个翻译平台(百度/谷歌/有道),第一点翻译质量高,选择性多。第二点支持各种语言互译,第三点可以各种批量文档翻译,第四点保留翻译前

谷歌翻译退出了国内市场?来看看还有哪些翻译网站值得收藏吧!

10月初谷歌翻译正式宣布退出中国大陆市场,这对长期使用谷歌翻译的小伙伴们造成了不小的影响,大家或许一时间都不知道该用哪个网站作为替代。如果你也还在挑选合适自己的翻译网站,那么就来看看这期盘点吧!1.Yandex Translate网址:ht

按头强推!这款完全免费的翻译神器让你彻底忘记谷歌翻译

谷歌翻译退出中国后,很多读者可能很难适应国内的各种翻译引擎,国内翻译引擎通常翻译功能较谷歌翻译相比有一段距离,而且像彩云小译这样的国内翻译软件商业化太严重,很多文档翻译,网页翻译这类的额外功能都进行了收费设置。目前免费且功能强大,同时翻译效

谷歌翻译被碾压!全球首个翻译引擎DeepL归来,“细节狂魔”搞定

来源:大数据文摘本文约3200字,建议阅读8分钟本文为你介绍一款在线机器翻译软件DeepL。标签:前沿成果最近,一款在线机器翻译软件在日本大火。这款翻译软件名叫DeepL,大火的原因正是因为它工作太负责了,翻译得太过准确,在日本引起了热议。

突发!国内谷歌翻译停用,这些平替翻译工具一定要收藏

刚放完十月一假期,很多小伙伴刚刚复工复学,可能会发现一个很严重的事情,谷歌翻译不能用了!打开谷歌翻译的页面就会提示错误无法登陆,与谷歌搜索,谷歌地图等其他的功能一样,均无法使用。而且谷歌翻译退出中国后,这里不单单指谷歌翻译的在线翻译无法使用

硬核测评,碾压谷歌翻译!首个翻译引擎进化归来,搞定方言文言文

大数据文摘出品作者:刘俊寰最近,一款在线机器翻译软件在日本大火。这款翻译软件名叫DeepL,大火的原因正是因为它工作太负责了,翻译得太过准确,在日本引起了热议。从日本网友的民间测评来看,不仅日语方言翻译效果杠杠的,连文言文也被拿下,要知道,

友情链接

网址导航 SEO域名抢注宝宝起名网妈妈知道币圈虎跳峡旅游攻略陈赫影迷网悬空寺旅游攻略公司起名取名网今日吕梁南昌交友聚会网今日芜湖杭州西湖旅游攻略手机数码网睡前故事大全马来西亚旅游网登山运动网克徕帝钻戒茶颜悦色会员日谢苗影迷网
数字藏品系统开发网是目前国内领先的数字艺术品、nft、元宇宙、数字藏品、nft开发、数字藏品平台、数字藏品平台建设、数字藏品平台开发、nft平台开发数字收藏品交易业务、NFT艺术品交易业务专用系统平台,为品牌提供一站式建设数字藏品平台服务,拥有丰富的数藏平台建设与运营经验。
数字藏品系统开发 hezua.cn ©2022-2028版权所有