欧易

欧易(OKX)

国内用户最喜爱的合约交易所

火币

火币(HTX )

全球知名的比特币交易所

币安

币安(Binance)

全球用户最多的交易所

谷歌揭秘自家翻译系统:如何利用AI技术提高翻译质量

时间:2023-03-01 17:25:55 | 浏览:239

对于机器翻译来说,如果一门语言可用的文字资料越多,经过人工智能模型训练出来的翻译效果就越好。但并不是所有语言都具备丰富可用训练的文字资料,这样一来,如何在数据不多的情况下,训练出更好的翻译器,成为机器翻译领域里需要解决的问题之一。近日,谷歌

对于机器翻译来说,如果一门语言可用的文字资料越多,经过人工智能模型训练出来的翻译效果就越好。但并不是所有语言都具备丰富可用训练的文字资料,这样一来,如何在数据不多的情况下,训练出更好的翻译器,成为机器翻译领域里需要解决的问题之一。

近日,谷歌在自己的博客上介绍了公司最新的翻译创新技术,这些技术提升了谷歌翻译的用户体验。目前谷歌翻译可支持108种语言,平均每天翻译1500亿个单词。

谷歌翻译最早亮相于2006年,在过去的13年间,翻译水平有了重大飞跃。谷歌表示,其翻译突破并不是由单一技术推动的,而是针对低资源语言、高资源语言、总体质量、推理速度等一系列技术组合的突破。在2019年5月到2020年5月之间,根据人工评估和BLEU(基于翻译系统翻译和人工参考翻译之间相似性的衡量标准),谷歌翻译在所有语言中平均提高了5分以上,在50种语料资源最少的语言中平均提高了7分以上。

混合模型和数据挖掘器

在这系列技术突破中,谷歌首先提到了混合模型和数据挖掘器。

混合模型指的是由Transformer编码器和递归神经网络(RNN)解码器构成的模型。在机器翻译中,编码器通常将单词和短语编码为内部表征,解码器将其生成为所需要的语言文本。谷歌的研究人员在2017年称首次提出,翻译质量的提高主要依靠编码器。谷歌团队称这可能是因为RNN和Transformer都设计为处理有序数据序列,但Transformers并不需要按顺序处理序列。换句话说,如果所讨论的数据是自然语言,则Transformer无需在处理结尾之前先处理句子的开头。

尽管如此,RNN解码器在推理时间上仍然比Transformer中的解码器要“快得多”。谷歌翻译团队认识到这一点,于是在将RNN解码器与Transformer编码器耦合之前,对RNN解码器进行了优化,以创建低延迟、质量及稳定性均比此前所使用的RNN神经机器翻译模型更胜一筹的混合模型。

除了新颖的混合模型体系结构之外,谷歌还升级了爬虫工具,爬虫工具可以从数以百万计的示例翻译中收集编译训练数据。升级后,谷歌嵌入了14 种大语言对,而不是单纯基于字典数据。也就是说它是使用实数向量来表示单词和短语,更多地聚焦于精确性(检索数据中的相关数据部分),而非检索(实际检索的相关数据总量)。产出效果方面,谷歌说这使得该数据挖掘器提取到的句子数量平均增加了29%。

“嘈杂”的数据和迁移学习

谷歌翻译性能提升的另一个技术突破来自更好地处理训练数据中的“噪声”。“噪声”即嘈杂的数据,因含有大量无法正确理解或解释的信息数据,从而会损害语料资源丰富的语言翻译。因此谷歌翻译团队部署了一个系统,该系统使用经过训练的模型为翻译示例分配分数,进而筛选出“纯净”的数据。实际上,这些模型一开始基于所有的数据进行训练,然后逐渐基于更小、更纯净的数据子集进行训练,这种方法在人工智能研究领域被称为课程学习。

对于机器翻译来说,传统上依赖于源语言和目标语言中成对句子的语料统计。对于资源较少的语言,谷歌在谷歌翻译中采用了一个回译机制,来强化并行训练数据,即语言中的每个句子都与其译文相配对。在该机制中,训练数据与合成的并行数据自动对齐,目标文本为自然语言,而源文本则由神经翻译模型生成。结果是,谷歌翻译充分利用更丰富的单语文本数据来训练模型,谷歌称这对提高翻译流畅性特别有帮助。

此外,谷歌翻译团队还建了一个M4模型。M4模型由团队在2019年提出,该模型对100多种语言的250亿对句子进行训练后,提高了30多种低资源语言的翻译质量。这一模型也证明了在机器翻译过程中可以使用迁移学习技术。这也意味着收集包括法语、德语和西班牙语,这些有数十亿个并行示例的高资源语言,并进行训练后,可以应用于翻译诸如约鲁巴语,信德语和夏威夷语,这些仅有数万个示例的低资源语言。

机器翻译的未来

谷歌称,自2010年以来,翻译质量每年都在提高,但是机器翻译绝不是翻译问题的“终结者”。 谷歌承认,即使是增强后的模型也容易出错,包括将一种语言的不同方言混合在一起,产生过多的直译,以及在特定主题,非正式或口语上的表现不佳。

谷歌尝试用不同的方法来解决上述的问题。公司曾发布一项计划旨在招募志愿者,通过检查翻译单词和短语是否正确来帮助提高低资源语言的翻译性能。 今年2月份,谷歌翻译与新兴的机器学习技术相结合后就完成了进步,他们提供了仅有7500万人使用的五种语言翻译,例如Kinyarwanda(卢旺达语),Odia(奥里亚语),Tatar(鞑靼语),Turkmen(土库曼语)和Uyghur(维吾尔语)。

追求真正通用翻译的并不只有谷歌一家。在2018年8月,Facebook发布了一种AI模型,该模型结合了逐词翻译,语言模型和反向翻译,在语言配对方面表现优异。最近,麻省理工学院计算机科学与人工智能实验室的研究人员提出了一种无监督模型,即可以从未经明确标记或分类的测试数据中学习的模型,该模型可以在两种语言的文本之间进行翻译,而无需在两种语言之间直接进行翻译。

相关资讯

谷歌揭秘自家翻译系统:如何利用AI技术提高翻译质量

对于机器翻译来说,如果一门语言可用的文字资料越多,经过人工智能模型训练出来的翻译效果就越好。但并不是所有语言都具备丰富可用训练的文字资料,这样一来,如何在数据不多的情况下,训练出更好的翻译器,成为机器翻译领域里需要解决的问题之一。近日,谷歌

专业广告翻译-商业广告翻译-公益广告翻译-联邦在线翻译

广告专业翻译广告有广义和狭义之分,广义广告包括非经济广告和经济广告。非经济广告指不以盈利为目的的广告,如政府行政部门、社会事业单位乃至个人的各种公告、启事、声明等。狭义广告仅指经济广告,又称商业广告,是指以盈利为目的的广告,通常是商品生产者

揭秘谷歌翻译背后的技术突破:序列到序列学习

我们都知道并且喜欢使用Google翻译,这个网站可以瞬时翻译100种不同的人类语言,就好像有魔法一样。他甚至存在于我们的手机和智能手表上面。Google翻译背后的科技被称为机器翻译。它改变了世界,在本来根本不可能的情况下让(不同语言的)人们

谷歌翻译杨绛《我们仨》背后,是资深语言学家揭秘谷歌翻译之不能

编译 | 张震、Edison Ke来源 | The Atlantic作者 | Douglas Hofstadter周末,在我们每周的 Salsa 舞蹈课上,朋友 Frank 带了一位丹麦客人。我知道 Frank 会说丹麦语,因为他妈妈就是丹

电脑操作系统的安装方法介绍,装电脑操作系统就是没技术含量!

上期的文章我跟大家分享了电脑装系统的理论知识点,涉及到U盘启动的制作、BIOS内重要英文单词的解释、电脑不认硬盘或U盘的解决方案、PE维护系统内的分区工具等知识,那这期我们就不再重复上期解释的这些知识点了,如果没有读到我上期文章作品的朋友请

将哀悼翻译成祝贺,谷歌翻译是故意设置,还是技术故障?

谷歌翻译翻车了!伊朗外长近日发布一段视频显示,如果用波斯语输入“向黎巴嫩人民表示哀悼”,翻译英语的话,谷歌翻译结果会变成“祝贺”。而如果输入“向以色列/美国人民表示哀悼”却翻译的非常准确。这是谷歌的技术问题吗?还是故意的?1、谷歌不太可能是

时隔两月后,招商证券交易系统再出故障!曾自爆:3月宕机的系统是20年前的老系统

每经记者:王海慜 每经编辑:叶峰招商证券的交易系统又出问题了!5月16日早间开盘后,有投资者反映称,招商证券系统再次崩溃,PC与APP端均无法登陆。据了解,招商证券APP曾在2020年7月、今年3月出现过两次比较大的宕机事件。在一个多月前,

电脑的操作系统——Windowsxp/7/10/11系统的区别和系统的便利性

导读我们的电脑在使用的时候是要借助操作系统来使用的,那么市面上现在最常见的电脑系统有哪些,并且这个系统怎么样,能适合我们使用吗?老程今天就带大家来了解了解电脑的系统。Windows xp作为一个老系统,很多人都已经不怎么见过windowsx

别再用盗版系统!电脑系统坏了不要紧,教你一步恢复原装正版系统

Hello大家好,我是兼容机之家的小牛。电脑故障一般分为两类,一种是硬件故障,一种是软件故障。现在解决电脑故障很是简单,要是硬件故障,哪里坏了就换哪里;要是软件问题,不能解决的话,直接重装系统是最为方便的。但是重装系统很是麻烦的,一般情况下

更精准流畅!Google翻译今正式运用神经网络机器翻译系统

面世十年以来,Google 翻译支持的语言已经增加到了103种,为无数来自不同语言地区的人建立了联系,突破了语言障碍,它甚至见证了很多美好的跨语言爱情。起初,Google 开拓性地推出了大型统计机器翻译(Large-scale Statis

日语翻译-深圳日语翻译机构-日语翻译公司选哪一个?

去找日语翻译公司的时候您是不是一开始也有很大的苦恼,现在翻译公司有那么多个到底从中找一个才合适呢?挑的眼花缭乱,根本不知道选哪一个,现在日语对国人来说,也越来越多人进行学日语,所以日语译员也相对比较多。如果您挑花了眼,那么您要不要试试汇泉/

以译会友,点亮翻译人才培养聚能灯——第四届人民中国杯日语国际翻译大赛颁奖仪式暨翻译实践研讨会成功举办

2021年11月28日,第四届人民中国杯日语国际翻译大赛颁奖仪式暨翻译实践研讨会,以线下主会场和线上实况转播相结合的形式,在广东外语外贸大学国际学术交流中心举行。教指委日语专业教学指导分委员会主任委员、天津外国语大学原校长修刚,日本国驻广州

中文翻译日文翻译器哪个好?这样翻译就对了

中文翻译日文翻译器哪个好?现在我们在学习一门外语的时候经常需要不断进行口语练习和词句翻译。口语练习需要多听,在翻译上我们则是可以在运用自身所学知识的情况下,合理运用翻译工具,来把中文翻译成日文。现在的翻译工具可太多了,那中文翻译日文翻译器哪

日语翻译公司-专业日语翻译服务-海历阳光翻译

 海历阳光日语翻译公司:我们有着专业的日语翻译团队,提供最专业的日语翻译服务,提供日语的口译、笔译、本地化翻译服务。我们立足北京、天津、上海、深圳,提供全国性的日语翻译服务。 日语翻译力在于译文的“信、达、雅”,海历阳光翻译公司对于翻译人员

现实中翻译丘丘人语言,竟然真能翻译完整?日语翻译搞笑无厘头

原神是全球全平台登录的游戏,在多个国家和地区都有服务器。因此原神游戏中自带了中、日、英、韩四种语音,这其中英语是通用语言就是为了方便不同国家的玩家游玩原神。不过国际上的语言何其多,这四种语言只能说是官方尽力而为了,太多的语言会成倍地增加文本

友情链接

网址导航 SEO域名抢注宝宝起名网妈妈知道币圈金牌月嫂网新加坡旅游网花果山旅游攻略本草纲目资讯网热水袋品牌网雅安新闻头条网长隆欢乐世界资讯网今日马鞍山设计师学习网办公文具品牌网装修公司资讯网兰蔻彩妆网台湾卤肉饭加盟官网徒步旅行网比亚迪A股
数字藏品系统开发网是目前国内领先的数字艺术品、nft、元宇宙、数字藏品、nft开发、数字藏品平台、数字藏品平台建设、数字藏品平台开发、nft平台开发数字收藏品交易业务、NFT艺术品交易业务专用系统平台,为品牌提供一站式建设数字藏品平台服务,拥有丰富的数藏平台建设与运营经验。
数字藏品系统开发 hezua.cn ©2022-2028版权所有