时间:2023-03-01 17:25:55 | 浏览:48
对于机器翻译来说,如果一门语言可用的文字资料越多,经过人工智能模型训练出来的翻译效果就越好。但并不是所有语言都具备丰富可用训练的文字资料,这样一来,如何在数据不多的情况下,训练出更好的翻译器,成为机器翻译领域里需要解决的问题之一。
近日,谷歌在自己的博客上介绍了公司最新的翻译创新技术,这些技术提升了谷歌翻译的用户体验。目前谷歌翻译可支持108种语言,平均每天翻译1500亿个单词。
谷歌翻译最早亮相于2006年,在过去的13年间,翻译水平有了重大飞跃。谷歌表示,其翻译突破并不是由单一技术推动的,而是针对低资源语言、高资源语言、总体质量、推理速度等一系列技术组合的突破。在2019年5月到2020年5月之间,根据人工评估和BLEU(基于翻译系统翻译和人工参考翻译之间相似性的衡量标准),谷歌翻译在所有语言中平均提高了5分以上,在50种语料资源最少的语言中平均提高了7分以上。
混合模型和数据挖掘器
在这系列技术突破中,谷歌首先提到了混合模型和数据挖掘器。
混合模型指的是由Transformer编码器和递归神经网络(RNN)解码器构成的模型。在机器翻译中,编码器通常将单词和短语编码为内部表征,解码器将其生成为所需要的语言文本。谷歌的研究人员在2017年称首次提出,翻译质量的提高主要依靠编码器。谷歌团队称这可能是因为RNN和Transformer都设计为处理有序数据序列,但Transformers并不需要按顺序处理序列。换句话说,如果所讨论的数据是自然语言,则Transformer无需在处理结尾之前先处理句子的开头。
尽管如此,RNN解码器在推理时间上仍然比Transformer中的解码器要“快得多”。谷歌翻译团队认识到这一点,于是在将RNN解码器与Transformer编码器耦合之前,对RNN解码器进行了优化,以创建低延迟、质量及稳定性均比此前所使用的RNN神经机器翻译模型更胜一筹的混合模型。
除了新颖的混合模型体系结构之外,谷歌还升级了爬虫工具,爬虫工具可以从数以百万计的示例翻译中收集编译训练数据。升级后,谷歌嵌入了14 种大语言对,而不是单纯基于字典数据。也就是说它是使用实数向量来表示单词和短语,更多地聚焦于精确性(检索数据中的相关数据部分),而非检索(实际检索的相关数据总量)。产出效果方面,谷歌说这使得该数据挖掘器提取到的句子数量平均增加了29%。
“嘈杂”的数据和迁移学习
谷歌翻译性能提升的另一个技术突破来自更好地处理训练数据中的“噪声”。“噪声”即嘈杂的数据,因含有大量无法正确理解或解释的信息数据,从而会损害语料资源丰富的语言翻译。因此谷歌翻译团队部署了一个系统,该系统使用经过训练的模型为翻译示例分配分数,进而筛选出“纯净”的数据。实际上,这些模型一开始基于所有的数据进行训练,然后逐渐基于更小、更纯净的数据子集进行训练,这种方法在人工智能研究领域被称为课程学习。
对于机器翻译来说,传统上依赖于源语言和目标语言中成对句子的语料统计。对于资源较少的语言,谷歌在谷歌翻译中采用了一个回译机制,来强化并行训练数据,即语言中的每个句子都与其译文相配对。在该机制中,训练数据与合成的并行数据自动对齐,目标文本为自然语言,而源文本则由神经翻译模型生成。结果是,谷歌翻译充分利用更丰富的单语文本数据来训练模型,谷歌称这对提高翻译流畅性特别有帮助。
此外,谷歌翻译团队还建了一个M4模型。M4模型由团队在2019年提出,该模型对100多种语言的250亿对句子进行训练后,提高了30多种低资源语言的翻译质量。这一模型也证明了在机器翻译过程中可以使用迁移学习技术。这也意味着收集包括法语、德语和西班牙语,这些有数十亿个并行示例的高资源语言,并进行训练后,可以应用于翻译诸如约鲁巴语,信德语和夏威夷语,这些仅有数万个示例的低资源语言。
机器翻译的未来
谷歌称,自2010年以来,翻译质量每年都在提高,但是机器翻译绝不是翻译问题的“终结者”。 谷歌承认,即使是增强后的模型也容易出错,包括将一种语言的不同方言混合在一起,产生过多的直译,以及在特定主题,非正式或口语上的表现不佳。
谷歌尝试用不同的方法来解决上述的问题。公司曾发布一项计划旨在招募志愿者,通过检查翻译单词和短语是否正确来帮助提高低资源语言的翻译性能。 今年2月份,谷歌翻译与新兴的机器学习技术相结合后就完成了进步,他们提供了仅有7500万人使用的五种语言翻译,例如Kinyarwanda(卢旺达语),Odia(奥里亚语),Tatar(鞑靼语),Turkmen(土库曼语)和Uyghur(维吾尔语)。
追求真正通用翻译的并不只有谷歌一家。在2018年8月,Facebook发布了一种AI模型,该模型结合了逐词翻译,语言模型和反向翻译,在语言配对方面表现优异。最近,麻省理工学院计算机科学与人工智能实验室的研究人员提出了一种无监督模型,即可以从未经明确标记或分类的测试数据中学习的模型,该模型可以在两种语言的文本之间进行翻译,而无需在两种语言之间直接进行翻译。
下面是我的建议:股票投资的入门知识主要包括证券交易基础知识、证券法规、证券投资分析、证券市场发展史这四个方面。股民几乎没有人去学习证券法规、证券市场发展史这类的内容。学好这些基础知识,有助于我们对股票市场的发展有一个深刻的认识,有助于我们树立正确的投资理念。
据其他爆料,华为Mate50系列将搭载骁龙8 4G处理器,预装鸿蒙3.0系统,其中标准版将采用中置挖孔直屏,Pro版将配备一块刘海屏,支持高级别人脸识别,内置4400mAh电池,支持66W快充,预计9月7日发布,届时将推出至少三款机型:华为Mate 50、华为Mate 50 Pro、华为Mate 50 RS保时捷设计版。
创建于1958年的潍坊富源增压器有限公司,是国内研发制造高速涡轮机械的领军企业,公司的主营产品空气悬浮系列产品打破了国外技术垄断,享誉国内外。2022年,因业务发展需要,公司把空气悬浮系列产品业务分离,成立富源空气悬浮系统(潍坊)有限公司,专业发展空气悬浮系列产品相关业务,并启用fuyuan
价格上也低于其他品牌,是主流企业邮箱中性价比算很高的了。企业邮箱的命名与格式高度统一,在对外邮件往来中,有助于树立统一的企业形象,轻松实现附带宣传效应。即使员工离职,通过对工作企业邮箱的回收,即可将所有业务联系保留和延续下来。
Linux操作系统,包括Ubuntu、Debian、CentOS等系统版本,这些都是非常优秀的开源系统,功能大同小异,界面和操作方法略有不同,参照对系统的熟悉程度和喜好选择即可。与Ubuntu比较,它没有太多的花哨,稳定压倒一切,对于服务器系统来说是一条不变的真理,debian这个linux系统,底层非常稳定,内核和内存的占用都非常小,在小内存的就可以流畅运行Debian,比如128m的内存,但debian的帮助文档和技术资料比较少。
自主建站可以适应于各种类型的商户和开发商。自主建站不仅可以帮助中小型企业、个体进行自主式的搭建网站,更可以在建站的时候提供特别简单的操作,满足各种类型员工的使用和维护。以上就是关于“自助建站系统模板”的相关介绍,西部数码云建站可以享受买2年送1年,买3年送2年,买5年送3年的优惠活动。
一、NFT简介非同质化通证(Non-Fungible Token,NFT)是一种架构在区块链技术上的,不可复制、篡改、分割的加密数字权益证明,可以理解为 一种去中心化的“虚拟资产或实物资产的数字所有权证书”。
“不可替代/非同质化”一词在经济学中通常用于表示拥有独特的对象,并描述无法被其他对象替代的事物,因为它们具有一组独特的属性。作为记账单位的“代币”是由智能合约的计算机算法控制的分布式区块链中的账户,其中记录了代币持有者账户上的余额值,从而可。
动力电池、驱动电机、电控系统是新能源汽车的核心零部件,合称三电系统,是决定汽车性能的关键。动力电池是新能源汽车的“能量”来源,而驱动电机、电控系统作为传统发动机功能的替代,其性能直接决定电动汽车的爬坡、加速、最高速度等主要性能指标。
相信大家都非常清楚手机操作系统对于手机的重要性,一个好的操作系统能够为用户带来更加人性化、更合理的使用体验。近日,一个即将到来的操作系统在数码圈引起了发烧友们的注意,它就是vivo全新操作系统—— #OriginOS#,此系统也将于本月18。