机器翻译行云流水,小米又双叒在国际赛事上获奖了

近日,第二十届国际口语机器翻译大会(International Conference on Spoken Language Translation ,简称 IWSLT)在加拿大多伦多举办。

小米AI实验室凭借其领先的技术优势,获得“非实时英中语音到语音”(Speech-to-Speech)赛道自动测评第一名的好成绩;同时,在“非实时英中语音到文本”“实时英中语音到文本”赛道上也取得了新的突破。

e4ee68f7c5a2d276c6b606dfd6d7fc8b.png

01

官方实测,小米语音翻译表现优异

IWSLT 始终聚焦于语音翻译领域热点问题和应用难题,每年都会发布不同类型的口语机器翻译任务,通过比赛推动技术发展和交流,吸引了众多国内外公司和科研机构参与。大赛至今已经举办20年,成为机器翻译领域最具影响力的国际赛事之一。

本届IWSLT,小米AI实验室共参加了英语到中文普通话语向的3个赛道,分别是非实时语音到语音翻译(Offline Speech to Speech Translation)、非实时语音到文本翻译(Offline Speech Translation), 以及实时语音到文本翻译(Simultaneous Speech to Text Translation)。在提交的英语到中文普通话语向上,在非实时语音到语音任务上获得了自动测评第一名;在非实时语音到文本翻译任务上,在提交的受限系统中获得了端到端的第二名;在实时语音到文本翻译任务上获得了第三名。

以下是官方公布的结果:

0b239fd3bfac5c794d3ecfea86e44e57.png

非实时语音到语音翻译自动测评结果小米第一

9ddf830712c3eff6baa3206b124ce4ba.png

小米获得了端到端语音翻译(受限系统)第二名

607f574c7cd06bbad5a19d6484161d7a.png

英到中实时语音到文本测评结果小米第三

*以上官方数据来源:Findings of the IWSLT 2023 Evaluation Campaign

02

技术解读,翻译系统优势大揭秘

语音翻译技术可以将一种语言的语音转换为另一种语言的文本或语音,即语音到文本翻译(speech-to-text translation)和语音到语音翻译(speech-to-speech translation)。这种技术的出现极大地减小了现实生活中跨语言沟通的障碍。

目前,在语音翻译领域,有两种主要的技术路线。第一种是端到端技术方案,它可以直接将源语音转换为目标文本。第二种是级联技术方案,它需要先将源语音识别为源文本,然后再将源文本翻译为目标文本。本次IWSLT,我们提交的三个系统都是基于端到端语音到文本翻译模型构建的。

我们训练了一个用于参加非实时语音到文本翻译赛道的系统。在这个系统的基础上,我们加入了流式解码,从而得到了我们的实时语音到文本翻译系统。同样地,在非实时语音到文本翻译系统的基础上,我们在非实时语音到语音赛道提供更大规模Giga ST数据上进行了进一步的训练,从而得到了翻译质量更好的非实时语音到文本翻译的系统。最后,我们将一个语音合成(TTS)系统串联到非实时语音到文本翻译系统上,得到了非实时语音到语音翻译系统。

6dff05159f5968e0855930722594047d.png

英语到中文普通话语向三个系统关系图

硬核技术如何为翻译赋能?背后有哪些创新奥秘?还得看小米AI实验室多维优化技术打造不凡翻译系统。小米不仅充分总结领域内外的经验,而且积极开拓创新,对系统进行了全方位多角度的“修炼”。

数据增强,海量数据让译文更“靠谱”

训练数据的数量对于神经网络模型的训练至关重要,然而现有的真实语音到文本翻译数据较少(约35万翻译句对),给端到端语音到文本翻译模型的训练造成困难。因此我们使用数据增强方法,基于数据量充分的英文语音识别数据,使用机器翻译模型将转录的英文文本翻译到中文,从而得到英文语音到中文文本的翻译数据,用于训练端到端语音到文本翻译模型。

在有限的参赛时间中,我们对约4500小时的语音识别数据进行了翻译增强,最终得到约180万条语音到文本翻译的数据,相较以往数据量有极大提升,能更好地保证端到端语音到文本翻译模型的翻译质量。

预训练加持,收敛更快,质量更优

在训练非实时端到端语音到文本翻译模型时,我们使用了预训练的HuBERT和mBERT对模型进行初始化,使得模型的收敛速度非常快,同时也显著提高了翻译质量。然而,在使用这两个模型进行初始化训练后,我们发现模型的训练不太稳定,有时会突然崩塌。

在实验中,我们发现模型的输入输出层梯度波动较大。因此,我们采取了两个措施:首先,我们对词表进行了裁剪,将mBART的词表从250k裁剪到70k;其次,对CNN层和Transformer编码器的梯度进行了缩放,以确保训练过程的稳定。此外我们还采用了多任务学习、对比学习、自训练等方法,使得翻译的质量进一步得到了提升。

f11ce2ce3f23b96b0b6da4ccf91239ba.png

端到端语音翻译模型结构

超级拟人技术,让语音更自然

在语音到语音翻译系统中,采用了超级拟人的个性化定制方案实现语音合成。首先,使用aishell3数据集训练得到一个多说话人的基座模型。其次,对Giga TTS中文数据集中的一部分进行降噪和数据扩充处理,并与基座模型生成的集内说话人的音色向量,进行说话人相似度的计算。最后,让Giga TTS数据集,在说话人相似度最高的向量上进行个性化适配,最终生成自然且更加拟人化的语音。

7eb304b82b1db9f52b9e97c21b25bcf0.png

语音合成流程

解码“查漏补缺”,流式更顺畅

在实时语音翻译系统中,团队发现译文存在翻译不完全的情况。这是因为翻译解码在输入完全之前提前中断,导致后续输入的语音严重漏译。因此,我们加入防止提前结束的策略,当发现解码过程中出现表示结束的词(eos),而程序检测到语句输入尚未完成时,便自发修正结束标志,继续解码。通过这种“查漏补缺”式的干预,让翻译完整通顺,从而提高译文质量。

小米参赛系统论文:The Xiaomi AI Lab’s Speech Translation Systems for IWSLT 2023 Offline Task, Simultaneous Task and Speech-to-Speech Task

03

产品应用,触手可及的翻译体验

小米AI实验室机器翻译团队组建于2018年,持续探索机器翻译前沿技术。目前,翻译技术已在小米手机和 AIoT 智能硬件产品中广泛落地,为小米手机用户打造了便捷好用、支持多场景翻译需求的小爱翻译App。

9b1cdd146334827980cda224941d368e.png

小爱实时翻译

高通骁龙8+芯片内置的第七代AI芯片提供了强大算力,小米MIX Fold 2折叠屏手机行业首发了基于骁龙AI芯片的全离线语音识别和机器翻译(详见又快又准又安全?实时字幕有“芯”秘密!)。用户在观看外语视频、开外语在线会议、甚至无网需要外语交流时都可以接近实时地看到双语字幕。同时,音频数据默认保存在手机本地,无需上传云端处理,隐私更安全。

00f9068550fb78800d03c6eaeb8d4799.png

小爱同声传译

双人对话,边说边译,面对面跨语言沟通无障碍,轻松应对全球多个国家的不同英文口音。

ef203cd55c27fd491714b9f072433c3f.png

MIUI笔记会议秘书

涉外会议中,使用小米MIUI笔记会议秘书,可以直接翻译并记录会议内容,还有精细的声纹识别可以将会中角色也区别开来,全面解放你的双手和头脑,把时间留给思考,实现高效的AI会议纪要。

3c6b043060a2b43f268fc8d8b4cda26d.png

家眼镜相机

米家眼镜相机也内置了能提供实时中英互译功能的“小爱翻译”,用户在参加外语会议和出国旅游时,佩戴眼镜就可以轻松理解外语内容以及应对外语交流。

cc3d61eaf4772b4922dca07f5e3a4e4c.png

-

近年来,小米在机器翻译方向的技术积累日渐丰厚,并已在小米手机和 AIoT 智能硬件产品中广泛落地,陆续自研了“同声传译”“会议秘书”“实时字幕”“通话翻译”“图片翻译”“网页翻译”等功能。

通过“全能翻,极速译”的小爱翻译App,小米用户无论是与外国友人面对面或通话沟通,还是观看没有字幕的外语视频、浏览外文网页,甚至遇到含有外文的图片时,都能随时随地轻松翻译,实现边说边译、边听边译、边看边译,享受科技带来的自在沟通的美好生活。

542451ce0737877123f00699e88d91ca.gif

e68ebe2313f41477e723659f6dd572fa.png

猜你喜欢

转载自blog.csdn.net/pengzhouzhou/article/details/131714289