AAAI 2020论文分享：通过识别和翻译交互打造更优的语音翻译模型

2月初，AAAI 2020在美国纽约拉开了帷幕。本届大会百度共有28篇论文被收录。本文将对其中的机器翻译领域入选论文《Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding》进行解读。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruP97grEpmCwA5Sms2kHtrFBcDK0lRcsAuchFicRtP9iaGkOBPqHkb6upw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
一、研究背景

语音翻译技术是指利用计算机实现从一种语言的语音到另外一种语言的语音或文本的自动翻译过程。该技术可以广泛应用于会议演讲、商业会谈、跨境客服、出国旅游等各个领域和场景，具有重要的研究价值和广阔的应用前景。

近年来，随着人工智能技术在语音、翻译等相关领域的蓬勃发展，语音翻译技术逐渐成为学术界和企业界竞相研究的热点。当前的语音翻译系统通常由语音识别、机器翻译和语音合成等多个模块串联组成，方法简单，但面临着噪声容错、断句标点、时间延迟等一系列技术难题。

端到端的语音翻译模型在理论上可以缓解级联系统的缺陷，它通过直接建立源语言语音到目标语言文本的映射关系，一步实现跨模态跨语言的翻译，一旦技术成熟，理论上可以让语音翻译更准更快，极大地提升模型的性能。论文作者发现语音识别和语音翻译两个任务是相辅相成的。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruPHfqQfyFIroppGLJNN75w5IXNtRWKLzqzRS3VoeoJoeibd63iaEFiaTXA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
图1

如图1所示，语音识别和语音翻译交互示例相比于直接将原始语音作为输入，如果能够动态获取到识别出的文本信息，语音翻译将变得更加容易；而翻译出的结果也有助于同音词识别的消歧，使识别结果更加准确。

因此，论文作者们希望设计一种交互式的模型，让语音识别与语音翻译两个任务可以动态交互学习，实现知识的共享和传递。

二、技术方案

针对上述问题，作者们在论文中提出了一种基于交互式解码的同步语音识别与语音翻译模型。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruYiaB2EbwibZCnbZv6lBoSxhB1Nr3lVSKxMphHXQmtGMGdanyB9NG4icJA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
图2 基于交互式解码的同步语音识别与语音翻译

如图2所示，论文作者使用基于自注意力机制的Transformer模型作为主框架，语音识别任务和语音翻译解码任务共享同一个编码器，在解码器中加入一个交互注意力机制层，实现两个任务的知识交互和传递。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruqkMSLKoqV7ABkunkKgHq79Ubdtb5udeADCZjgmw2YZwxdtDMJQPCKQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
图3 交互注意力机制层

如图3所示，交互注意力机制层包含一个自注意力模块和一个跨任务注意力模块。其中前者用于提取当前任务输出端的特征表示，后者用于提取另一个任务输出端的特征表示，两者通过一个线性插值函数融合得到包含两个任务信息的特征表示。

在训练阶段，两个任务同时优化；在解码阶段，两个任务同步进行。如此，在预测下一个词的过程中既可以用到当前任务的已生成的词语，也可以利用到另一个任务上已生成的词语。为了进一步提升语音翻译的性能，论文作者采用了一种wait-k的方法，使得语音翻译任务相比语音识别任务延迟k个词语进行，以获得更多更可靠的文本信息作为辅助。

三、实验结果

目前语音翻译数据十分匮乏且质量不高，为此论文作者构建了一个新的语音翻译数据集，数据来自TED网站视频和字幕文件，包含语音、识别文本、翻译文本的对齐语料。这里使用了英德、英法、英中、英日四种语言，前两种属于较为相似的语言对，后两种是不相似的语言对。

语音识别和语音翻译的结果分别使用词错误率(WER)和BLEU进行衡量。论文作者与多个强基线模型进行了对比，包括由语音识别和机器翻译模型串联组成的级联系统(Pipeline)，在语音识别语料上进行预训练的端到端语音翻译模型(E2E)，语音识别和语音翻译共享编码器的多任务模型(Multi-task)，以及一个两阶段模型(Two-stage)(第一阶段解码器用于获取识别文本的中间表示，第二阶段解码器基于编码器的表示和第一阶段解码器的中间表示生成对应的翻译)。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvrub3j3u113ub6MOzreY4ONP2hRwuvyziaa4REboCzXGIwYBibWyDLMkTEA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
表1 不同模型在多个语言对上的实验结果

表1给出了不同模型在英德、英法、英中、英日不同语言对上的识别和翻译效果。可以看出在大多数情况下，基于交互式解码的同步语言识别与语音翻译模型的性能表现不管在语音识别任务还是语音翻译任务上都要显著高于预训练的端到端模型、多任务模型和两阶段模型。在相似的语言对上基于交互式解码的模型可以超越级联系统，在不相似的语言对上也与级联系统可比。值得注意的是之前端到端的语音翻译模型几乎都很难达到级联系统的性能。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvrumvXEW2QwXY0N4RBR67xcTqX3HjZud1tdfvNq5fGVgicGnyRQxwMzEtg/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
表2 wait-k对翻译性能的影响

为了进一步提升语音翻译的性能，论文作者让语音翻译任务相比语音识别任务延迟k个词语进行，以获得更多的文本信息作为辅助。表2给出了在开发集和测试集上不同的延迟词语数对于模型性能的影响。可以看出，虽然延迟词语会轻微影响识别任务的表现，但是语音翻译任务的性能可以得到提升。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruiamx2ST7iatL3Z3PTp9DsLXW8icWbpVicialLGnMfcQRMfyVhG2WCD1bMlg/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
表3 模型参数、训练速度和解码速度

论文中也对比了不同模型的参数量、训练和解码速率。表3给出了模型的参数量大小、每秒的训练步数和每秒的解码句子数。可以看出，论文中的模型较好地平衡了参数量和解码速率，相比级联系统，参数量获得的大幅降低；训练和解码速率显著低于两阶段模型；虽然解码速率略低于预训练端到端模型和多任务模型，但是论文中的方法可以实现两个任务的同步解码。

这篇论文也是百度翻译团队在端到端语音翻译领域的持续性研究成果，相比于之前在Interspeech2019发表的《End-to-End Speech Translation with Knowledge Distillation》，此次提出的新模型进一步提升了端到端语音翻译的性能，给学术界和企业界带来了新的思路。

论文地址：https://arxiv.org/abs/1912.07240

至此，《Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding》论文的分享到此结束，我们将继续对AAAI 2020中百度入选的其余3篇NLP领域论文进行详细解读，敬请关注！

百度自然语言处理（Natural Language Processing，NLP）以『理解语言，拥有智能，改变世界』为使命，研发自然语言处理核心技术，打造领先的技术平台和创新产品，服务全球用户，让复杂的世界更简单。

AAAI 2020论文分享：通过识别和翻译交互打造更优的语音翻译模型的更多相关文章

京东云与AI 10 篇论文被AAAI 2020 收录，京东科技实力亮相世界舞台
美国时间2月7-12日,AAAI 2020大会在纽约正式拉开序幕,AAAI作为全球人工智能领域的顶级学术会议,每年评审并收录来自全球最顶尖的学术论文,这些学术研究引领着技术的趋势和未来.京东云与AI在 ...
AAAI 2018 论文 | 蚂蚁金服公开最新基于笔画的中文词向量算法
AAAI 2018 论文 | 蚂蚁金服公开最新基于笔画的中文词向量算法 2018-01-18 16:13蚂蚁金服/雾霾/人工智能导读:词向量算法是自然语言处理领域的基础算法,在序列标注.问答系统和机 ...
Infrared-Visible Cross-Modal Person Re-Identiﬁcation with an X Modality (AAAI 2020)
Infrared-Visible Cross-Modal Person Re-Identiﬁcation with an X Modality (AAAI 2020) 1. Motivation 可见 ...
Region Normalization for Image Inpainting, AAAI 2020
论文:Region Normalization for Image Inpainting, AAAI 2020 代码:https://github.com/geekyutao/RN 图像修复的目的是重 ...
论文分享NO.4（by_xiaojian）
论文分享第四期-2019.04.16 Residual Attention Network for Image Classification,CVPR 2017,RAN 核心:将注意力机制与ResNe ...
论文分享NO.3（by_xiaojian）
论文分享第三期-2019.03.29 Fully convolutional networks for semantic segmentation,CVPR 2015,FCN 一.全连接层与全局平均池 ...
论文分享NO.2（by_xiaojian）
论文分享第二期-2019.03.26 NIPS2015,Spatial Transformer Networks,STN,空间变换网络
论文分享NO.1（by_xiaojian）
论文分享第一期-2019.03.14: 1. Non-local Neural Networks 2018 CVPR的论文 2. Self-Attention Generative Adversar ...
[论文分享] DHP: Differentiable Meta Pruning via HyperNetworks
[论文分享] DHP: Differentiable Meta Pruning via HyperNetworks authors: Yawei Li1, Shuhang Gu, etc. comme ...

随机推荐

logstash 使用glusterfs网络存储偶发性文件解析异常的问题
其实问题到现在为止也没有解决因为服务是部署在k8s上,挂载的,偶发性的出现文件解析异常 bom头已经验证过了手动重新解析这些文件完全正常,问题无法复现,文件本身并没有问题. 最后怀疑到了最不该怀疑 ...
Kubernetes系列：故障排查之Pod状态为CreateContainerError
查看pod状态如下图所示,当前状态为CreateContainerError. 通过kube describe命令去查看Pod的状态发现没有提示任何错误.但是当通过命令kube logs查看pod的日 ...
layer日期控件，开始时间不能大于结束时间
var start=laydate.render({ elem: '#beginTime', //指定元素 type: 'month', format:'yyyy-MM', done:function ...
php利用curl发送 post get del put patch 请求
因为需要在php开发中对接其它接口需要用php curl去对接其它接口我把他们封装成函数希望能对大家有所帮助这里面是封装好的会自动把data进行转成json格式同时解码成php数组 ...
添加新硬盘，扩展Centos7根分区
##背景介绍,系统安装时,分配的硬盘容量太小,根分区空间不够用,现添加一个新硬盘,通过以下步骤来扩展centos7根分区 [root@t201 ~]# df -h 文件系统容量已用可用已用% ...
二十九、rsync+inotity实时监控同步工具
一.场景应用: 客户通过url访问资源(查询,下载等),并发量是非常高的,所以运用负载均衡分担web服务器的压力,在后端连接不同的 ...
python_3_字符串
1.strip,lstrip,rstrip " hi, ming ".strip() #去掉前后空格 "@hi,ming@".strip("@&quo ...
46）PHP，PHP语言为啥需要服务器
1)用户的 Web 浏览器发出 HTTP 请求,请求特定 Web 页面. 2)Web服务器收到.php 的请求获取该文件,并将它传到 PHP 引擎,要求它处理. 3)PHP 引擎开始解析脚本. 脚本中 ...
PictureService
package me.zhengjie.tools.service; import me.zhengjie.tools.domain.Picture; import org.springframewo ...
interrupt 停止线程
该方法只是给线程设置了一个停止的标记并不是真正的立即停止线程 interrupted() 测试当前线程是否已经中断 isInterrupted() 测试线程是否已经中断停止线程的方法: .异常法 ...

AAAI 2020论文分享：通过识别和翻译交互打造更优的语音翻译模型

AAAI 2020论文分享：通过识别和翻译交互打造更优的语音翻译模型的更多相关文章

随机推荐

热门专题