2月初,AAAI 2020在美国纽约拉开了帷幕。本届大会百度共有28篇论文被收录。本文将对其中的机器翻译领域入选论文《Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding》进行解读。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruP97grEpmCwA5Sms2kHtrFBcDK0lRcsAuchFicRtP9iaGkOBPqHkb6upw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
一、研究背景

语音翻译技术是指利用计算机实现从一种语言的语音到另外一种语言的语音或文本的自动翻译过程。该技术可以广泛应用于会议演讲、商业会谈、跨境客服、出国旅游等各个领域和场景,具有重要的研究价值和广阔的应用前景。

近年来,随着人工智能技术在语音、翻译等相关领域的蓬勃发展,语音翻译技术逐渐成为学术界和企业界竞相研究的热点。当前的语音翻译系统通常由语音识别、机器翻译和语音合成等多个模块串联组成,方法简单,但面临着噪声容错、断句标点、时间延迟等一系列技术难题。

端到端的语音翻译模型在理论上可以缓解级联系统的缺陷,它通过直接建立源语言语音到目标语言文本的映射关系,一步实现跨模态跨语言的翻译,一旦技术成熟,理论上可以让语音翻译更准更快,极大地提升模型的性能。论文作者发现语音识别和语音翻译两个任务是相辅相成的。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruPHfqQfyFIroppGLJNN75w5IXNtRWKLzqzRS3VoeoJoeibd63iaEFiaTXA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
图1

如图1所示,语音识别和语音翻译交互示例相比于直接将原始语音作为输入,如果能够动态获取到识别出的文本信息,语音翻译将变得更加容易;而翻译出的结果也有助于同音词识别的消歧,使识别结果更加准确。

因此,论文作者们希望设计一种交互式的模型,让语音识别与语音翻译两个任务可以动态交互学习,实现知识的共享和传递。

二、技术方案

针对上述问题,作者们在论文中提出了一种基于交互式解码的同步语音识别与语音翻译模型。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruYiaB2EbwibZCnbZv6lBoSxhB1Nr3lVSKxMphHXQmtGMGdanyB9NG4icJA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
图2 基于交互式解码的同步语音识别与语音翻译

如图2所示,论文作者使用基于自注意力机制的Transformer模型作为主框架,语音识别任务和语音翻译解码任务共享同一个编码器,在解码器中加入一个交互注意力机制层,实现两个任务的知识交互和传递。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruqkMSLKoqV7ABkunkKgHq79Ubdtb5udeADCZjgmw2YZwxdtDMJQPCKQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
图3 交互注意力机制层

如图3所示,交互注意力机制层包含一个自注意力模块和一个跨任务注意力模块。其中前者用于提取当前任务输出端的特征表示,后者用于提取另一个任务输出端的特征表示,两者通过一个线性插值函数融合得到包含两个任务信息的特征表示。

在训练阶段,两个任务同时优化;在解码阶段,两个任务同步进行。如此,在预测下一个词的过程中既可以用到当前任务的已生成的词语,也可以利用到另一个任务上已生成的词语。为了进一步提升语音翻译的性能,论文作者采用了一种wait-k的方法,使得语音翻译任务相比语音识别任务延迟k个词语进行,以获得更多更可靠的文本信息作为辅助。

三、实验结果

目前语音翻译数据十分匮乏且质量不高,为此论文作者构建了一个新的语音翻译数据集,数据来自TED网站视频和字幕文件,包含语音、识别文本、翻译文本的对齐语料。这里使用了英德、英法、英中、英日四种语言,前两种属于较为相似的语言对,后两种是不相似的语言对。

语音识别和语音翻译的结果分别使用词错误率(WER)和BLEU进行衡量。论文作者与多个强基线模型进行了对比,包括由语音识别和机器翻译模型串联组成的级联系统(Pipeline),在语音识别语料上进行预训练的端到端语音翻译模型(E2E),语音识别和语音翻译共享编码器的多任务模型(Multi-task),以及一个两阶段模型(Two-stage)(第一阶段解码器用于获取识别文本的中间表示,第二阶段解码器基于编码器的表示和第一阶段解码器的中间表示生成对应的翻译)。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvrub3j3u113ub6MOzreY4ONP2hRwuvyziaa4REboCzXGIwYBibWyDLMkTEA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
表1 不同模型在多个语言对上的实验结果

表1给出了不同模型在英德、英法、英中、英日不同语言对上的识别和翻译效果。可以看出在大多数情况下,基于交互式解码的同步语言识别与语音翻译模型的性能表现不管在语音识别任务还是语音翻译任务上都要显著高于预训练的端到端模型、多任务模型和两阶段模型。在相似的语言对上基于交互式解码的模型可以超越级联系统,在不相似的语言对上也与级联系统可比。值得注意的是之前端到端的语音翻译模型几乎都很难达到级联系统的性能。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvrumvXEW2QwXY0N4RBR67xcTqX3HjZud1tdfvNq5fGVgicGnyRQxwMzEtg/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
表2 wait-k对翻译性能的影响

为了进一步提升语音翻译的性能,论文作者让语音翻译任务相比语音识别任务延迟k个词语进行,以获得更多的文本信息作为辅助。表2给出了在开发集和测试集上不同的延迟词语数对于模型性能的影响。可以看出,虽然延迟词语会轻微影响识别任务的表现,但是语音翻译任务的性能可以得到提升。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruiamx2ST7iatL3Z3PTp9DsLXW8icWbpVicialLGnMfcQRMfyVhG2WCD1bMlg/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
表3 模型参数、训练速度和解码速度

论文中也对比了不同模型的参数量、训练和解码速率。表3给出了模型的参数量大小、每秒的训练步数和每秒的解码句子数。可以看出,论文中的模型较好地平衡了参数量和解码速率,相比级联系统,参数量获得的大幅降低;训练和解码速率显著低于两阶段模型;虽然解码速率略低于预训练端到端模型和多任务模型,但是论文中的方法可以实现两个任务的同步解码。

这篇论文也是百度翻译团队在端到端语音翻译领域的持续性研究成果,相比于之前在Interspeech2019发表的《End-to-End Speech Translation with Knowledge Distillation》,此次提出的新模型进一步提升了端到端语音翻译的性能,给学术界和企业界带来了新的思路。

论文地址:https://arxiv.org/abs/1912.07240

至此,《Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding》论文的分享到此结束,我们将继续对AAAI 2020中百度入选的其余3篇NLP领域论文进行详细解读,敬请关注!

百度自然语言处理(Natural Language Processing,NLP)以『理解语言,拥有智能,改变世界』为使命,研发自然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户,让复杂的世界更简单。

AAAI 2020论文分享:通过识别和翻译交互打造更优的语音翻译模型的更多相关文章

  1. 京东云与AI 10 篇论文被AAAI 2020 收录,京东科技实力亮相世界舞台

    美国时间2月7-12日,AAAI 2020大会在纽约正式拉开序幕,AAAI作为全球人工智能领域的顶级学术会议,每年评审并收录来自全球最顶尖的学术论文,这些学术研究引领着技术的趋势和未来.京东云与AI在 ...

  2. AAAI 2018 论文 | 蚂蚁金服公开最新基于笔画的中文词向量算法

    AAAI 2018 论文 | 蚂蚁金服公开最新基于笔画的中文词向量算法 2018-01-18 16:13蚂蚁金服/雾霾/人工智能 导读:词向量算法是自然语言处理领域的基础算法,在序列标注.问答系统和机 ...

  3. Infrared-Visible Cross-Modal Person Re-Identification with an X Modality (AAAI 2020)

    Infrared-Visible Cross-Modal Person Re-Identification with an X Modality (AAAI 2020) 1. Motivation 可见 ...

  4. Region Normalization for Image Inpainting, AAAI 2020

    论文:Region Normalization for Image Inpainting, AAAI 2020 代码:https://github.com/geekyutao/RN 图像修复的目的是重 ...

  5. 论文分享NO.4(by_xiaojian)

    论文分享第四期-2019.04.16 Residual Attention Network for Image Classification,CVPR 2017,RAN 核心:将注意力机制与ResNe ...

  6. 论文分享NO.3(by_xiaojian)

    论文分享第三期-2019.03.29 Fully convolutional networks for semantic segmentation,CVPR 2015,FCN 一.全连接层与全局平均池 ...

  7. 论文分享NO.2(by_xiaojian)

    论文分享第二期-2019.03.26 NIPS2015,Spatial Transformer Networks,STN,空间变换网络

  8. 论文分享NO.1(by_xiaojian)

    论文分享第一期-2019.03.14: 1. Non-local Neural Networks  2018 CVPR的论文 2. Self-Attention Generative Adversar ...

  9. [论文分享] DHP: Differentiable Meta Pruning via HyperNetworks

    [论文分享] DHP: Differentiable Meta Pruning via HyperNetworks authors: Yawei Li1, Shuhang Gu, etc. comme ...

随机推荐

  1. c语言中continue的运用,同时学习接收字符,打印字符,遍历字符

    /************************************************************************* > File Name: continue. ...

  2. Nuxt.js学习(二) --- Nuxt目录结构详解、Nuxt常用配置项、Nuxt路由配置和参数传递

    [TOC] 1.Nuxt目录结构详解 Nuxt项目文件目录结构 |-- .nuxt // Nuxt自动生成,临时的用于编辑的文件,build |-- assets // 用于组织未编译的静态资源入LE ...

  3. 898B. Proper Nutrition#买啤酒问题(枚举&取余)

    题目出处:http://codeforces.com/problemset/problem/898/B 题目大意:为一个整数能否由另外两个整数个整数合成 #include<iostream> ...

  4. Flume(二) —— 自定义拦截器、Source、Sink

    自定义拦截器 自定义Source 自定义Sink 引入依赖 <dependency> <groupId>org.apache.flume</groupId> < ...

  5. Clairaut 定理 证明

    (Clairaut 定理)设 $E$ 是 $\mathbf{R}^n$ 的开子集合,并设 $f:\mathbf{E}\to \mathbf{R}^{m}$ 是 $E$ 上的二次连续可微函数.那么对于一 ...

  6. 筛选nginx访问日志文件中的域名

    head  -n 500 1.log |awk  '{print $11}' > 1.txt     查看1.log日志文件前500行记录并打印出第11列也就是域名的那一列,并输出到1.txt文 ...

  7. Netty之内存泄露

    直接内存是IO框架的绝配,但直接内存的分配销毁不易,所以使用内存池能大幅提高性能. 1.为什么要有引用计数器 Netty里四种主力的ByteBuf,其中UnpooledHeapByteBuf底下的by ...

  8. ZOJ-1610 Count the Colors(线段树染色,求染色段)

    http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=1610 https://vjudge.net/contest/318019# ...

  9. SwaggerConfig

    package me.zhengjie.common.swagger2; import com.google.common.base.Predicates; import org.springfram ...

  10. laravel中用到的ServiceProvide

    路由 全局限制 如果你希望路由参数可以总是遵循正则表达式,则可以使用 pattern 方法.你应该在 RouteServiceProvider 的 boot 方法里定义这些模式: 1 2 3 4 5 ...