本文提出了一个基于神经网络的语音识别系统List, Attend and Spell（LAS），能够将语音直接转录为文字。

进步性：LAS将声学、发音和语言模型融合为一个神经模型，因此可以实现端到端。LAS只包含两部分：收听器（listener）和拼写器（speller）。收听器是一个金字塔循环网络编码器，拼写器是一个基于注意力机制的循环网络解码器。

1. 相关工作

当前最先进的语音识别器包含多个组分：声学模型、语言模型、发音模型和文本规范化模型。每个模型都有各自的假设和概率模型。也有工作尝试让这些组分联合训练，但一般是前端的声学模型会被迭代，后端的语言、发音和文本模型基本不变。

2. 方法细节

LAS的输入是一系列被过滤出来的bank spectra特征，输出是一系列字母、数字、标点符号、语气或未知符号。

LAS的基本方法是：在收听器，声音信号被编码为特征；拼写器根据特征以及过去所有时刻的输出，依照条件概率的链式法则，来推断输入和输出符号之间的条件概率，然后选择条件概率最大者作为输出。

核心公式就是两个：
\[
\mathbf{h} = \text{Listen} (\mathbf{x})
\]
\[
P(y_i | \mathbf{x}, y_{<i}) = \text{AttendAndSpell} (y_{<i}, \mathbf{h})
\]

从图上就能观察出这两个公式。

2.1 收听器

整体框架如图，是一个金字塔形的多层双向LSTM结构。为什么不直接用LSTM呢？作者发现BiLSTM收敛巨慢无比，而且效果还不好。【看来应该是因为时间步太多导致收敛慢，因为每个时间步的输入差异大。因为有些句子单词很多】

在这个金字塔形BiLSTM中，每层的时间步数目会依次减半。实验中设了3层BiLSTM。

2.2 注意力和拼写

这里采用的是结合了注意力机制的单向LSTM。如图：

每一时刻的上下文向量由特征向量和该时刻的状态向量共同决定的：
\[
c_i = \text{AttentionContext} (s_i, \mathbf{h})
\]
每一时刻的状态向量由上一时刻的状态向量、上一时刻的输出和上一时刻的环境向量共同决定：
\[
s_i = \text{RNN} (s_{i-1}, y_{i-1}, c_{i-1})
\]

那么具体这个上下文是怎么算的呢？其实是简单的加权组合：
\[
c_i = \sum_u \alpha_{i,u} h_u
\]

\(h_u\)就是第\(u\)个特征。而权重\(\alpha_{i,u}\)是将\(s_i\)和\(h_u\)分别输入MLP后，算内积得到的。注意最后所有的\(\alpha_{i,u}\)要输入softmax归一化。

在训练后，\(\alpha_{i,u}\)通常会收敛到某些\(u\)附近，即只与少数的\(h_u\)有关。

其他细节就不管了，因为我们也不做这个。

Paper | LISTEN, ATTEND AND SPELL: A NEURAL NETWORK FOR LARGE VOCABULARY CONVERSATIONAL SPEECH RECOGNITION的更多相关文章

语音识别2 -- Listen,Attend,and Spell (LAS)
LAS是Listen(Encoder),Attend,和Spell(Decoder)的简称第一个步骤Listen(Encoder) listen的作用是输入一段语音信号,输出一段向量,去掉语音中的杂 ...
Paper: ImageNet Classification with Deep Convolutional Neural Network
本文介绍了Alex net 在imageNet Classification 中的惊人表现,获得了ImagaNet LSVRC2012第一的好成绩,开启了卷积神经网络在cv领域的广泛应用. 1.数据集 ...
读paper:Deep Convolutional Neural Network using Triplets of Faces, Deep Ensemble, andScore-level Fusion for Face Recognition
今天给大家带来一篇来自CVPR 2017关于人脸识别的文章. 文章题目:Deep Convolutional Neural Network using Triplets of Faces, Deep ...
（转）How Transformers Work --- The Neural Network used by Open AI and DeepMind
How Transformers Work --- The Neural Network used by Open AI and DeepMind Original English Version l ...
(zhuan) Recurrent Neural Network
Recurrent Neural Network 2016年07月01日 Deep learning Deep learning 字数:24235 this blog from: http:/ ...
（转）The Neural Network Zoo
转自:http://www.asimovinstitute.org/neural-network-zoo/ THE NEURAL NETWORK ZOO POSTED ON SEPTEMBER 14, ...
Recurrent Neural Network(循环神经网络)
Reference: Alex Graves的[Supervised Sequence Labelling with RecurrentNeural Networks] Alex是RNN最著名变种 ...
论文笔记之：Progressive Neural Network Google DeepMind
Progressive Neural Network Google DeepMind 摘要:学习去解决任务的复杂序列 --- 结合 transfer (迁移),并且避免 catastrophic f ...
深度神经网络如何看待你，论自拍What a Deep Neural Network thinks about your #selfie
Convolutional Neural Networks are great: they recognize things, places and people in your personal p ...

随机推荐

css知识笔记：水平垂直居中（别只看，请实操！！！）
css实现元素的水平垂直居中. (尝试采用5W2H方法说明): 别只看,请实操!!! What: 1.这篇文档主要描述元素水平方向居中的几种最常见和最实用的几种方式,并说明优缺点. 2.写这篇文章的目 ...
mysql 写入中文乱码
今天从另一个系统往mysql数据库写入数据,发现中文变成了????? 检查数据库的设置 ,server对应字符集是latinl 调整mysql参数配置,配置文件目录/etc/mysql/mysql.c ...
QT执行shell脚本或者执行linux指令
由于我在做linux下的QT开发,有时候会用到shell脚本的辅助,但是需要QT运行shell脚本并获取执行结果,今天给大家分享下我的技巧,废话少说直接上代码: //执行shell指令或者shell脚 ...
详解Python函数参数定义及传参（必备参数、关键字参数、默认可省略参数、可变不定长参数、*args、**kwargs）
详解Python函数参数定义及传参(必备参数.关键字参数.默认可省略参数.可变不定长参数.*args.**kwargs) Python函数参数传参的种类 Python中函数参数定义及调用函数时传参 ...
连接查询变量、if else、while
连接查询变量.if else.while 一.连接查询:通过连接运算符可以实现多个表查询. 连接是关系数据库模型的主要特点,也是它区别于其它类型数据库管理系统的一个标志. 常用的两个链接运算符: ...
RTP Payload Format for VP8 Video
整体结构 0 1 2 3 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 +-+-+-+-+-+-+-+-+-+-+-+ ...
【Postman】举例实战——天气查询
准备工作: 1.下载postman(搜索官网下载即可) 2.接口文档(以聚合上去免费API:天气查询接口) 打开postman: 1.输入url 2.请求方式 3.请求参数 4.在postman中运行 ...
C++ std::array 基本用法
#include <iostream> #include <string> #include <array> using namespace std; // htt ...
多对多表结构的设计ManyToManyField（不会生成某一列、生成一张表）：
示例: 脚本: from django.db import models# Create your models here. class Publisher(models.Model): name = ...
volatile可见性案例-黑马
volatile可见性案例-黑马 package com.mozq.demo.demo; class Task implements Runnable{ //public boolean flag = ...