从 WaveNet 到 Tacotron,再到 RNN-T 谷歌再获语音识别新进展:利用序列转导来实现多人语音识别和说话人分类 雷锋网 AI 科技评论按:从 WaveNet 到 Tacotron,再到 RNN-T,谷歌一直站在语音人工智能技术的最前沿.近日,他们又将多人语音识别和说话人分类问题融合在了同一个网络模型中,在模型性能上取得了重大的突破. 对于自动理解人类音频的任务来说,识别「谁说了什么」(或称「说话人分类」)是一个关键的步骤.例如,在一段医生和患者的对话中,医生问:「你按时服用心脏病…
欢迎大家前往腾讯云社区,获取更多腾讯海量技术实践干货哦~ 作者:侯艺馨 前言 总结目前语音识别的发展现状,dnn.rnn/lstm和cnn算是语音识别中几个比较主流的方向.2012年,微软邓力和俞栋老师将前馈神经网络FFDNN(Feed Forward Deep Neural Network)引入到声学模型建模中,将FFDNN的输出层概率用于替换之前GMM-HMM中使用GMM计算的输出概率,引领了DNN-HMM混合系统的风潮.长短时记忆网络(LSTM,LongShort Term Memory)…
1. 针对机器学习/深度神经网络“记忆能力”的讨论 0x1:数据规律的本质是能代表此类数据的通用模式 - 数据挖掘的本质是在进行模式提取 数据的本质是存储信息的介质,而模式(pattern)是信息的一种表现形式.在一个数据集中,模式有很多不同的表现形式,不管是在传统的机器学习训练的过程,还是是深度学习的训练过程,本质上都是在进行模式提取. 而从信息论的角度来看,模式提取也可以理解为一种信息压缩过程,通过将信息从一种形式压缩为另一种形式.压缩的过程不可避免会造成信息丢失. 笔者这里列举几种典型的体…
前言 总结目前语音识别的发展现状,dnn.rnn/lstm和cnn算是语音识别中几个比较主流的方向.2012年,微软邓力和俞栋老师将前馈神经网络FFDNN(Feed Forward Deep Neural Network)引入到声学模型建模中,将FFDNN的输出层概率用于替换之前GMM-HMM中使用GMM计算的输出概率,引领了DNN-HMM混合系统的风潮.长短时记忆网络(LSTM,LongShort Term Memory)可以说是目前语音识别应用最广泛的一种结构,这种网络能够对语音的长时相关性…
目录 炙手可热的LSTM 引言 RNN的问题 恐怖的指数函数 梯度消失* 解决方案 LSTM 设计初衷 LSTM原理 门限控制* LSTM 的 BPTT 参考文献: 炙手可热的LSTM 引言 上一讲说到RNN. RNN可说是目前处理时间序列的大杀器,相比于传统的时间序列算法,使用起来更方便,不需要太多的前提假设,也不需太多的参数调节,更重要的是有学习能力,因此是一种'智能'算法.前面也说到, 不只时间序列,在很多领域,特别是涉及序列数据的,RNN的表现总是那么的'抢眼'.不过,在这抢眼的过程中,…
循环神经网络 (Recurrent Neural Network,RNN) 是一类具有短期记忆能力的神经网络,因而常用于序列建模.本篇先总结 RNN 的基本概念,以及其训练中时常遇到梯度爆炸和梯度消失问题,再引出 RNN 的两个主流变种 -- LSTM 和 GRU. Vanilla RNN Vanilla RNN 的主体结构: 上图中 \(\bf{X, h, y}\) 都是向量,公式如下: \[ % <![CDATA[ \begin{align} \textbf{h}_{t} &= f_{\…
之前在几篇博客中说到了权重共享,但都觉得不够全面,这里做个专题,以后有新的理解都在此更新. 1. 减少运算只是锦上添花之前说到权重共享可以减少运算,是的,但这样说好像是可有可无,只是运算量大小的问题,其实不是可有可无的. 2. 权重共享的本质是特征提取之前说到权重就是模板,我们按照一定的模板来与样本进行比对,看看有没有与模板一致的外在表现(特征) 3. 权重共享使得模型泛化普通的神经网络输入是固定的,而权重共享可以使得输入不固定.比如很多张图像,每张图像上有个人脸,但是人脸在图像的不同位置,或者…
原文链接:https://yq.aliyun.com/topic/111 本文是对原文内容中部分概念的摘取记录,可能有轻微改动,但不影响原文表达. 08 - BP算法双向传,链式求导最缠绵 反向传播(Back Propagation,简称BP) 算法 在神经网络(甚至深度学习)参数训练中,BP算法占据举足轻重的地位. 实际上BP算法是一个典型的双向算法,但通常强调的是反向传播. 工作流程分两大步: 正向传播输入信号,输出分类信息(对于有监督学习而言,基本上都可归属于分类算法).简单说来,就是把信…
5.1循环序列模型 觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.5不同类型的循环神经网络 上节中介绍的是 具有相同长度输入序列和输出序列的循环神经网络,但是对于很多应用\(T_{x}和T_{y}\)并不一定相等. 在此节会介绍不同的能够处理不同问题的循环神经网络. 多对多循环神经网络 对于命名实体识别的问题中,RNN的输出和输入序列长度一致--\(T_{x}=T_{y}\). 则在每读一个单词时都输出预测的值\(\hat{y}\) 这是一个典型的多对多的问题. 多对一循环神经网络…
第一周 循环序列模型(Recurrent Neural Networks) 为什么选择序列模型?(Why Sequence Models?) 在本课程中你将学会序列模型,它是深度学习中最令人激动的内容之一.循环神经网络(RNN)之类的模型在语音识别.自然语言处理和其他领域中引起变革.在本节课中,你将学会如何自行创建这些模型.我们先看一些例子,这些例子都有效使用了序列模型. 在进行语音识别时,给定了一个输入音频片段 \(X\),并要求输出对应的文字记录 \(Y\).这个例子里输入和输出数据都是序列…