上节回顾深度学习与人类语言处理-语音识别(part1),这节课我们将学习如何将seq2seq模型用在语音识别 LAS 那我们来看看LAS的Encoder,Attend,Decoder分别是什么 Listen Listen是一个典型的Encoder结构,输入为声学特征\({x^1,x^2,...,x^T}\),输出和输入长度相同,是对声学特征的高阶表示,\({h^1,h^2,...,h^T}\). 我们希望Encoder可以做到以下两件事: 提取输入的内容信息 移除不同说话者之间的差异,去掉噪音…
语音识别 语音识别该何去何从? 1969年,J.R. PIERCE:"语音识别就像把水变成汽油.从大海中淘金.治疗癌症.人类登陆月球" 当然,这是50年前的想法,那么语音识别该如何做呢? 一个典型的语音识别系统如下,输入一段语音到模型,模型输出一段文本 Speech:表示一个长度为T,维度为d的向量序列 Text:一个token序列,长度为N,V个不同的token,通常T>N 接下来看看输入可以有哪些可能,输出有哪些可能,首先看下输出部分 输出Token 音位(phoneme,发…
上节回顾深度学习与人类语言处理-语音识别(part2),这节课我们接着看seq2seq模型怎么做语音识别 上节课我们知道LAS做语音识别需要看完一个完整的序列才能输出,把我们希望语音识别模型可以在听到声音的时候就进行输出,一个直观的想法就是用单向的RNN,我们来看看CTC是怎么做的 CTC 根据上面说的,在线语音识别,模型在听到声音的时候就需要输出,我们看下使用RNN的基本架构 input: 长度为T的声学特征 Encoder:单向RNN ouput:长度为T的token,每一个输出位置对应词典…
深度学习与人类语言处理(Deep learning for Human Language Processing) 李宏毅老师深度学习与人类语言处理课程笔记,请看正文 这门课会学到什么? 为什么叫人类语言处理呢? 现在大家熟知的基本都是自然语言处理,那什么是自然语言呢? 在自然中发展出来的用于沟通的语言(例如中文.英文) 自然语言相反的是人造语言:例如编程(Java.python) 人类的自然语言分为两种形态:语音.文字 所以这门课叫深度学习与人类语言处理 大多数自然语言处理课程中语音处理只占了一…
https://www.jianshu.com/p/854d111670b6 纯干货:深度学习实现之空间变换网络-part1 在第一部分中,我们主要介绍了两个非常重要的概念:仿射变换和双线性插值,并了解到这两个概念对于理解空间变换网络(Spatial Transformer Networks)非常重要. 在这篇文章中,我们将详细介绍一篇空间变压器网络这一论文——Go ogle Deepmind的研究人员Max Jaderberg,Karen Simonyan,Andrew Zisserman和K…
  在PyTorch中,集中于所有神经网络的是autograd包.首先,我们简要地看一下此工具包,然后我们将训练第一个神经网络. autograd包为张量的所有操作提供了自动微分.它是一个运行式定义的框架,这意味着你的后向传播是由你的代码运行方式来定义的,并且每一个迭代都可以是不同的. 下面,让我们使用一些更简单的术语和例子来解释这个问题. 0x01 变量(Variable) autograd.Variable是autograd包的核心类,它封装了一个张量,并支持几乎所有在该张量上定义的操作.一…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言H2o包的几个应用案例 笔者寄语:受启发想了解H2o平台的一些R语言实现,网上已有一篇H2o的demo文件.笔者在这多贴一些案例,并且把自己实践的一些小例子贴出来. 关于H2o平台长啥样,可以看H2o的官网,关于深度学习长啥样,可以看一些教程,比如ParallelR博客之中的解析. 下面主要是贴几个案例,让大家看看. ----------…
笔者:受alphago影响,想看看深度学习,但是其在R语言中的应用包可谓少之又少,更多的是在matlab和python中或者是调用.整理一下目前我看到的R语言的材料: ------------------------------------------------------------ 近期,弗莱堡大学的Oksana Kutina 和 Stefan Feuerriegel发表了一篇名为<深入比较四个R中的深度学习包>的博文.其中,四个R包的综述如下: MXNet: MXNet深度学习库的R接…
学习的机器 用大量的数据识别图像和语音,深度学习的计算机(deep-learning computers) 向真正意义上的人工智能迈出了一大步. Nicola Jones Computer Science,Vol 505: P146-148, 2014.1.9 3年前,位于Mountain View, California的Google X实验室中研究者从YouTube视频中提取了100,000,000张静态图片,提供给Google Brain(一个由1000台计算机组成的网络,像蹒跚学步的小孩…
Bengio最新博文:深度学习展望 人类一直梦想着创造有智能的机器.早在第一台可编程计算机问世前100多年,发明家就对如何能让由连杆和齿轮组成的设备也变得更加智能这一命题充满好奇.后来,20世纪40年代计算机领域的先驱者之一Alan Turing通过描述一个测试为计算机科学设定了目标,这个测试也就是后来被大家所熟知的图灵测试,用以衡量计算机的表现和人类行为的接近程度.(注:图灵测试一词来源于计算机科学和密码学的先驱Alan Turing写于1950年的一篇论文<计算机器与智能>.Alan Tu…