Yoshua Bengio 2016年5月11日在Twitter Boston的演讲PPT

Yoshua Bengio最新演讲：Attention 让深度学习取得巨大成功（46ppt）

Yoshua Bengio，电脑科学家，毕业于麦吉尔大学，在MIT和AT&T贝尔实验室做过博士后研究员，自1993年之后就在蒙特利尔大学任教，与 Yann LeCun、 Geoffrey Hinton并称为“深度学习三巨头”，也是神经网络复兴的主要的三个发起人之一，在预训练问题、为自动编码器降噪等自动编码器的结构问题和生成式模型等等领域做出重大贡献。他早先的一篇关于语言概率模型的论文开创了神经网络做语言模型的先河，启发了一系列关于 NLP 的文章，进而在工业界产生重大影响。此外，他的小组开发了 Theano 平台。

下文是Yoshua Bengio 2016年5月11日在Twitter Boston的演讲PPT实录，由新智元整理翻译，如果PPT看不过瘾，你还可以复制链接直接观看视频：https://www.periscope.tv/hugo_larochelle/1MYxNDlQkPpGw

在新智元公众号后台回复“0516”可下载全部46张PPT。

原标题：自然语言词义中的深度学习

从ML到AI的三个关键要素：

1. 许多&许多的数据

2. 非常灵活的模型

3. 强大的先验知识，能打破“维度的诅咒”

突破“维度的诅咒”

我们需要在机器学习模型中创建组合词

正如人类语言会分析组合词，为组合词的概念赋予表示和意义
对组合词意挖掘，在指代的能力上获得指数级的增长

分布式表示/嵌入：特征学习

深度架构：多层次的特征学习
先验知识（Prior）：组合性在有效地描述我们所处的世界时非常有用

深度学习理论的进展

分布式表示的指数级优势
深度的指数级优势
迷思：非凸性 ∉ 局部最小值

分布式表示的指数级优势

比起最近邻法或分类法的模型，学习一系列不相互排斥的特征，在数据上更有效。

相关推荐论文

深度的指数级优势

迷思正在被打破：神经网络中的局部最小值

凸性并不是必须的

推荐论文

鞍点

局部最小值掌控着低维度，但是鞍点掌控高维度
大多数的局部最小值都很接近底部（全局最小值误差）

为什么N-gram 在泛化上表现很差

神经语言模型

下一个挑战：词序中丰富的语义表示

捕捉词义上令人印象深刻的进展
更容易的学习：非参数的（查表）
绘制序列来实现更加丰富和完整的指称进行优化的问题
好的测试案例：自动编码框架的机器翻译

深度学习中的聚焦（Attention）机制

考虑一个输入（或者中间的）序列或者图像

考虑一个高层次的指称，通过设置权重或者每个输入位置的概率，正如MLP中所产生的那样，运用到每一个位置。

聚焦机制在翻译、语音、图像、视频和存储中的应用

端对端的机器翻译

传统的机器翻译：通过相似度的最大化对若干个模型进行独立地训练，在N型图中获的顶部、底部获得逻辑回归。
神经语言模型已经被证明在普遍化的能力上优于N型图模型。
为什么不训练一个神经翻译模型，端对端地评估P（目标句子|源句子）

2014：神经机器翻译获得突破的一年

主要论文

早期的工作

编码-解码框架

中间的意义表示=普遍的表示
编码：从词的排列到句子代表
解码：从代表到词序的分布

输入侧的双向RNN

模仿Alex Graves在手写体上的工作

聚焦：相关论文和旧论文

软聚焦VS随机硬聚焦

聚焦为基础的神经机器翻译

预测对齐

法语和德语不同的对齐

在纯AE模型上的提升

RNNenc：对整个句子进行编码
RNNsearch：预测平面图
BLEU 在全部的测试集中赋分（包括UNK）

周期性网络和聚焦机制下的端对端机器翻译

从零开始，一年后的现状：

英语到德语

从图像到文字：聚焦模型下的字幕生成

聚焦选择部分图像，同时，生成对应描述词

说出看到的东西

展示、参加和讲述：用视觉聚焦来达到神经图像字幕生成

好的识别

坏的识别

有趣的延伸

用重要性抽样近似值高效地处理大量的词汇（最小批的词=负面的例子）（Jean al， ACL’2015）
多语种 NMT：共享的编码器和解码器，在语言配对中，聚焦机制是一个条件
字符层次的NMT

用共享聚焦机制达成的多语言神经机器翻译

每一种语言对应1 编码器+ 1解码器
一个共享的聚焦模型，还有每一种语言编码和解码规定的“代表翻译函数”

用共享聚焦机制达成的多语言神经机器翻译

迁移学习起了作用
在大多数情况下，对定位成对的平行语料库有益

基于字符的模型

在基于N型图的模型中几乎是不可能的；
但是，对于处理开放词汇问题、拼写错误而、音译、数字等端对端的问题却是有必要的；
对于词汇并没有清晰的区分或者组合线（让词汇量显示）的语言来说是有必要的；
在词的规律（前缀、后缀、连接等）上进行时是有必要的；

障碍：

对于RNNs：更长期的依赖性
较差的容量和计算率
2年前的前期实验：比起基于词汇的模型，可持续性要更差

基于字符的NMT实验

2层的架构
更高级别的RNN动态地决定了何时使用类似GRU的公式软性地更新状态

基于字符的NMT实验

内存访问中的聚焦模型

神经图灵机器
内存网络
使用一个聚焦机制形式来控制对存储器的读取和写入
聚焦机制在内存上输出一个softmax
从效率上看，softmax必须是稀疏的（大多数情况下是0），例如，或许可以使用一个混合图表格式。

大型内存网络：长期依存的稀疏内存访问

一个外部存储器中的状态，可以保存任意长的时间，直到被读取或写入
忘记=消失的梯度
内存=更大的状态，避免遗忘或者消失的必要

延迟不代表能更进一步

在运行的项目：知识提取

学习从自然语言对事实的描述中填入记忆网络
强迫神经网络理解语言
从档案中提取知识，并浓缩成可使用的格式

下一个大难题：非监督式学习

最近的突破大多数都是在监督式深度学习中

非监督式学习中的真实挑战

潜在的好处：

能处理海量的非标签数据
针对观察的变量，回答新的问题
正则化矩阵——迁移学习——领域自适应
更容易优化（局部训练信号）
结构性的输出
对于没有特定模型或在主要模拟的RL来说很有必要

结论

深度学习理论在许多前沿地带都取得了显著的进步：为什么能更好地泛化？为什么局部最小值不是人们考虑的问题？深度无监督学习的概率解释。

聚焦机制让学习者模型更好地做选择，不管是软聚焦还硬聚焦。

深度学习理论在机器翻译和字幕生成上取得了巨大的成功。

在语音识别和视频，特别是如果我们使用深度学习理论来捕捉多样的时标时，会很有用。

深度学习理论可用于解决长期的依存问题，让一些状态持续任意长时间。

「招聘」

全职记者、编译和活动运营

欢迎实习生

以及人工智能翻译社志愿者

详细信息请进入公众号点击「招聘」

或发邮件至 jobs@aiera.com.cn

Yoshua Bengio 2016年5月11日在Twitter Boston的演讲PPT的更多相关文章

2016年12月11日星期日 --出埃及记 Exodus 21:6
2016年12月11日星期日 --出埃及记 Exodus 21:6 then his master must take him before the judges. He shall take hi ...
2016年10月11日星期二 --出埃及记 Exodus 18:22
2016年10月11日星期二 --出埃及记 Exodus 18:22 Have them serve as judges for the people at all times, but have ...
2016年5月11日摘自知乎的一些Redis大概了解
1. 知乎日报的基础数据和统计信息是用 Redis 存储的,这使得请求的平均响应时间能在 10ms 以下.其他数据仍然需要存放在另外的地方,其实完全用 Redis 也是可行的,主要的考量是内存占用.就 ...
2016年12月11日 php面向对象
面向对象 1.类(由众多对象中抽象出来的) 2.对象(一切皆对象,由类实例化出来的). 类: 求圆的面积面向过程的方式 1.将圆抽象为一个类 2.实例化对象 class Qiu { var $ban ...
2016年3月11日Android学习日记
1.调试技巧:当一次调试过后,可以在App重新返回当前的状态,然后再调试,而不用再点击Android studio的Debug按钮. 参考:http://www.2cto.com/kf/201506/ ...
2016年3月11日Android实习日记
1.明天删除orthodotics_design_animation_content_gif.gif文件.(已完成) 2. 如何检测内存泄露? A: 可以通过一些性能监测分析工具,如 JProfile ...
优步UBER司机全国各地奖励政策汇总 (4月11日-4月17日)
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...
全国Uber优步司机奖励政策 (1月11日-1月17日)
本周已经公开奖励整的城市有:北京.成都.重庆.上海.深圳.长沙.佛山.广州.苏州.杭州.南京.宁波.青岛.天津.西安.武汉.厦门,可按CTRL+F,搜城市名快速查找. ...
长沙Uber优步司机奖励政策（1月11日~1月17日）
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...

随机推荐

Java--剑指offer（1）
1．在一个二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序.请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数. a) 常规程序 ...
Retrofit 2.1 入门
Retrofit 2.1入门 , map); try { Response<String>body=call.execute(); System.out. ...
【BZOJ 2038】【2009 国家集训队】小Z的袜子(hose) 分块+莫队
$SDOI2016Day-1$临时抱佛脚学习一下莫队算法$233$ 我预感到自己省选要爆0hhh #include<cmath> #include<cstdio> #inclu ...
概率 light oj 1248
t组样例 n<100010 dp[i] 从i翻到n面的期望接下来翻可能是i面已经有的也可能是n-i面没有的 dp[i]=i/n*(dp[i]+1)+(n-i)/n*(dp[i+1]+1) ...
控件（选择类）: ListBox, RadioButton, CheckBox, ToggleSwitch
1.ListBox 的示例Controls/SelectionControl/ListBoxDemo.xaml <Page x:Class="Windows10.Controls.Se ...
虚拟机NAT模式无法上网问题的解决办法
在使用CentOS虚拟机时,出现了无法上网的情况,使用主机ping虚机地址可以ping通,而虚机ping不通主机,同时虚机也无法ping通其他的网址或ip,显示内容为Network is unreac ...
Windows系统中path环境变量详解
在学习JAVA的过程中,涉及到多个环境变量(environment variable)的概念,如PATH.正确地配置这些环境变量,是能够顺利学习.开发的前提.而经常出现的问题是:有的学习者能够按照提示 ...
最新版CocoaPods的使用与安装－以导入ReactiveCocoa框架为例
一.什么是CocoaPods?前言: 思考如何引入一个第三方框架. 例如: 百度地图SDK.友盟.ShareSDK. 信鸽推送等.从github或某处下载第三方SDK工程中导入所需要的SDK的文件 . ...
C#版 Socket编程（最简单的Socket通信功能）
示例程序是同步套接字程序,功能很简单,只是客户端发给服务器一条信息,服务器向客户端返回一条信息:这里只是一个简单的示例,是一个最基本的socket编程流程,在接下来的文章中,会依次记录套接字的同步和异 ...
VisualSVNServerTools(在线修改VisualSVN密码)
采用的是apache htpasswd的命令行参数进行修改,部署时,采用独立的apache server进行. 源码:https://github.com/easonjim/VisualSVNServ ...

Yoshua Bengio 2016年5月11日在Twitter Boston的演讲PPT

Yoshua Bengio最新演讲：Attention 让深度学习取得巨大成功（46ppt）

Yoshua Bengio 2016年5月11日在Twitter Boston的演讲PPT的更多相关文章

随机推荐

热门专题