Yoshua Bengio 2016年5月11日在Twitter Boston的演讲PPT

Yoshua Bengio最新演讲：Attention 让深度学习取得巨大成功（46ppt）

Yoshua Bengio，电脑科学家，毕业于麦吉尔大学，在MIT和AT&T贝尔实验室做过博士后研究员，自1993年之后就在蒙特利尔大学任教，与 Yann LeCun、 Geoffrey Hinton并称为“深度学习三巨头”，也是神经网络复兴的主要的三个发起人之一，在预训练问题、为自动编码器降噪等自动编码器的结构问题和生成式模型等等领域做出重大贡献。他早先的一篇关于语言概率模型的论文开创了神经网络做语言模型的先河，启发了一系列关于 NLP 的文章，进而在工业界产生重大影响。此外，他的小组开发了 Theano 平台。

下文是Yoshua Bengio 2016年5月11日在Twitter Boston的演讲PPT实录，由新智元整理翻译，如果PPT看不过瘾，你还可以复制链接直接观看视频：https://www.periscope.tv/hugo_larochelle/1MYxNDlQkPpGw

在新智元公众号后台回复“0516”可下载全部46张PPT。

原标题：自然语言词义中的深度学习

从ML到AI的三个关键要素：

1. 许多&许多的数据

2. 非常灵活的模型

3. 强大的先验知识，能打破“维度的诅咒”

突破“维度的诅咒”

我们需要在机器学习模型中创建组合词

正如人类语言会分析组合词，为组合词的概念赋予表示和意义
对组合词意挖掘，在指代的能力上获得指数级的增长

分布式表示/嵌入：特征学习

深度架构：多层次的特征学习
先验知识（Prior）：组合性在有效地描述我们所处的世界时非常有用

深度学习理论的进展

分布式表示的指数级优势
深度的指数级优势
迷思：非凸性 ∉ 局部最小值

分布式表示的指数级优势

比起最近邻法或分类法的模型，学习一系列不相互排斥的特征，在数据上更有效。

相关推荐论文

深度的指数级优势

迷思正在被打破：神经网络中的局部最小值

凸性并不是必须的

推荐论文

鞍点

局部最小值掌控着低维度，但是鞍点掌控高维度
大多数的局部最小值都很接近底部（全局最小值误差）

为什么N-gram 在泛化上表现很差

神经语言模型

下一个挑战：词序中丰富的语义表示

捕捉词义上令人印象深刻的进展
更容易的学习：非参数的（查表）
绘制序列来实现更加丰富和完整的指称进行优化的问题
好的测试案例：自动编码框架的机器翻译

深度学习中的聚焦（Attention）机制

考虑一个输入（或者中间的）序列或者图像

考虑一个高层次的指称，通过设置权重或者每个输入位置的概率，正如MLP中所产生的那样，运用到每一个位置。

聚焦机制在翻译、语音、图像、视频和存储中的应用

端对端的机器翻译

传统的机器翻译：通过相似度的最大化对若干个模型进行独立地训练，在N型图中获的顶部、底部获得逻辑回归。
神经语言模型已经被证明在普遍化的能力上优于N型图模型。
为什么不训练一个神经翻译模型，端对端地评估P（目标句子|源句子）

2014：神经机器翻译获得突破的一年

主要论文

早期的工作

编码-解码框架

中间的意义表示=普遍的表示
编码：从词的排列到句子代表
解码：从代表到词序的分布

输入侧的双向RNN

模仿Alex Graves在手写体上的工作

聚焦：相关论文和旧论文

软聚焦VS随机硬聚焦

聚焦为基础的神经机器翻译

预测对齐

法语和德语不同的对齐

在纯AE模型上的提升

RNNenc：对整个句子进行编码
RNNsearch：预测平面图
BLEU 在全部的测试集中赋分（包括UNK）

周期性网络和聚焦机制下的端对端机器翻译

从零开始，一年后的现状：

英语到德语

从图像到文字：聚焦模型下的字幕生成

聚焦选择部分图像，同时，生成对应描述词

说出看到的东西

展示、参加和讲述：用视觉聚焦来达到神经图像字幕生成

好的识别

坏的识别

有趣的延伸

用重要性抽样近似值高效地处理大量的词汇（最小批的词=负面的例子）（Jean al， ACL’2015）
多语种 NMT：共享的编码器和解码器，在语言配对中，聚焦机制是一个条件
字符层次的NMT

用共享聚焦机制达成的多语言神经机器翻译

每一种语言对应1 编码器+ 1解码器
一个共享的聚焦模型，还有每一种语言编码和解码规定的“代表翻译函数”

用共享聚焦机制达成的多语言神经机器翻译

迁移学习起了作用
在大多数情况下，对定位成对的平行语料库有益

基于字符的模型

在基于N型图的模型中几乎是不可能的；
但是，对于处理开放词汇问题、拼写错误而、音译、数字等端对端的问题却是有必要的；
对于词汇并没有清晰的区分或者组合线（让词汇量显示）的语言来说是有必要的；
在词的规律（前缀、后缀、连接等）上进行时是有必要的；

障碍：

对于RNNs：更长期的依赖性
较差的容量和计算率
2年前的前期实验：比起基于词汇的模型，可持续性要更差

基于字符的NMT实验

2层的架构
更高级别的RNN动态地决定了何时使用类似GRU的公式软性地更新状态

基于字符的NMT实验

内存访问中的聚焦模型

神经图灵机器
内存网络
使用一个聚焦机制形式来控制对存储器的读取和写入
聚焦机制在内存上输出一个softmax
从效率上看，softmax必须是稀疏的（大多数情况下是0），例如，或许可以使用一个混合图表格式。

大型内存网络：长期依存的稀疏内存访问

一个外部存储器中的状态，可以保存任意长的时间，直到被读取或写入
忘记=消失的梯度
内存=更大的状态，避免遗忘或者消失的必要

延迟不代表能更进一步

在运行的项目：知识提取

学习从自然语言对事实的描述中填入记忆网络
强迫神经网络理解语言
从档案中提取知识，并浓缩成可使用的格式

下一个大难题：非监督式学习

最近的突破大多数都是在监督式深度学习中

非监督式学习中的真实挑战

潜在的好处：

能处理海量的非标签数据
针对观察的变量，回答新的问题
正则化矩阵——迁移学习——领域自适应
更容易优化（局部训练信号）
结构性的输出
对于没有特定模型或在主要模拟的RL来说很有必要

结论

深度学习理论在许多前沿地带都取得了显著的进步：为什么能更好地泛化？为什么局部最小值不是人们考虑的问题？深度无监督学习的概率解释。

聚焦机制让学习者模型更好地做选择，不管是软聚焦还硬聚焦。

深度学习理论在机器翻译和字幕生成上取得了巨大的成功。

在语音识别和视频，特别是如果我们使用深度学习理论来捕捉多样的时标时，会很有用。

深度学习理论可用于解决长期的依存问题，让一些状态持续任意长时间。

「招聘」

全职记者、编译和活动运营

欢迎实习生

以及人工智能翻译社志愿者

详细信息请进入公众号点击「招聘」

或发邮件至 jobs@aiera.com.cn

Yoshua Bengio 2016年5月11日在Twitter Boston的演讲PPT的更多相关文章

2016年12月11日星期日 --出埃及记 Exodus 21:6
2016年12月11日星期日 --出埃及记 Exodus 21:6 then his master must take him before the judges. He shall take hi ...
2016年10月11日星期二 --出埃及记 Exodus 18:22
2016年10月11日星期二 --出埃及记 Exodus 18:22 Have them serve as judges for the people at all times, but have ...
2016年5月11日摘自知乎的一些Redis大概了解
1. 知乎日报的基础数据和统计信息是用 Redis 存储的,这使得请求的平均响应时间能在 10ms 以下.其他数据仍然需要存放在另外的地方,其实完全用 Redis 也是可行的,主要的考量是内存占用.就 ...
2016年12月11日 php面向对象
面向对象 1.类(由众多对象中抽象出来的) 2.对象(一切皆对象,由类实例化出来的). 类: 求圆的面积面向过程的方式 1.将圆抽象为一个类 2.实例化对象 class Qiu { var $ban ...
2016年3月11日Android学习日记
1.调试技巧:当一次调试过后,可以在App重新返回当前的状态,然后再调试,而不用再点击Android studio的Debug按钮. 参考:http://www.2cto.com/kf/201506/ ...
2016年3月11日Android实习日记
1.明天删除orthodotics_design_animation_content_gif.gif文件.(已完成) 2. 如何检测内存泄露? A: 可以通过一些性能监测分析工具,如 JProfile ...
优步UBER司机全国各地奖励政策汇总 (4月11日-4月17日)
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...
全国Uber优步司机奖励政策 (1月11日-1月17日)
本周已经公开奖励整的城市有:北京.成都.重庆.上海.深圳.长沙.佛山.广州.苏州.杭州.南京.宁波.青岛.天津.西安.武汉.厦门,可按CTRL+F,搜城市名快速查找. ...
长沙Uber优步司机奖励政策（1月11日~1月17日）
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...

随机推荐

【BZOJ 2818】gcd 欧拉筛
枚举小于n的质数,然后再枚举小于n/这个质数的Φ的和,乘2再加1即可.乘2是因为xy互换是另一组解,加1是x==y==1时的一组解.至于求和我们只需处理前缀和就可以啦,注意Φ(1)的值不能包含在前缀和 ...
nginx配置实战1----配置虚拟主机
1 nginx虚拟主机的概念虚拟主机是在网络服务器上划分出一定的磁盘空间供用户放置站点.应用组件等,提供必要的站点功能.数据存放和传输功能,所谓虚拟主机,也叫"网站空间",就是把 ...
Java-URLConnection类详解
抽象类 URLConnection 是所有类的超类,它代表应用程序和 URL 之间的通信链接.此类的实例可用于读取和写入此 URL 引用的资源.通常,创建一个到 URL 的连接需要几个步骤: open ...
json-jsonConfig使用
一,setCycleDetectionStrategy 防止自包含 /** * 这里测试如果含有自包含的时候需要CycleDetectionStrategy */ public static void ...
js 刷新windows.open另一个窗口页面或window.open的页面如何刷新(父页面)上层页面
一.js完整代码如下: //js打开新窗口 functionopenWin() {window.open('addInfo.jsp', '_blank','width=300,height=400,t ...
【CodeForces 261B】Maxim and Restaurant（DP，期望）
题目链接第一种解法是$O(n^3*p)$的:f[i][j][k]表示前i个人进j个人长度为k有几种方案(排列固定为123..n时).$f[i][j][k]=f[i-1][j][k]+f[i-1][j ...
sql中的xml使用
SQL openxml用法使用sp_xml_preparedocument处理XML文档(原文:http://www.cnblogs.com/oec2003/archive/2011/07/23/2 ...
MongoDB安装与启动
我本人电脑是win8系统64位,下载64位的zip包,下载完成后解压缩到D:\MongoDB目录创建数据库目录D:\MongoDB\data,接下来打开命令行窗口,切换到D:\MongoDB\bin ...
BZOJ4719 [Noip2016]天天爱跑步
本文版权归ljh2000和博客园共有,欢迎转载,但须保留此声明,并给出原文链接,谢谢合作. 本文作者:ljh2000作者博客:http://www.cnblogs.com/ljh2000-jump/转 ...
BZOJ1922 [Sdoi2010]大陆争霸
本文版权归ljh2000和博客园共有,欢迎转载,但须保留此声明,并给出原文链接,谢谢合作. 本文作者:ljh2000作者博客:http://www.cnblogs.com/ljh2000-jump/转 ...

Yoshua Bengio 2016年5月11日在Twitter Boston的演讲PPT

Yoshua Bengio最新演讲：Attention 让深度学习取得巨大成功（46ppt）

Yoshua Bengio 2016年5月11日在Twitter Boston的演讲PPT的更多相关文章

随机推荐

热门专题