Yoshua Bengio最新演讲:Attention 让深度学习取得巨大成功(46ppt)

Yoshua Bengio,电脑科学家,毕业于麦吉尔大学,在MIT和AT&T贝尔实验室做过博士后研究员,自1993年之后就在蒙特利尔大学任教,与 Yann LeCun、 Geoffrey Hinton并称为“深度学习三巨头”,也是神经网络复兴的主要的三个发起人之一,在预训练问题、为自动编码器降噪等自动编码器的结构问题和生成式模型等等领域做出重大贡献。他早先的一篇关于语言概率模型的论文开创了神经网络做语言模型的先河,启发了一系列关于 NLP 的文章,进而在工业界产生重大影响。此外,他的小组开发了 Theano 平台。

下文是Yoshua Bengio 2016年5月11日在Twitter Boston的演讲PPT实录,由新智元整理翻译,如果PPT看不过瘾,你还可以复制链接直接观看视频:https://www.periscope.tv/hugo_larochelle/1MYxNDlQkPpGw

在新智元公众号后台回复“0516”可下载全部46张PPT。

原标题:自然语言词义中的深度学习

从ML到AI的三个关键要素:

1.  许多&许多的数据

2.  非常灵活的模型

3.  强大的先验知识,能打破“维度的诅咒”

突破“维度的诅咒”

  • 我们需要在机器学习模型中创建组合词

    正如人类语言会分析组合词,为组合词的概念赋予表示和意义

  • 对组合词意挖掘,在指代的能力上获得指数级的增长

    分布式表示/嵌入:特征学习

    深度架构:多层次的特征学习

  • 先验知识(Prior):组合性在有效地描述我们所处的世界时非常有用

深度学习理论的进展

  • 分布式表示的指数级优势

  • 深度的指数级优势

  • 迷思:非凸性 ∉ 局部最小值

分布式表示的指数级优势

比起最近邻法或分类法的模型,学习一系列不相互排斥的特征,在数据上更有效。


相关推荐论文


深度的指数级优势

迷思正在被打破:神经网络中的局部最小值

 

凸性并不是必须的

推荐论文

鞍点

  • 局部最小值掌控着低维度,但是鞍点掌控高维度

  • 大多数的局部最小值都很接近底部(全局最小值误差)

为什么N-gram 在泛化上表现很差

神经语言模型

下一个挑战:词序中丰富的语义表示

  • 捕捉词义上令人印象深刻的进展

  • 更容易的学习:非参数的(查表)

  • 绘制序列来实现更加丰富和完整的指称进行优化的问题

  • 好的测试案例:自动编码框架的机器翻译

深度学习中的聚焦(Attention)机制

考虑一个输入(或者中间的)序列或者图像

考虑一个高层次的指称,通过设置权重或者每个输入位置的概率,正如MLP中所产生的那样,运用到每一个位置。

聚焦机制在翻译、语音、图像、视频和存储中的应用

端对端的机器翻译

  • 传统的机器翻译:通过相似度的最大化对若干个模型进行独立地训练,在N型图中获的顶部、底部获得逻辑回归。

  • 神经语言模型已经被证明在普遍化的能力上优于N型图模型。

  • 为什么不训练一个神经翻译模型,端对端地评估P(目标句子|源句子)

2014:神经机器翻译获得突破的一年

 

主要论文

早期的工作

编码-解码框架

  • 中间的意义表示=普遍的表示

  • 编码:从词的排列到句子代表

  • 解码:从代表到词序的分布

输入侧的双向RNN

 

模仿Alex Graves在手写体上的工作

聚焦:相关论文和旧论文

软聚焦VS随机硬聚焦

聚焦为基础的神经机器翻译

预测对齐

法语和德语不同的对齐

在纯AE模型上的提升

 

  • RNNenc:对整个句子进行编码

  • RNNsearch:预测平面图

  • BLEU 在全部的测试集中赋分(包括UNK)

周期性网络和聚焦机制下的端对端机器翻译

 

从零开始,一年后的现状:

英语到德语

从图像到文字:聚焦模型下的字幕生成

聚焦选择部分图像,同时,生成对应描述词

说出看到的东西

展示、参加和讲述:用视觉聚焦来达到神经图像字幕生成

好的识别

坏的识别

有趣的延伸

  • 用重要性抽样近似值高效地处理大量的词汇(最小批的词=负面的例子)(Jean al, ACL’2015)

  • 多语种 NMT:共享的编码器和解码器,在语言配对中,聚焦机制是一个条件

  • 字符层次的NMT

用共享聚焦机制达成的多语言神经机器翻译

  • 每一种语言对应1 编码器+ 1解码器

  • 一个共享的聚焦模型,还有每一种语言编码和解码规定的“代表翻译函数”

用共享聚焦机制达成的多语言神经机器翻译

  • 迁移学习起了作用

  • 在大多数情况下,对定位成对的平行语料库有益

基于字符的模型

  • 在基于N型图的模型中几乎是不可能的;

  • 但是,对于处理开放词汇问题、拼写错误而、音译、数字等端对端的问题却是有必要的;

  • 对于词汇并没有清晰的区分或者组合线(让词汇量显示)的语言来说是有必要的;

  • 在词的规律(前缀、后缀、连接等)上进行时是有必要的;

障碍:

  • 对于RNNs:更长期的依赖性

  • 较差的容量和计算率

  • 2年前的前期实验:比起基于词汇的模型,可持续性要更差

基于字符的NMT实验

 

  • 2层的架构

  • 更高级别的RNN动态地决定了何时使用类似GRU的公式软性地更新状态

基于字符的NMT实验

内存访问中的聚焦模型

  • 神经图灵机器

  • 内存网络

  • 使用一个聚焦机制形式来控制对存储器的读取和写入

  • 聚焦机制在内存上输出一个softmax

  • 从效率上看,softmax必须是稀疏的(大多数情况下是0),例如,或许可以使用一个混合图表格式。

大型内存网络:长期依存的稀疏内存访问

  • 一个外部存储器中的状态,可以保存任意长的时间,直到被读取或写入

  • 忘记=消失的梯度

  • 内存=更大的状态,避免遗忘或者消失的必要

延迟不代表能更进一步

在运行的项目:知识提取

  • 学习从自然语言对事实的描述中填入记忆网络

  • 强迫神经网络理解语言

  • 从档案中提取知识,并浓缩成可使用的格式

下一个大难题:非监督式学习

最近的突破大多数都是在监督式深度学习中

非监督式学习中的真实挑战

潜在的好处:

  • 能处理海量的非标签数据

  • 针对观察的变量,回答新的问题

  • 正则化矩阵——迁移学习——领域自适应

  • 更容易优化(局部训练信号)

  • 结构性的输出

  • 对于没有特定模型或在主要模拟的RL来说很有必要

结论

深度学习理论在许多前沿地带都取得了显著的进步:为什么能更好地泛化?为什么局部最小值不是人们考虑的问题?深度无监督学习的概率解释。

聚焦机制让学习者模型更好地做选择,不管是软聚焦还硬聚焦。

深度学习理论在机器翻译和字幕生成上取得了巨大的成功。

在语音识别和视频,特别是如果我们使用深度学习理论来捕捉多样的时标时,会很有用。

深度学习理论可用于解决长期的依存问题,让一些状态持续任意长时间。


「招聘」

 

全职记者、编译和活动运营

欢迎实习生

以及人工智能翻译社志愿者

详细信息请进入公众号点击「招聘」

或发邮件至 jobs@aiera.com.cn

Yoshua Bengio 2016年5月11日在Twitter Boston的演讲PPT的更多相关文章

  1. 2016年12月11日 星期日 --出埃及记 Exodus 21:6

    2016年12月11日 星期日 --出埃及记 Exodus 21:6 then his master must take him before the judges. He shall take hi ...

  2. 2016年10月11日 星期二 --出埃及记 Exodus 18:22

    2016年10月11日 星期二 --出埃及记 Exodus 18:22 Have them serve as judges for the people at all times, but have ...

  3. 2016年5月11日摘自知乎的一些Redis大概了解

    1. 知乎日报的基础数据和统计信息是用 Redis 存储的,这使得请求的平均响应时间能在 10ms 以下.其他数据仍然需要存放在另外的地方,其实完全用 Redis 也是可行的,主要的考量是内存占用.就 ...

  4. 2016年12月11日 php面向对象

    面向对象 1.类(由众多对象中抽象出来的) 2.对象(一切皆对象,由类实例化出来的). 类: 求圆的面积 面向过程的方式 1.将圆抽象为一个类 2.实例化对象 class Qiu { var $ban ...

  5. 2016年3月11日Android学习日记

    1.调试技巧:当一次调试过后,可以在App重新返回当前的状态,然后再调试,而不用再点击Android studio的Debug按钮. 参考:http://www.2cto.com/kf/201506/ ...

  6. 2016年3月11日Android实习日记

    1.明天删除orthodotics_design_animation_content_gif.gif文件.(已完成) 2. 如何检测内存泄露? A: 可以通过一些性能监测分析工具,如 JProfile ...

  7. 优步UBER司机全国各地奖励政策汇总 (4月11日-4月17日)

    滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...

  8. 全国Uber优步司机奖励政策 (1月11日-1月17日)

    本周已经公开奖励整的城市有:北 京.成 都.重 庆.上 海.深 圳.长 沙.佛 山.广 州.苏 州.杭 州.南 京.宁 波.青 岛.天 津.西 安.武 汉.厦 门,可按CTRL+F,搜城市名快速查找. ...

  9. 长沙Uber优步司机奖励政策(1月11日~1月17日)

    滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...

随机推荐

  1. MySql错误1045 Access denied for user 'root'@'localhost' (using password:YES) windows下的解决方案(忘记密码)

    1.进入管理员控制台停止mysql服务:net stop mysql; 2.进入mysql的安装路径,如我的安装路径为C:\Program Files\MySQL\MySQL Server 5.5,打 ...

  2. HttpModule与HttpHandler详解

    ASP.NET对请求处理的过程:当请求一个*.aspx文件的时候,这个请求会被inetinfo.exe进程截获,它判断文件的后缀(aspx)之后,将这个请求转交给 ASPNET_ISAPI.dll,A ...

  3. epon e8-c HG220GS超级密码破解

    网上找了很多管理电信e8-c的破解资料,大多都是明文密码,而hg220gs则为加密的密码,找来找去最后终于找到加密方式了base64,真心不容易 下面从其他博文中转载过来留着记录 低端hack.主要是 ...

  4. Java数组操作利器:Arrays工具类

    java.util.Arrays提供大量的工具方法来操作数组,这些方法全是静态方法. 1 便捷创建List public static <T> List<T> asList(T ...

  5. JSP隐含变量和Spring中Model在EL表达式中的读取顺序

    偶然中存在着必然,必然中存在着偶然 偶然出现的bug,必然存是由代码的不合理甚至错误的 代码逻辑越长,越复杂,就越容易出现bug 之前项目里几次偶然出现了一个bug,简单的描述就是第一次新增了之后进行 ...

  6. 【poj3422】 Kaka's Matrix Travels

    http://poj.org/problem?id=3422 (题目链接) 题意 N*N的方格,每个格子中有一个数,寻找从(1,1)走到(N,N)的K条路径,使得取到的数的和最大. Solution ...

  7. 微信小程序一步步搭建商城系列-01-开篇

    1.小程序介绍 小程序是一种不需要下载安装即可使用的应用,它实现了应用“触手可及”的梦想,用户扫一扫或者搜一下即可打开应用.也体现了“用完即走”的理念,用户不用关心是否安装太多应用的问题.应用将无处不 ...

  8. 先装.net后装iis的问题

    如果没有按照正常的先装iis后装.net的顺序,可以使用此命令重新注册一下:(即就是先装的是visual stuido 2010的话,在安装IIS 7) 32位的Windows:----------- ...

  9. Windows Sqlserver Automatic Log Audit Via C/C++

    catalog . 数据库日志审计产品 . Mysql日志审计 . SQLServer日志审计 1. 数据库日志审计产品 Relevant Link: http://enterprise.huawei ...

  10. Linux File System Change Monitoring Technology、Notifier Technology

    catalog . 为什么要监控文件系统 : hotplug . udev . fanotify(fscking all notification system) . inotify . code e ...