Yoshua Bengio最新演讲:Attention 让深度学习取得巨大成功(46ppt)

Yoshua Bengio,电脑科学家,毕业于麦吉尔大学,在MIT和AT&T贝尔实验室做过博士后研究员,自1993年之后就在蒙特利尔大学任教,与 Yann LeCun、 Geoffrey Hinton并称为“深度学习三巨头”,也是神经网络复兴的主要的三个发起人之一,在预训练问题、为自动编码器降噪等自动编码器的结构问题和生成式模型等等领域做出重大贡献。他早先的一篇关于语言概率模型的论文开创了神经网络做语言模型的先河,启发了一系列关于 NLP 的文章,进而在工业界产生重大影响。此外,他的小组开发了 Theano 平台。

下文是Yoshua Bengio 2016年5月11日在Twitter Boston的演讲PPT实录,由新智元整理翻译,如果PPT看不过瘾,你还可以复制链接直接观看视频:https://www.periscope.tv/hugo_larochelle/1MYxNDlQkPpGw

在新智元公众号后台回复“0516”可下载全部46张PPT。

原标题:自然语言词义中的深度学习

从ML到AI的三个关键要素:

1.  许多&许多的数据

2.  非常灵活的模型

3.  强大的先验知识,能打破“维度的诅咒”

突破“维度的诅咒”

  • 我们需要在机器学习模型中创建组合词

    正如人类语言会分析组合词,为组合词的概念赋予表示和意义

  • 对组合词意挖掘,在指代的能力上获得指数级的增长

    分布式表示/嵌入:特征学习

    深度架构:多层次的特征学习

  • 先验知识(Prior):组合性在有效地描述我们所处的世界时非常有用

深度学习理论的进展

  • 分布式表示的指数级优势

  • 深度的指数级优势

  • 迷思:非凸性 ∉ 局部最小值

分布式表示的指数级优势

比起最近邻法或分类法的模型,学习一系列不相互排斥的特征,在数据上更有效。


相关推荐论文


深度的指数级优势

迷思正在被打破:神经网络中的局部最小值

 

凸性并不是必须的

推荐论文

鞍点

  • 局部最小值掌控着低维度,但是鞍点掌控高维度

  • 大多数的局部最小值都很接近底部(全局最小值误差)

为什么N-gram 在泛化上表现很差

神经语言模型

下一个挑战:词序中丰富的语义表示

  • 捕捉词义上令人印象深刻的进展

  • 更容易的学习:非参数的(查表)

  • 绘制序列来实现更加丰富和完整的指称进行优化的问题

  • 好的测试案例:自动编码框架的机器翻译

深度学习中的聚焦(Attention)机制

考虑一个输入(或者中间的)序列或者图像

考虑一个高层次的指称,通过设置权重或者每个输入位置的概率,正如MLP中所产生的那样,运用到每一个位置。

聚焦机制在翻译、语音、图像、视频和存储中的应用

端对端的机器翻译

  • 传统的机器翻译:通过相似度的最大化对若干个模型进行独立地训练,在N型图中获的顶部、底部获得逻辑回归。

  • 神经语言模型已经被证明在普遍化的能力上优于N型图模型。

  • 为什么不训练一个神经翻译模型,端对端地评估P(目标句子|源句子)

2014:神经机器翻译获得突破的一年

 

主要论文

早期的工作

编码-解码框架

  • 中间的意义表示=普遍的表示

  • 编码:从词的排列到句子代表

  • 解码:从代表到词序的分布

输入侧的双向RNN

 

模仿Alex Graves在手写体上的工作

聚焦:相关论文和旧论文

软聚焦VS随机硬聚焦

聚焦为基础的神经机器翻译

预测对齐

法语和德语不同的对齐

在纯AE模型上的提升

 

  • RNNenc:对整个句子进行编码

  • RNNsearch:预测平面图

  • BLEU 在全部的测试集中赋分(包括UNK)

周期性网络和聚焦机制下的端对端机器翻译

 

从零开始,一年后的现状:

英语到德语

从图像到文字:聚焦模型下的字幕生成

聚焦选择部分图像,同时,生成对应描述词

说出看到的东西

展示、参加和讲述:用视觉聚焦来达到神经图像字幕生成

好的识别

坏的识别

有趣的延伸

  • 用重要性抽样近似值高效地处理大量的词汇(最小批的词=负面的例子)(Jean al, ACL’2015)

  • 多语种 NMT:共享的编码器和解码器,在语言配对中,聚焦机制是一个条件

  • 字符层次的NMT

用共享聚焦机制达成的多语言神经机器翻译

  • 每一种语言对应1 编码器+ 1解码器

  • 一个共享的聚焦模型,还有每一种语言编码和解码规定的“代表翻译函数”

用共享聚焦机制达成的多语言神经机器翻译

  • 迁移学习起了作用

  • 在大多数情况下,对定位成对的平行语料库有益

基于字符的模型

  • 在基于N型图的模型中几乎是不可能的;

  • 但是,对于处理开放词汇问题、拼写错误而、音译、数字等端对端的问题却是有必要的;

  • 对于词汇并没有清晰的区分或者组合线(让词汇量显示)的语言来说是有必要的;

  • 在词的规律(前缀、后缀、连接等)上进行时是有必要的;

障碍:

  • 对于RNNs:更长期的依赖性

  • 较差的容量和计算率

  • 2年前的前期实验:比起基于词汇的模型,可持续性要更差

基于字符的NMT实验

 

  • 2层的架构

  • 更高级别的RNN动态地决定了何时使用类似GRU的公式软性地更新状态

基于字符的NMT实验

内存访问中的聚焦模型

  • 神经图灵机器

  • 内存网络

  • 使用一个聚焦机制形式来控制对存储器的读取和写入

  • 聚焦机制在内存上输出一个softmax

  • 从效率上看,softmax必须是稀疏的(大多数情况下是0),例如,或许可以使用一个混合图表格式。

大型内存网络:长期依存的稀疏内存访问

  • 一个外部存储器中的状态,可以保存任意长的时间,直到被读取或写入

  • 忘记=消失的梯度

  • 内存=更大的状态,避免遗忘或者消失的必要

延迟不代表能更进一步

在运行的项目:知识提取

  • 学习从自然语言对事实的描述中填入记忆网络

  • 强迫神经网络理解语言

  • 从档案中提取知识,并浓缩成可使用的格式

下一个大难题:非监督式学习

最近的突破大多数都是在监督式深度学习中

非监督式学习中的真实挑战

潜在的好处:

  • 能处理海量的非标签数据

  • 针对观察的变量,回答新的问题

  • 正则化矩阵——迁移学习——领域自适应

  • 更容易优化(局部训练信号)

  • 结构性的输出

  • 对于没有特定模型或在主要模拟的RL来说很有必要

结论

深度学习理论在许多前沿地带都取得了显著的进步:为什么能更好地泛化?为什么局部最小值不是人们考虑的问题?深度无监督学习的概率解释。

聚焦机制让学习者模型更好地做选择,不管是软聚焦还硬聚焦。

深度学习理论在机器翻译和字幕生成上取得了巨大的成功。

在语音识别和视频,特别是如果我们使用深度学习理论来捕捉多样的时标时,会很有用。

深度学习理论可用于解决长期的依存问题,让一些状态持续任意长时间。


「招聘」

 

全职记者、编译和活动运营

欢迎实习生

以及人工智能翻译社志愿者

详细信息请进入公众号点击「招聘」

或发邮件至 jobs@aiera.com.cn

Yoshua Bengio 2016年5月11日在Twitter Boston的演讲PPT的更多相关文章

  1. 2016年12月11日 星期日 --出埃及记 Exodus 21:6

    2016年12月11日 星期日 --出埃及记 Exodus 21:6 then his master must take him before the judges. He shall take hi ...

  2. 2016年10月11日 星期二 --出埃及记 Exodus 18:22

    2016年10月11日 星期二 --出埃及记 Exodus 18:22 Have them serve as judges for the people at all times, but have ...

  3. 2016年5月11日摘自知乎的一些Redis大概了解

    1. 知乎日报的基础数据和统计信息是用 Redis 存储的,这使得请求的平均响应时间能在 10ms 以下.其他数据仍然需要存放在另外的地方,其实完全用 Redis 也是可行的,主要的考量是内存占用.就 ...

  4. 2016年12月11日 php面向对象

    面向对象 1.类(由众多对象中抽象出来的) 2.对象(一切皆对象,由类实例化出来的). 类: 求圆的面积 面向过程的方式 1.将圆抽象为一个类 2.实例化对象 class Qiu { var $ban ...

  5. 2016年3月11日Android学习日记

    1.调试技巧:当一次调试过后,可以在App重新返回当前的状态,然后再调试,而不用再点击Android studio的Debug按钮. 参考:http://www.2cto.com/kf/201506/ ...

  6. 2016年3月11日Android实习日记

    1.明天删除orthodotics_design_animation_content_gif.gif文件.(已完成) 2. 如何检测内存泄露? A: 可以通过一些性能监测分析工具,如 JProfile ...

  7. 优步UBER司机全国各地奖励政策汇总 (4月11日-4月17日)

    滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...

  8. 全国Uber优步司机奖励政策 (1月11日-1月17日)

    本周已经公开奖励整的城市有:北 京.成 都.重 庆.上 海.深 圳.长 沙.佛 山.广 州.苏 州.杭 州.南 京.宁 波.青 岛.天 津.西 安.武 汉.厦 门,可按CTRL+F,搜城市名快速查找. ...

  9. 长沙Uber优步司机奖励政策(1月11日~1月17日)

    滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...

随机推荐

  1. AngularJS指令的详解

    指令作为AngularJS中最为重要的部分,所以这个框架本身也是自带了比较多的的指令,但是在开发中,这些指令通常不能满足我们的需要,所以我们也是需要自定义一些指令的.指令是我们用来扩展浏览器能力的技术 ...

  2. Linux内核参数配置

    Linux在系统运行时修改内核参数(/proc/sys与/etc/sysctl.conf),而不需要重新引导系统,这个功能是通过/proc虚拟文件系统实现的. 在/proc/sys目录下存放着大多数的 ...

  3. [转]Java_List元素的遍历和删除

    原文地址:http://blog.csdn.net/insistgogo/article/details/19619645 1.创建一个ArrayList List<Integer> li ...

  4. [转]为什么我要用 Node.js? 案例逐一介绍

    原文地址:http://blog.jobbole.com/53736/ 介绍 JavaScript 高涨的人气带来了很多变化,以至于如今使用其进行网络开发的形式也变得截然不同了.就如同在浏览器中一样, ...

  5. eclipse-mvn打包跳过junit测试类

    修改pom.xml,在build选项加上plugins的这段如下: <build> ..... <plugins> <plugin> <groupId> ...

  6. HashMap和TreeMap的区别

    HashMap:数组方式存储key/value,线程非安全,允许null作为key和value,key不可以 重复,value允许重复,不保证元素迭代顺序是按照插入时的顺序,key的hash值是先计算 ...

  7. 【HDU 5832】A water problem(大数取模)

    1千万长度的数对73和137取模.(两个数有点像,不要写错了) 效率要高的话,每15位取一次模,因为取模后可能有3位,因此用ll就最多15位取一次. 一位一位取模也可以,但是比较慢,取模运算是个耗时的 ...

  8. OPENGL的入门第一个程序——Hello World

    #include "stdafx.h" #include<GL\glut.h> void Init() { glClearColor(0.0f,0.0f,0.0f,0. ...

  9. css中import与link用法区别

    方式:引入CSS的方法有两种,一种是@import,一种是link @import url('地址');//注意,这种方式可以放在页面也可以放在css文件中<link href="地址 ...

  10. QIBO CMS SQL Injection Via Variable Uninitialization In \member\special.php

    Catalog . 漏洞描述 . 漏洞触发条件 . 漏洞影响范围 . 漏洞代码分析 . 防御方法 . 攻防思考 1. 漏洞描述 该漏洞存在于/member/special.php文件下,由于未对变量进 ...