Yoshua Bengio 2016年5月11日在Twitter Boston的演讲PPT
Yoshua Bengio最新演讲:Attention 让深度学习取得巨大成功(46ppt)
Yoshua Bengio,电脑科学家,毕业于麦吉尔大学,在MIT和AT&T贝尔实验室做过博士后研究员,自1993年之后就在蒙特利尔大学任教,与 Yann LeCun、 Geoffrey Hinton并称为“深度学习三巨头”,也是神经网络复兴的主要的三个发起人之一,在预训练问题、为自动编码器降噪等自动编码器的结构问题和生成式模型等等领域做出重大贡献。他早先的一篇关于语言概率模型的论文开创了神经网络做语言模型的先河,启发了一系列关于 NLP 的文章,进而在工业界产生重大影响。此外,他的小组开发了 Theano 平台。
下文是Yoshua Bengio 2016年5月11日在Twitter Boston的演讲PPT实录,由新智元整理翻译,如果PPT看不过瘾,你还可以复制链接直接观看视频:https://www.periscope.tv/hugo_larochelle/1MYxNDlQkPpGw
在新智元公众号后台回复“0516”可下载全部46张PPT。
原标题:自然语言词义中的深度学习
从ML到AI的三个关键要素:
1. 许多&许多的数据
2. 非常灵活的模型
3. 强大的先验知识,能打破“维度的诅咒”
突破“维度的诅咒”
我们需要在机器学习模型中创建组合词
正如人类语言会分析组合词,为组合词的概念赋予表示和意义
对组合词意挖掘,在指代的能力上获得指数级的增长
分布式表示/嵌入:特征学习
深度架构:多层次的特征学习
先验知识(Prior):组合性在有效地描述我们所处的世界时非常有用
深度学习理论的进展
分布式表示的指数级优势
深度的指数级优势
迷思:非凸性 ∉ 局部最小值
分布式表示的指数级优势
比起最近邻法或分类法的模型,学习一系列不相互排斥的特征,在数据上更有效。
相关推荐论文
深度的指数级优势
迷思正在被打破:神经网络中的局部最小值
凸性并不是必须的
推荐论文
鞍点
局部最小值掌控着低维度,但是鞍点掌控高维度
大多数的局部最小值都很接近底部(全局最小值误差)
为什么N-gram 在泛化上表现很差
神经语言模型
下一个挑战:词序中丰富的语义表示
捕捉词义上令人印象深刻的进展
更容易的学习:非参数的(查表)
绘制序列来实现更加丰富和完整的指称进行优化的问题
好的测试案例:自动编码框架的机器翻译
深度学习中的聚焦(Attention)机制
考虑一个输入(或者中间的)序列或者图像
考虑一个高层次的指称,通过设置权重或者每个输入位置的概率,正如MLP中所产生的那样,运用到每一个位置。
聚焦机制在翻译、语音、图像、视频和存储中的应用
端对端的机器翻译
传统的机器翻译:通过相似度的最大化对若干个模型进行独立地训练,在N型图中获的顶部、底部获得逻辑回归。
神经语言模型已经被证明在普遍化的能力上优于N型图模型。
为什么不训练一个神经翻译模型,端对端地评估P(目标句子|源句子)
2014:神经机器翻译获得突破的一年
主要论文
早期的工作
编码-解码框架
中间的意义表示=普遍的表示
编码:从词的排列到句子代表
解码:从代表到词序的分布
输入侧的双向RNN
模仿Alex Graves在手写体上的工作
聚焦:相关论文和旧论文
软聚焦VS随机硬聚焦
聚焦为基础的神经机器翻译
预测对齐
法语和德语不同的对齐
在纯AE模型上的提升
RNNenc:对整个句子进行编码
RNNsearch:预测平面图
BLEU 在全部的测试集中赋分(包括UNK)
周期性网络和聚焦机制下的端对端机器翻译
从零开始,一年后的现状:
英语到德语
从图像到文字:聚焦模型下的字幕生成
聚焦选择部分图像,同时,生成对应描述词
说出看到的东西
展示、参加和讲述:用视觉聚焦来达到神经图像字幕生成
好的识别
坏的识别
有趣的延伸
用重要性抽样近似值高效地处理大量的词汇(最小批的词=负面的例子)(Jean al, ACL’2015)
多语种 NMT:共享的编码器和解码器,在语言配对中,聚焦机制是一个条件
字符层次的NMT
用共享聚焦机制达成的多语言神经机器翻译
每一种语言对应1 编码器+ 1解码器
一个共享的聚焦模型,还有每一种语言编码和解码规定的“代表翻译函数”
用共享聚焦机制达成的多语言神经机器翻译
迁移学习起了作用
在大多数情况下,对定位成对的平行语料库有益
基于字符的模型
在基于N型图的模型中几乎是不可能的;
但是,对于处理开放词汇问题、拼写错误而、音译、数字等端对端的问题却是有必要的;
对于词汇并没有清晰的区分或者组合线(让词汇量显示)的语言来说是有必要的;
在词的规律(前缀、后缀、连接等)上进行时是有必要的;
障碍:
对于RNNs:更长期的依赖性
较差的容量和计算率
2年前的前期实验:比起基于词汇的模型,可持续性要更差
基于字符的NMT实验
2层的架构
更高级别的RNN动态地决定了何时使用类似GRU的公式软性地更新状态
基于字符的NMT实验
内存访问中的聚焦模型
神经图灵机器
内存网络
使用一个聚焦机制形式来控制对存储器的读取和写入
聚焦机制在内存上输出一个softmax
从效率上看,softmax必须是稀疏的(大多数情况下是0),例如,或许可以使用一个混合图表格式。
大型内存网络:长期依存的稀疏内存访问
一个外部存储器中的状态,可以保存任意长的时间,直到被读取或写入
忘记=消失的梯度
内存=更大的状态,避免遗忘或者消失的必要
延迟不代表能更进一步
在运行的项目:知识提取
学习从自然语言对事实的描述中填入记忆网络
强迫神经网络理解语言
从档案中提取知识,并浓缩成可使用的格式
下一个大难题:非监督式学习
最近的突破大多数都是在监督式深度学习中
非监督式学习中的真实挑战
潜在的好处:
能处理海量的非标签数据
针对观察的变量,回答新的问题
正则化矩阵——迁移学习——领域自适应
更容易优化(局部训练信号)
结构性的输出
对于没有特定模型或在主要模拟的RL来说很有必要
结论
深度学习理论在许多前沿地带都取得了显著的进步:为什么能更好地泛化?为什么局部最小值不是人们考虑的问题?深度无监督学习的概率解释。
聚焦机制让学习者模型更好地做选择,不管是软聚焦还硬聚焦。
深度学习理论在机器翻译和字幕生成上取得了巨大的成功。
在语音识别和视频,特别是如果我们使用深度学习理论来捕捉多样的时标时,会很有用。
深度学习理论可用于解决长期的依存问题,让一些状态持续任意长时间。
「招聘」
全职记者、编译和活动运营
欢迎实习生
以及人工智能翻译社志愿者
详细信息请进入公众号点击「招聘」
或发邮件至 jobs@aiera.com.cn
Yoshua Bengio 2016年5月11日在Twitter Boston的演讲PPT的更多相关文章
- 2016年12月11日 星期日 --出埃及记 Exodus 21:6
2016年12月11日 星期日 --出埃及记 Exodus 21:6 then his master must take him before the judges. He shall take hi ...
- 2016年10月11日 星期二 --出埃及记 Exodus 18:22
2016年10月11日 星期二 --出埃及记 Exodus 18:22 Have them serve as judges for the people at all times, but have ...
- 2016年5月11日摘自知乎的一些Redis大概了解
1. 知乎日报的基础数据和统计信息是用 Redis 存储的,这使得请求的平均响应时间能在 10ms 以下.其他数据仍然需要存放在另外的地方,其实完全用 Redis 也是可行的,主要的考量是内存占用.就 ...
- 2016年12月11日 php面向对象
面向对象 1.类(由众多对象中抽象出来的) 2.对象(一切皆对象,由类实例化出来的). 类: 求圆的面积 面向过程的方式 1.将圆抽象为一个类 2.实例化对象 class Qiu { var $ban ...
- 2016年3月11日Android学习日记
1.调试技巧:当一次调试过后,可以在App重新返回当前的状态,然后再调试,而不用再点击Android studio的Debug按钮. 参考:http://www.2cto.com/kf/201506/ ...
- 2016年3月11日Android实习日记
1.明天删除orthodotics_design_animation_content_gif.gif文件.(已完成) 2. 如何检测内存泄露? A: 可以通过一些性能监测分析工具,如 JProfile ...
- 优步UBER司机全国各地奖励政策汇总 (4月11日-4月17日)
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...
- 全国Uber优步司机奖励政策 (1月11日-1月17日)
本周已经公开奖励整的城市有:北 京.成 都.重 庆.上 海.深 圳.长 沙.佛 山.广 州.苏 州.杭 州.南 京.宁 波.青 岛.天 津.西 安.武 汉.厦 门,可按CTRL+F,搜城市名快速查找. ...
- 长沙Uber优步司机奖励政策(1月11日~1月17日)
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...
随机推荐
- Android-动画简介
Android中动画分为3种: ween Animation:通过对场景里的对象不断做图像变换(平移.缩放.旋转)产生动画效果,即是一种渐变动画: 也称View动画:也叫渐变动画,针对View的动画, ...
- ListView上拉加载,下拉刷新 PullToRefresh的使用
PullToRefresh是一套实现非常好的下拉刷新库,它支持:ListViewExpandableListViewGridViewWebViewScrollViewHorizontalScrollV ...
- 【BZOJ 3879】SvT
http://www.lydsy.com/JudgeOnline/problem.php?id=3879 SvT的中文是后缀虚树? 反正本蒟蒻不懂,还是$O(nlogn)$的后缀数组和单调栈维护来做, ...
- Boundary Representations
用所有属于boundary的点来表示boundary, 有两个主要的缺点, 一是数据量大, 二是对噪声敏感. 用boundary的一些representation而非精确的boundary本身来表示b ...
- hdu4725最短路变形 添加点
The Shortest Path in Nya Graph Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K ...
- python 进程间共享数据 (一)
def worker(num, mystr, arr): num.value *= 2 mystr.value = "ok" for i in range(len(arr)): a ...
- 深入理解JVM内幕:从基本结构到Java 7新特性
转自:http://www.importnew.com/1486.html 每个Java开发者都知道Java字节码是执行在JRE((Java Runtime Environment Java运行时环境 ...
- Sublime Text快捷键和常用插件推荐
Sublime Text快捷键: Ctrl+Shift+P:打开命令面板 Ctrl+P:搜索项目中的文件 Ctrl+G:跳转到第几行 Ctrl+W:关闭当前打开文件 Ctrl+Shift+W:关闭所有 ...
- QT信号槽机制
信号槽 信号槽是QT中用于对象间通信的一种机制,也是QT的核心机制.在GUI编程中,我们经常需要在改变一个组件的同时,通知另一个组件做出响应.例如: 一开始我们的Find按钮是未激活的,用户输入要查找 ...
- BeautifulSoup_python3
1.错误排除 bsObj = BeautifulSoup(html.read()) 报错: UserWarning: No parser was explicitly specified, so I' ...