NLP:单词嵌入Word Embeddings

深度学习、自然语言处理和表征方法

原文链接：http://blog.jobbole.com/77709/

一个感知器网络（perceptron network）。感知器（perceptron）是非常简单的神经元，如果超过一个阈值它就会被启动，如果没超过改阈值它就没反应。感知器网络的输入和输出都是是二进制的（0和1）。

注意可能的输入个数是有限的。对每个可能的输入，我们可以在隐层里面构建一个只对这个输入有反应的神经元（见注解1）。然后我们可以利用这个神经元和输出神经元之间的连接来控制这个输入下得到的结果（见注解2）。

这样可以说明单隐层神经网络的确是有普适性的。但是这也没啥了不起的呀。你的模型能干和查询表一样的事并不能说明你的模型有任何优点。这只能说明用你的模型来完成任务并不是不可能的罢了。

普适性的真正意义是：一个网络能适应任何你给它的训练数据。这并不代表插入新的数据点的时候它能表现地很理想。

所以普适性并不能解释为什么神经网络如此好用。真正的原因比这微妙得多… 为了理解它，我们需要先理解一些具体的成果。

单词嵌入（Word Embeddings）

我想从深度学习研究的一个非常有意思的部分讲起，它就是：单词嵌入（word embeddings）。在我看来，单词嵌入是目前深度学习最让人兴奋的领域之一，尽管它最早是由Bengio等人在十多年前提出的（见注解3）。除此之外，我认为它们能帮助你通过直觉来了解为什么深度学习如此有效。

单词嵌入W:words→Rn是一个参数化函数，它把某个语言里的单词映射成高维向量（大概200到500维）。例如这样：

W(‘‘cat”)=(0.2, -0.4, 0.7, …)

W(‘‘mat”)=(0.0, 0.6, -0.1, …)

（一般这个函数就是一个查询表，用一个矩阵θ来参数化，每行是一个单词：Wθ(wn)=θn.）

初始化时，W中每个词对应一个随机的向量。它会学习出有意义的向量以便执行任务。

举个一个可能的任务的例子：训练一个网络让其预测一个5元组（5-gram）（连续的5个词）是否‘成立’。我们可以随便从维基百科上选一堆5元组（比如cat sat on the mat）然后把其中一个词随便换成另外一个词（比如cat sat song the mat），那么一半的5元组估计都会变得荒谬且没意义了。

判断5元组是否成立的模块网络（来自于Bottou (2011)）

我们训练的模型会通过W把5元组中每个词的表征向量取出来，输入给另外一个叫R的模块，模块R会试图预测这个5元组是‘成立的’或者是‘破碎的’。然后我们希望看见:

R(W(‘‘cat”), W(‘‘sat”), W(‘‘on”), W(‘‘the”), W(‘‘mat”))=1

R(W(‘‘cat”), W(‘‘sat”), W(‘‘song”), W(‘‘the”), W(‘‘mat”))=0

为了准确地预测这些值，这个网络需要从W以及R中学习到好的参数。

现在看来这个任务并没什么意思。也许它能用来检测语法错误什么的，没什么大不了。但是极其有趣的部分是这个W。

（事实上，对我们来说，这个任务的意义就是学习W。我们当然也可以做一些其他的任务 – 一个很常见的任务是预测句子中下一个单词。但我们实际上并不在乎任务是什么。这节后面我们会谈到许多单词嵌入成果，但并不会区分得到这些成果的方法的不同。）

想直观感受一下单词嵌入空间的话，我们可以用t-SNE来对它进行可视化。t-SNE是一个复杂的高维数据可视化技术。

t-SNE对单词嵌入的可视化结果。左图：数字区间。右图：工作岗位区间。来源：Turian et al. (2010)，全图在此

这种单词构成的“地图”对我们来说更直观。相似的词离得近。另一种方法是看对一个给定单词来说，哪些其他的单词离它最近。我们可以再一次看到，这些词都很相似。

哪些词的嵌入离一个给定词最近？来自于Collobertet al. (2011)

网络能让意义相似的词拥有相似的向量，这看起来是很自然的事。如果你把一个词换成它的同义词(例如 “a few people sing well” → “a couple people sing well”)，句子的成立性并没有变化。虽然从字面上看，句子变化很大，但如果W把同义词（像“few”和”couple”这种）映射到相近的空间，从R的角度来看句子的变化很小。

这就牛了。可能的5元组的数目是巨大的，相比之下我们的训练数据量很小。相似的单词距离近能让我们从一个句子演变出一类相似的句子。这不仅指把一个词替换成一个它的同义词，而且指把一个词换成一个相似类别里面的词（如“the wall is blue” → “the wall is red” ）。进一步地，我们可以替换多个单词（例如“the wall is blue” → “the ceiling is red”）。它的影响对单词数目来说是指数级的
(参见注解4)。

很明显，这是W的一个用武之地。但它是如何学会做这个的呢？看起来很可能很多情况下它是先知道“the wall is blue”这样的句子是成立的，然后才见到“the wall is red”这样的句子。这样的话，把“red”往”blue”那边挪近一点，网络的效果就更好。

我们并没见过每个单词使用的例子，但是类比能让我们泛化衍生出新的单词组合。你懂的单词你都见过，但是你能懂的句子你并没有都见过。神经网络也是如此。

DeepLearning的优化方法：

原文链接：http://www.cnblogs.com/tornadomeet/archive/2013/05/02/3053916.html

NLP:单词嵌入Word Embeddings的更多相关文章

TensorFlow NMT的词嵌入(Word Embeddings)
本文转载自:http://blog.stupidme.me/2018/08/05/tensorflow-nmt-word-embeddings/,本站转载出于传递更多信息之目的,版权归原作者或者来源机 ...
deeplearning.ai 序列模型 Week 2 NLP & Word Embeddings
1. Word representation One-hot representation的缺点:把每个单词独立对待,导致对相关词的泛化能力不强.比如训练出“I want a glass of ora ...
Coursera Deep Learning笔记序列模型（二）NLP & Word Embeddings(自然语言处理与词嵌入)
参考 1. Word Representation 之前介绍用词汇表表示单词,使用one-hot 向量表示词,缺点:它使每个词孤立起来,使得算法对相关词的泛化能力不强. 从上图可以看出相似的单词分布距 ...
吴恩达《深度学习》-课后测验-第五门课序列模型(Sequence Models)-Week 2: Natural Language Processing and Word Embeddings (第二周测验：自然语言处理与词嵌入)
Week 2 Quiz: Natural Language Processing and Word Embeddings (第二周测验:自然语言处理与词嵌入) 1.Suppose you learn ...
吴恩达《深度学习》-第五门课序列模型(Sequence Models)-第二周自然语言处理与词嵌入（Natural Language Processing and Word Embeddings）-课程笔记
第二周自然语言处理与词嵌入(Natural Language Processing and Word Embeddings) 2.1 词汇表征(Word Representation) 词汇表示,目 ...
课程五(Sequence Models)，第二周（Natural Language Processing & Word Embeddings） —— 1.Programming assignments：Operations on word vectors - Debiasing
Operations on word vectors Welcome to your first assignment of this week! Because word embeddings ar ...
[DeeplearningAI笔记]序列模型2.1-2.2词嵌入word embedding
5.2自然语言处理觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.1词汇表征 Word representation 原先都是使用词汇表来表示词汇,并且使用1-hot编码的方式来表示词汇 ...
[C5W2] Sequence Models - Natural Language Processing and Word Embeddings
第二周自然语言处理与词嵌入(Natural Language Processing and Word Embeddings) 词汇表征(Word Representation) 上周我们学习了 RN ...
翻译 | Improving Distributional Similarity with Lessons Learned from Word Embeddings
翻译 | Improving Distributional Similarity with Lessons Learned from Word Embeddings 叶娜老师说:"读懂论文的 ...

随机推荐

Emacs的undo与redo
在Emacs的手册16.1节中有这样一句话, Any command other than an undo command breaks the sequence of undo commands. ...
洛谷 P1943 LocalMaxima_NOI导刊2009提高（1）
我们先考虑第i大数,比它大的数有(n-i)个,显然要使i是Local Maxima,比它大的数必须放在它后面,那么它是Local Maxima的期望是: 那么n个数中Local Maxima个数的期望 ...
8 pandas模块，多层索引
1 创建多层索引 1)隐式构造最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组 · Series也可以创建多层索引 ...
hdu2008 数值统计【C++】
数值统计 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total Submis ...
Myeclipse学习总结（1）——Myeclipse优化配置
作为企业级开发最流行的工具,用Myeclipse开发java web程序无疑是最合适的,java web前端采用jsp来显示,myeclipse默认打开jsp的视图有卡顿的现象,那么如何更改jsp默认 ...
Python 7 列表 for 字典，嵌套
列表: 基本格式:变量名 = [元素1,元素2,元素3] 创建:A = ['访客','admin',19] 或 A = list(['armin','admin',19]), 后者更倾向于转换为 ...
.net performance optimize your C# app 读书笔记
目录序作者简介推荐人简介感谢本书简介第一章性能指标第二章性能测量第三章内部类型第四章垃圾回收机制第五章集合和泛型第六章并发和并行性第七章网络.I / ...
iptables防火墙原理详解+mysql pt工具
http://seanlook.com/2014/02/23/iptables-understand/
PHP array_diff_key()
定义和用法 array_diff_key() 函数返回一个数组,该数组包括了所有在被比较的数组中,但是不在任何其他参数数组中的键. 语法 array_diff_key(array1,array2,ar ...
Java时间转换
package com.fh.util; import java.sql.Timestamp; import java.text.DateFormat; import java.text.ParseE ...

NLP:单词嵌入Word Embeddings

单词嵌入（Word Embeddings）

NLP:单词嵌入Word Embeddings的更多相关文章

随机推荐

热门专题