如何表示词语的意思

语言学中meaning近似于“指代，代指，符号”。

计算机中如何处理词语的意思

过去一直采用分类词典，计算语言学中常见的方式时WordNet那样的词库，比如NLTK中可以通过WordNet查询熊猫的上位词(hypernums)，得到“食肉动物”，“动物”之类的上位词。也可以查询“good”的同义词，如“just”。

离散表示(discrete representation)的问题

这种离散表示并不准确，丢失了些许韵味。如以下同义词的意思还是有微妙不同的：adept, expert, good, practiced, proficient, skillful
缺少新词
耗费人力
无法准确计算词语相似度

大多数NLP学者将词语作为最小的单位，事实上，词语只是词表长度的one-hot向量，这是一种局部表示(localist representation)。在不同的语料中，词表大小不同，如Google的1TB词料词汇量是1300w，这个向量实在过长了。

从符号表示(symbolic representation)到分布式表示(distributed representation)

词语在符号表示上体现不出意义的相似性，如“motel”和“hotel”，其one-hot向量是正交的，无法通过计算获得相似度。

Distributional similarity based representations

语言学家J. R. Firth提出，通过一个单词的上下文可以得到它的意思。J. R. Firth甚至建议，日过能将单词放到正确的上下文中，才说明掌握了它的意义。这是现代统计自然语言处理最成功的思想之一：

通过向量定义词语的含义

通过调整一个单词机器上下文单词的向量，使得根据两个向量可以推测两个单词的相似度；或者根据两个向量可以推测词语的上下文。这种手法是递归的，根据向量调整向量。

学习神经网络word embedings的基本思路

定义一个用来预测某个单词上下文的模型：

p(context|w_t)=…
损失函数定义如下：

J=1-p(w_-t|w_t)

这里的w_-t表示w_t的上下文（-t表示“除了t之外”），如果完美预测，及p(w_t)=1，损失函数等于0。
在一个大型的语料库中的不同位置得到训练实例，调整词向量，最小化损失函数。

word2vec的主要思路

通过单词和上下文预测彼此。

两个算法
- Skip-grams(SG)：预测上下文
- Continuous Bag of Words(CBOW)：预测目标单词
两种高效的训练方法：
- Hierarchical softmax
- Negative sampling

Hierarchical Softmax

模型共同点

无论是哪种模型，其基本网络结构都是在下图的基础上（省略掉hidden layer）：

为什么要去掉hidden layer层呢？因为word2vec的作者认为hidden layer到output layer的矩阵运算太多了，所以两种模型的网络结构是：

其中w(t)代表当前词语位于句子中的位置t，同理定义其他符号，在窗口内（上图中的窗口大小为5），除了当前词语之外的其它词语共同构成上下文。

CBOW

原理：CBOW是一种根据上下文的词语预测当前词语出现概率的模型。

CBOW是已知上下文，估算当前词语的语言模型，其学习目标是最大化对数似然函数：

其中，w表示语料库C中任意一个次。从上图可以看出，对于CBOW：

输入层是上下文词语的词向量（词向量只是训练CBOW模型的副产物，是CBOW模型的一个参数。训练开始时，词向量是随机值，随着训练的进行不断被更新）
投影层对其求和，就是简单的向量加法。
输出层输出最可能的w。由于语料库中的词汇量是固定的|C|个，所以上述过程可以看作是一个多分类的问题。给定特征，从|C|个分类中挑一个。

对于神经网络模型的多分类，最朴素的做法是softmax回归：

softmax回归需要对语料库中每个词语（类）都计算一遍输出概率并进行归一化，在几十万词汇量的语料上无疑是令人头疼的。

如果使用SVM中的多分类：

这是一种二叉树结构，应用到word2vec中被作者称为Hierarchical Softmax：

上图输出层的树形结构即为Hierarchical Softmax。

非叶子节点相当于一个神经元（感知机，我认为逻辑斯谛回归就是感知机的输出代入f(x)=1/(1+e^x)），二分类决策输出1或0，分别代表向下左转或向下右转；每个叶子节点代表语料库中的一个词语，于是每个词语都可以被01唯一地编码，并且其编码序列对应一个事件序列，于是我们可以计算条件概率：

在开始计算之前，还是得引入一些符号：
1. 从根结点出发到达w对应叶子结点的路径.
2. 路径中包含结点的个数
3. 路径中的各个节点
4. 词w的编码，表示路径第j个节点对应的编码（根节点无编码）
5. 路径中非叶节点对应的参数向量
  
  可以给出w的条件概率：

Skip-gram预测

这里虽然有四条线，但模型中只有一个条件分布（因为这只是个词袋模型而已，与位置无关）。学习就是要最大化这些概率。

word2vec细节

目标函数定义为所有位置的预测结果的乘积：

要最大化目标函数。对其取个负对数，得到损失函数——对数似然的相反数：

对于softmax来讲，常用的损失函数为交叉熵。

Softmax function：从实数空间到概率分布的标准映射方法

指数函数可以把实数映射成正数，然后归一化得到概率。

softmax之所叫softmax，是因为指数函数会导致较大的数变得更大，小数变得微不足道；这种选择作用类似于max函数。

Skipgram

这两个矩阵都含有V个词向量，也就是说同一个词有两个词向量，哪个作为最终的、提供给其他应用使用的embeddings呢？有两种策略，要么加起来，要么拼接起来。在CS224n的编程练习中，采取的是拼接起来的策略：

# concatenate the input and output

word vectorswordVectors = np.concatenate(

(wordVectors[:nWords,:], wordVectors[nWords:,:]),

axis=0)

# wordVectors = wordVectors[:nWords,:] + wordVectors[nWords:,:]

他们管W中的向量叫input vector，W'中的向量叫output vector。从左到右是one-hot向量，乘以center word的W于是找到词向量，乘以另一个context word的矩阵W'得到对每个词语的“相似度”，对相似度取softmax得到概率

训练模型：计算参数向量的梯度

把所有参数写进向量θ，对d维的词向量和大小V的词表来讲，有：

由于上述两个矩阵的原因，所以θ的维度中有个2。

CS224n笔记二：word2vec的更多相关文章

【NLP CS224N笔记】汇总
[NLP CS224N笔记]Lecture 1 - Introduction of NLP [NLP CS224N笔记]Lecture 2 - Word Vector Representations: ...
《CMake实践》笔记二：INSTALL/CMAKE_INSTALL_PREFIX
<CMake实践>笔记一:PROJECT/MESSAGE/ADD_EXECUTABLE <CMake实践>笔记二:INSTALL/CMAKE_INSTALL_PREFIX &l ...
jQuery源码笔记(二)：定义了一些变量和函数 jQuery = function(){}
笔记(二)也分为三部分: 一. 介绍: 注释说明:v2.0.3版本.Sizzle选择器.MIT软件许可注释中的#的信息索引.查询地址(英文版)匿名函数自执行:window参数及undefined参数意 ...
Mastering Web Application Development with AngularJS 读书笔记(二)
第一章笔记 (二) 一.scopes的层级和事件系统(the eventing system) 在层级中管理的scopes可以被用做事件总线.AngularJS 允许我们去传播已经命名的事件用一种有效 ...
Python 学习笔记二
笔记二 :print 以及基本文件操作笔记一已取消置顶链接地址 http://www.cnblogs.com/dzzy/p/5140899.html 暑假只是快速过了一遍python ,现在起开始仔 ...
WPF的Binding学习笔记(二)
原文: http://www.cnblogs.com/pasoraku/archive/2012/10/25/2738428.htmlWPF的Binding学习笔记(二) 上次学了点点Binding的 ...
webpy使用笔记(二) session/sessionid的使用
webpy使用笔记(二) session的使用 webpy使用系列之session的使用,虽然工作中使用的是django,但是自己并不喜欢那种大而全的东西~什么都给你准备好了,自己好像一个机器人一样赶 ...
AJax 学习笔记二(onreadystatechange的作用)
AJax 学习笔记二(onreadystatechange的作用) 当发送一个请求后,客户端无法确定什么时候会完成这个请求,所以需要用事件机制来捕获请求的状态XMLHttpRequest对象提供了on ...
《MFC游戏开发》笔记二建立工程、调整窗口
本系列文章由七十一雾央编写,转载请注明出处. http://blog.csdn.net/u011371356/article/details/9300383 作者:七十一雾央新浪微博:http:/ ...

随机推荐

SQL生成n位随机字符串
--1.随着newid() go --创建一个视图(因为不能在功能直接用于newid()) create view vnewid as select newid() N'MacoId'; go --创 ...
【record】11.7..11.13
好少
Cordova/PhoneGap 安卓开发环境搭建
此文为个人原创作品,如有不正确之处,恳请大家指出,并请您谅解,转载请说明出处. 准备阶段: 必备: JDK(根据自己的开发平台下载相应的安装包,可能需要FQ) Nodejs (根据自己的开发平台下载 ...
C#List实现行转列
List实现行转列的通用方案最近在做报表统计方面的需求,涉及到行转列报表.根据以往经验使用SQL可以比较容易完成,这次决定挑战一下直接通过代码方式完成行转列.期间遇到几个问题和用到的新知识这里整理记 ...
Windows 窗体设计器(Windows Forms Designer)入门
Visual Studio 2010 更新:2010 年 9 月 Windows 窗体设计器提供多个用于生成 Windows 窗体应用程序的工具. 本演练阐释如何使用设计器提供的各种工具生成应用程 ...
ASP.NET Core 中间件 - ASP.NET Core 基础教程 - 简单教程，简单编程
原文:ASP.NET Core 中间件 - ASP.NET Core 基础教程 - 简单教程,简单编程 ASP.NET Core 中间件上一章节中,我们我们有讲到 Startup 类中的 Confi ...
构建自己的PHP框架（邮件发送）
完整项目地址:https://github.com/Evai/Aier 我们采用 'nette/mail' 包作为我们的邮件发送基础模块,在它的基础上封装一个 'Mail' 类,暴露出简洁的 API ...
（转）移动端自定义返回上一页的方法：history
在实际的应用中,我们常常需要实现在移动app和浏览器中点击返回.后退.上一页等按钮实现自己的关闭页面.调整到指定页面或执行一些其它操作的需求. 那在代码中怎样监听当点击微信.支付宝.百度糯米.百度钱包 ...
AngularJS 计时器
<div ng-controller="MyController">  <h1>hello ...
MVC EF 导航属性
@model IQueryable<EFExam.Models.CategoryProductViewModel>@{ Layout = null;}<!DOCTYPE htm ...

CS224n笔记二：word2vec