原文地址：https://www.jianshu.com/p/c1e4f42b78d7

一、基于知识的表征

参见图1.1，WordNet中包含同义词集(synonym sets)和上位词(hypernyms, is a关系)。
其存在的问题为：

作为资源来说是好的，但是它失去了词间的细微差别；
比如说"good"和"full"同义是需要在一定的上下文中才能成立的。
易错过词的新义，基本不可能时时保持up-to-date；
是人为分的，所以是主观的结果；
需要花费很多的人力去创建和调整；
很难计算出准确的词间相似度。

二、基于数据库的表征

（一）词本身

参见图2.1，0-1表征中，向量维度为数据库中总词汇数，每个词向量在其对应词处取值为1，其余处为0。
其存在的问题为：

因为不同词间相互正交，所以很难计算词间相似度。

（二）结合上下文

基本思想：相似的词有相似的上下文。

1、共现矩阵

1）基于整个文档

词-文档共现矩阵\(\in R^{|V|*M}\)，其中，\(|V|\)为词汇量大小，\(M\)为文档数量。
常给出文档的主题信息。

2）基于上下文窗口

词-词共现矩阵\(\in R^{|V|*|V|}\)，其中，\(|V|\)为词汇量大小。
窗口大小常取5~10，通常对称、不分左右。
常捕获语法、语义信息。

图2.2中红框部分为基于窗口大小为1、不区分左右形成的"love"、"enjoy"对应的高维稀疏词向量。
其存在的问题为：

共现矩阵的大小随着词汇量的增多而变大；
维度高；
数据稀疏带来的鲁棒性差。

2、低维稠密词向量

1）基于SVD进行降维

通过对共现矩阵进行SVD，得\(X=USV^T\)。选择\(U\)的前\(k\)列得到\(k\)维词向量。
通过计算\(\frac{\sum_{i=1}^{k}s_i}{\sum_{j=1}^{|V|}s_j}\)得到前\(k\)维捕获到的信息比例。
其优势为：

有效地利用了统计信息。

其存在的问题为：

难以加入新词，每次来个新词，都得更新共现矩阵，然后重新SVD；
由于大多数词不共现，导致矩阵十分稀疏；
矩阵维度通常很高(\(\approx 10^6*10^6\))；
计算代价高，对于\(n*m\)的矩阵为\(O(nm^2)\)；
需要对共现矩阵进行处理来面对词频上的极端不平衡现象。

其常用的解决办法为：

忽视"the"、"he"、"has"等功能词或者限制其次数不超过某个值(常100)；
基于文档中词间距离对共现矩阵中的count进行加权处理，常窗口中离中心词越近的词分配给其的权重越大；
使用Pearson相关系数(\(C(X,Y)=\frac{cov(X,Y)}{\sigma(X)*\sigma(Y)}\))来代替原本的count，负数置0。

词表征 1：WordNet、0-1表征、共现矩阵、SVD的更多相关文章

词向量：part 1 WordNet、SoW、BoW、TF-IDF、Hash Trick、共现矩阵、SVD
1.基于知识的表征如WordNet(图1-1),包含同义词集(synonym sets)和上位词(hypernyms,is a关系). 存在的问题: 作为资源来说是好的,但是它失去了词间的细微差别, ...
（转）基于MapReduce的ItemBase推荐算法的共现矩阵实现（一）
转自:http://zengzhaozheng.blog.51cto.com/8219051/1557054 一.概述这2个月为公司数据挖掘系统做一些根据用户标签情况对用户的相似度进行评估,其中涉及 ...
深度学习——无监督，自动编码器——尽管自动编码器与 PCA 很相似，but自动编码器既能表征线性变换，也能表征非线性变换；而 PCA 只能执行线性变换
自动编码器是一种有三层的神经网络:输入层.隐藏层(编码层)和解码层.该网络的目的是重构其输入,使其隐藏层学习到该输入的良好表征. 自动编码器神经网络是一种无监督机器学习算法,其应用了反向传播,可将目标 ...
Python基于共现提取《釜山行》人物关系
Python基于共现提取<釜山行>人物关系一.课程介绍 1. 内容简介 <釜山行>是一部丧尸灾难片,其人物少.关系简单,非常适合我们学习文本处理.这个项目将介绍共现在关系中的 ...
#161: 给定n*n由0和1组成的矩阵，如果矩阵的每一行和每一列的1的数量都是偶数，则认为符合条件。你的任务就是检测矩阵是否符合条件
试题描述给定n*n由0和1组成的矩阵,如果矩阵的每一行和每一列的1的数量都是偶数,则认为符合条件. 你的任务就是检测矩阵是否符合条件,或者在仅改变一个矩阵元素的情况下能否符合条件. "改变 ...
数码管显示“0~F”的共阳共阴数码管编码表
嵌入式设备中数码管显示“0~F”的方式是:定义了一个数组,里面含有16个元素,分别代表0~F,这样可以方便以后的调用.共阳极数码管编码表:unsigned char table[]={0xc0,0xf ...
CDH5.10.0 离线安装(共3节点) 转
1.安装方式 CDH的离线部署安装,即Parcel包(推荐) 2.角色规划三个节点对应的角色: 3.基本环境配置(在每个节点上都要配置) (1)关闭防火墙 #/etc/init.d/iptables ...
计算区间 1 到 n 的所有整数中，数字 x(0 ≤ x ≤ 9) 共出现了多少次？
#include<iostream> using namespace std; int main() { long long start, end , i, check, b, c, cn ...
R语言多重共现性的检测
1.kappa值 2. library(car)vif(lm.sol) 得到各个系数的方差膨胀因子,当0<VIF<10的时候,不存在多重共线性,当10<=VIF<100,存在较 ...

随机推荐

CTO 技能图谱skill-map
# CTO 技能图谱 ### 岗位职责* 建立技术团队文化* 规划技术发展路线* 落地产品研发成果* 宣传公司技术品牌* 吸引优秀技术人才 ### 基本素质* 正直诚实的道德修养* 谦虚谨慎的工作态度 ...
svn提交代码失败提示清理（清理失败并且报错信息乱码解决办法）
原因是;svn的数据库队列原因 1,下载sqlite3.exe, sqlite官网http://www.sqlite.org/download.html) 2.在Windows的D盘中新建tools ...
display和visibility
display: none; visibility: hidden; 相同点:两者都是隐藏元素不同点:display不保留位置,visibility保留位置
HTML5: HTML5 语义元素
ylbtech-HTML5: HTML5 语义元素 1.返回顶部 1. HTML5 语义元素语义= 意义语义元素 = 有意义的元素什么是语义元素? 一个语义元素能够清楚的描述其意义给浏览器和开发 ...
jackson反序列化报错Unrecognized field , not marked as ignorable
使用Jackson提供的json注解. @JsonIgnore注解用来忽略某些字段,可以用在Field或者Getter方法上,用在Setter方法时,和Filed效果一样.这个注解只能用在POJO存在 ...
spring boot找不到或无法加载主类 io.renren.RenrenApplication
spring boot找不到或无法加载主类 io.renren.RenrenApplication 出现问题: spring boot 项目以前一直是好好的,用mvn clean package 打包 ...
MySQL高级学习笔记（六）：MySql锁机制
文章目录概述定义生活购物锁的分类从对数据操作的类型(读\写)分从对数据操作的粒度分三锁表锁(偏读) 特点案例分析建表SQL 加读锁加写锁结论如何分析表锁定行锁(偏写) 特点 ...
QT的一些小知识
记录一下前段时间工作中用到的东西,包括开发工具和一些简单的技巧吧.也许对于大家来说耳熟能详了. 最开始学习QT记得是在Ubuntu12.04下用apt命令行的方式安装了QT4.8.4以及QT Crea ...
js事件处理程序详解，html事件处理程序，dom0级事件处理程序，dom2级事件处理程序
博客搬迁,给你带来的不便,敬请谅解! http://www.suanliutudousi.com/2017/11/24/js%e4%ba%8b%e4%bb%b6%e5%a4%84%e7%90%86%e ...
Javascript生成器函数
function* 这种声明方式(function关键字后跟一个星号)会定义一个生成器函数 (generator function),它返回一个Generator 对象示例: function* g ...

词表征 1：WordNet、0-1表征、共现矩阵、SVD