词袋模型bow和词向量模型word2vec

在自然语言处理和文本分析的问题中，词袋（Bag of Words, BOW）和词向量（Word Embedding）是两种最常用的模型。更准确地说，词向量只能表征单个词，如果要表示文本，需要做一些额外的处理。下面就简单聊一下两种模型的应用。

所谓BOW，就是将文本/Query看作是一系列词的集合。由于词很多，所以咱们就用袋子把它们装起来，简称词袋。至于为什么用袋子而不用筐（basket）或者桶（bucket），这咱就不知道了。举个例子：

文本1：苏宁易购/是/国内/著名/的/B2C/电商/之一

这是一个短文本。“/”作为词与词之间的分割。从中我们可以看到这个文本包含“苏宁易购”，“B2C”，“电商”等词。换句话说，该文本的的词袋由“苏宁易购”，“电商”等词构成。就像这样：

但计算机不认识字，只认识数字，那在计算机中怎么表示词袋模型呢？其实很简单，给每个词一个位置/索引就可以了。例如，我们令“苏宁易购”的索引为0，“电商”的索引为1，其他以此类推。则该文本的词袋就变成了：

是的，词袋变成了一串数字的（索引）的集合。这样计算机就能读懂了。如果用程序来描述的话，就会像：Set<int>(0,1,2…)。当然，刚才的例子中像“苏宁易购”等词只出现了一次，如果出现多次，可能就需要支持重复元素的容器了，如Java/C++中的MultiSet。

可是，在实际的应用中（如：文本的相似度计算），用刚才说的容器是非常不方便的（如果要用，需要额外用Map容器来存储一本字典来表征词和索引的映射关系）。因此我们考虑用更简单的数据结构来组织词袋模型。既然刚才说词是用数字（索引）来表示的，那自然我们会想到数组。例如：

Intwords[10000] = {1,20,500,0,……}

索引:{0,1,2,3,……}

词: {苏宁易购,是,国内,B2C,……}

数组的下标表示不同的词，数组中的元素表示词的权重（如：TF，TF-IDF）。更为一般的，词的索引可以用词的HashCode来计算，即：Index(苏宁易购) = HashCode(苏宁易购)。将词散列到数组的某个位置，并且是固定的（理论上会有冲突，需要考虑冲突的问题）。因此，HashCode这个函数起到了字典的作用。转化成了数组，接下来计算余弦相似度啥的就好办多了。这就是词袋模型。

下面讲讲词向量模型。实际上，单个词的词向量不足以表示整个文本，能表示的仅仅是这个词本身。往往，这个词向量是个高维的向量（几万甚至几十万）。先不说它是如何得到的，单说它的应用应该是很广泛的。再举文本相似度的例子，既然词可以用一串数字表示，那么自然可以用余弦相似度或欧式距离计算与之相近的词。这样，词的聚类什么的都可以做了。那长文本怎么办呢？一个简单的办法是把这个文本中包含的词的词向量相加。这样长文本也就表示成了一串数字。可是这种处理方法总让我们觉得怪怪的。看到过有同学做的测试，当文本只有十几个字的时候，这种处理方法还算凑合，字多了，结果就很难看了。至于词向量是怎么获得，咱下回再说。目前word2vec有多种版本可供大家使用。至于像doc2vec，sentence2vec的效果还有待评估。

词袋模型bow和词向量模型word2vec的更多相关文章

计算机视觉中的词袋模型(Bow,Bag-of-words)
计算机视觉中的词袋模型(Bow,Bag-of-words) Bag-of-words 读 'xw20084898的专栏'的blogBag-of-words model in computer visi ...
第十九节、基于传统图像处理的目标检测与识别(词袋模型BOW+SVM附代码)
在上一节.我们已经介绍了使用HOG和SVM实现目标检测和识别,这一节我们将介绍使用词袋模型BOW和SVM实现目标检测和识别. 一词袋介绍词袋模型(Bag-Of-Word)的概念最初不是针对计算机视 ...
视觉单词模型、词袋模型BoW
多用于图像检索.分类 3.2.1.4 视觉单词模型视觉词袋(BoVW,Bag of Visual Words)模型,是“词袋”(BoW,Bag of Words)模型从自然语言处理与分析领域向图像处 ...
自然语言处理词向量模型-word2vec
自然语言处理与深度学习: 语言模型: N-gram模型: N-Gram模型:在自然语言里有一个模型叫做n-gram,表示文字或语言中的n个连续的单词组成序列.在进行自然语言分析时,使用n-gram或者 ...
NLP基础——词集模型（SOW）和词袋模型（BOW）
(1)词集模型(Set Of Words): 单词构成的集合,集合自然每个元素都只有一个,也即词集中的每个单词都只有一个. (2)词袋模型(Bag Of Words): 如果一个单词在文档中出现不止一 ...
【CV知识学习】【转】beyond Bags of features for rec scenen categories。基于词袋模型改进的自然场景识别方法
原博文地址:http://www.cnblogs.com/nobadfish/articles/5244637.html 原论文名叫Byeond bags of features:Spatial Py ...
词袋模型（BOW，bag of words）和词向量模型（Word Embedding）概念介绍
例句: Jane wants to go to Shenzhen. Bob wants to go to Shanghai. 一.词袋模型将所有词语装进一个袋子里,不考虑其词法和语序的问题,即每个 ...
[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型
深度学习掀开了机器学习的新篇章,目前深度学习应用于图像和语音已经产生了突破性的研究进展.深度学习一直被人们推崇为一种类似于人脑结构的人工智能算法,那为什么深度学习在语义分析领域仍然没有实质性的进展呢? ...
机器学习入门-文本特征-word2vec词向量模型 1.word2vec（进行word2vec映射编码）2.model.wv['sky']输出这个词的向量映射 3.model.wv.index2vec(输出经过映射的词名称)
函数说明: 1. from gensim.model import word2vec 构建模型 word2vec(corpus_token, size=feature_size, min_count ...

随机推荐

Oracle 12C -- 基于sequence的列的默认值
12C支持先创建一个sequence,然后再将该sequence指定为某个列的值的默认表达式. 和"identity column"具有以下不同点: ·对列的个数没有限制 ·seq ...
nginx location 配置详解【转载，整理】
http://www.nginx.cn/115.html NGINX location 配置参考:http://www.cnblogs.com/zlingh/p/6288994.html https: ...
温故而知新监听 XMLHttpRequest 发起请求
window.XMLHttpRequest.prototype.open 可以监听 XMLHttpRequest .但不能监听fetch请求. <!DOCTYPE html> <ht ...
正则和xpath在网页中匹配字段的效率比较
1. 测试页面是 https://www.hao123.com/,这个是百度的导航 2. 为了避免网络请求带来的差异,我们把网页下载下来,命名为html,不粘贴其代码. 3.测试办法: 我们在页面中 ...
在Spring Boot中使用Spring-data-jpa实现分页查询（转）
在我们平时的工作中,查询列表在我们的系统中基本随处可见,那么我们如何使用jpa进行多条件查询以及查询列表分页呢?下面我将介绍两种多条件查询方式. 1.引入起步依赖 2.对thymeleaf和jpa进 ...
linux环境下matlab连接mysql
因为matlab是基于java的,但是原生的matlab是没有jdbc的,这是一个java的mysql connection. 只有matlab有这个包,才能正确的连接mysql. 1.在http:/ ...
[转]cubemap soft shadow
https://community.arm.com/graphics/b/blog/posts/dynamic-soft-shadows-based-on-local-cubemap
Linq to sql 消除列重复去重复
按user分组,取每组的第一个: var o = from r in xe.Descendants("customer") group r b ...
JDK1.7新特性，语言篇
1. 可以用二进制表达数字可以用二进制表达数字(加前缀0b/0B),包括:byte, short, int, long // 可以用二进制表达数字(加前缀0b/0B),包括:byte, short, ...
cocopods 问题
http://www.cocoachina.com/bbs/read.php?tid=1711580

词袋模型bow和词向量模型word2vec

词袋模型bow和词向量模型word2vec的更多相关文章

随机推荐

热门专题