CountVectorizer，Tf-idfVectorizer和word2vec构建词向量的区别

CountVectorizer和Tf-idfVectorizer构建词向量都是通过构建字典的方式，比如在情感分析问题中，我需要把每一个句子（评论）转化为词向量，这两种方法是如何构建的呢？拿CountVectorizer来说，首先构建出一个字典，字典包含了所有样本出现的词汇，每一个词汇对应着它出现的顺序和频率。对于每一个句子来说，构建出来的词向量的长度就是整个词典的长度，词向量的每一维上都代表这一维对应的单词的频率。同理，Tf-idf就是将频率换成Tf权值。

CountVectorizer有几个参数个人觉得比较重要：

max_df：可以设置为范围在[0.0 1.0]的float，也可以设置为没有范围限制的int，默认为1.0。这个参数的作用是作为一个阈值，当构造语料库的关键词集的时候，如果某个词的document frequence大于max_df，这个词不会被当作关键词。如果这个参数是float，则表示词出现的次数与语料库文档数的百分比，如果是int，则表示词出现的次数。如果参数中已经给定了vocabulary，则这个参数无效
min_df：类似于max_df，不同之处在于如果某个词的document frequence小于min_df，则这个词不会被当作关键词
max_features：默认为None，可设为int，对所有关键词的term frequency进行降序排序，只取前max_features个作为关键词集

Tf-idfVectorizer也有上述参数，除此之外还有一个个人觉得能用得上的：

norm：默认为'l2'，可设为'l1'或None，计算得到tf-idf值后，如果norm='l2'，则整行权值将归一化，即整行权值向量为单位向量，如果norm=None，则不会进行归一化。大多数情况下，使用归一化是有必要的。（这里的l1和l2的区别我目前也不太明白）

通过这些方法转化的词向量维度还是比较大的，而且是稀疏阵，为了避免过拟合等问题，所以在实际处理中需要降维处理。

word2vec的话比他们要复杂一些，是利用类似神经网络进行训练得到的词向量，每一个单词有对应的向量。一般如果像微博评论情感分析这种问题，在求评论向量的时候，可以直接对每一个词向量求平均作为句子向量。至于word2vec实现不在这里赘述。word2vec可以设置好词向量维度，但是一般设在100维以上。如果样本不算太大时，为了避免后续词向量维度较大造成的训练问题，可以将输出维度设置为几十维。

CountVectorizer，Tf-idfVectorizer和word2vec构建词向量的区别的更多相关文章

基于word2vec训练词向量(一)
转自:https://blog.csdn.net/fendouaini/article/details/79905328 1.回顾DNN训练词向量上次说到了通过DNN模型训练词获得词向量,这次来讲解 ...
基于word2vec训练词向量(二)
转自:http://www.tensorflownews.com/2018/04/19/word2vec2/ 一.基于Hierarchical Softmax的word2vec模型的缺点上篇说了Hi ...
文本分布式表示（二）：用tensorflow和word2vec训练词向量
看了几天word2vec的理论,终于是懂了一些.理论部分我推荐以下几篇教程,有博客也有视频: 1.<word2vec中的数学原理>:http://www.cnblogs.com/pegho ...
[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型
深度学习掀开了机器学习的新篇章,目前深度学习应用于图像和语音已经产生了突破性的研究进展.深度学习一直被人们推崇为一种类似于人脑结构的人工智能算法,那为什么深度学习在语义分析领域仍然没有实质性的进展呢? ...
word2vec生成词向量原理
假设每个词对应一个词向量,假设: 1)两个词的相似度正比于对应词向量的乘积.即:$sim(v_1,v_2)=v_1\cdot v_2$.即点乘原则: 2)多个词$v_1\sim v_n$组成的一个上下 ...
word2vec 构建中文词向量
词向量作为文本的基本结构——词的模型,以其优越的性能,受到自然语言处理领域研究人员的青睐.良好的词向量可以达到语义相近的词在词向量空间里聚集在一起,这对后续的文本分类,文本聚类等等操作提供了便利,本文 ...
word2vec词向量训练及中文文本类似度计算
本文是讲述怎样使用word2vec的基础教程.文章比較基础,希望对你有所帮助! 官网C语言下载地址:http://word2vec.googlecode.com/svn/trunk/ 官网Python ...
斯坦福NLP课程 | 第2讲 - 词向量进阶
作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www. ...
词袋模型（BOW，bag of words）和词向量模型（Word Embedding）概念介绍
例句: Jane wants to go to Shenzhen. Bob wants to go to Shanghai. 一.词袋模型将所有词语装进一个袋子里,不考虑其词法和语序的问题,即每个 ...

随机推荐

函数内联inline
C++语言支持函数内联,其目的是为了提高函数的执行效率(速度). 宏的优点在C程序中,可以用宏代码提高执行效率. 编译预处理器用拷贝宏代码的方式取代函数调用,省去了参数压栈,生成汇编语言的CALL调 ...
11-[CSS]-标准文档流，display，浮动，清除浮动，overflow
1.标准文档流 <!DOCTYPE html> <html lang="en"> <head> <meta charset="U ...
day1 UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 2490: illegal multibyte sequence 错误提示
get方式得到网页的信息 #coding=utf-8 #pip install requests #直接get到网页的信息 import requests from bs4 import Beauti ...
4 django篇
1.django请求生命周期 wsgi, 他就是socket服务端,用于接收用户请求并将请求进行初次封装,然后将请求交给web框架 (Flask.Django) 中间件,帮助我们对请求进行校验或在请求 ...
iOS中开源框架GPUImage的使用之生成libGPUImage.a文件和创建工程（一）
一.下载GPUImage (1)下载地址:https://github.com/BradLarson/GPUImage (2)下载后打开 GPUImage.xcodeproj 工程,选择真机运行该工 ...
[webpack]——loader配置
前言当我们需要配置 loader 时,都是在 module.rules 中添加新的配置项,在该字段中,每一项被视为一条匹配使用 loader 的规则. 看一下基础实例: module.exports ...
使用VS Code新建编译Flutter项目
本文的前提是你已经安装好了VS Code,并且安装了Flutter和Dart扩展插件. 1. 新建Flutter项目查看——命令面板,或者Ctrl + Shift + P 输入 Flutter: N ...
北美KubeCon新风，正把K8S魔力带向边缘计算
作者:DJ 审校:Kevin·Wang 1. 容器生态圈新的创新方向 2018年容器技术圈的年终盛典北美KubeCon终于在西雅图落下了帷幕.这次北美KubeCon总共吸引了8000多观众参会,创下历 ...
频繁请求报requests异常的处理
由于数据量的增大,调用接口的次数会增加. 当连续向目标网站发送多次request后,目标网站可能会认为是,恶意攻击. 于是会抛出requests异常. 测试代码: for i in range(200 ...
svn图文教程-宋正河整理
下载地址:http://download.csdn.net/download/songzhengdong82/4433476 在线浏览:http://wenku.baidu.com/view/07f1 ...

CountVectorizer，Tf-idfVectorizer和word2vec构建词向量的区别

CountVectorizer，Tf-idfVectorizer和word2vec构建词向量的区别的更多相关文章

随机推荐

热门专题