sklearn: CountVectorize处理及一些使用参数

CountVectorizer是属于常见的特征数值计算类，是一个文本特征提取方法。对于每一个训练文本，它只考虑每种词汇在该训练文本中出现的频率。

CountVectorizer会将文本中的词语转换为词频矩阵，它通过fit_transform函数计算各个词语出现的次数。

CountVectorizer(analyzer='word', binary=False, decode_error='strict',

        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',

        lowercase=True, max_df=1.0, max_features=None, min_df=1,

        ngram_range=(1, 1), preprocessor=None, stop_words=None,

        strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',

        tokenizer=None, vocabulary=None)

CountVectorizer类的参数很多，分为三个处理步骤：preprocessing、tokenizing、n-grams generation.

一般要设置的参数是:ngram_range,max_df，min_df，max_features，analyzer，stop_words，token_pattern等，具体情况具体分析 。

ngram_range ：例如ngram_range(min,max)，是指将text分成min，min+1，min+2,.........max 个不同的词组。比如 '我爱中国' 中ngram_range(1,3)之后可得到'我' '爱' '中国' '我爱' '爱中国' 和'我爱中国'，如果是ngram_range (1,1) 则只能得到单个单词'我' '爱'和'中国'。
max_df：可以设置为范围在[0.0 1.0]的float，也可以设置为没有范围限制的int，默认为1.0。这个参数的作用是作为一个阈值，当构造语料库的关键词集的时候，如果某个词的document frequence大于max_df，这个词不会被当作关键词。如果这个参数是float，则表示词出现的次数与语料库文档数的百分比，如果是int，则表示词出现的次数。如果参数中已经给定了vocabulary，则这个参数无效。
min_df: 类似于max_df，不同之处在于如果某个词的document frequence小于min_df，则这个词不会被当作关键词。
max_features：默认为None，可设为int，对所有关键词的term frequency进行降序排序，只取前max_features个作为关键词集。
analyzer：一般使用默认，可设置为string类型，如’word’, ‘char’, ‘char_wb’，还可设置为callable类型，比如函数是一个callable类型。
stop_words：设置停用词，设为english将使用内置的英语停用词，设为一个list可自定义停用词，设为None不使用停用词，设为None且max_df∈[0.7, 1.0)将自动根据当前的语料库建立停用词表。
token_pattern：过滤规则，表示token的正则表达式，需要设置analyzer == ‘word’，默认的正则表达式选择2个及以上的字母或数字作为token，标点符号默认当作token分隔符，而不会被当作token。
decode_error：默认为strict，遇到不能解码的字符将报UnicodeDecodeError错误，设为ignore将会忽略解码错误，还可以设为replace，作用尚不明确。
binary：默认为False，一个关键词在一篇文档中可能出现n次，如果binary=True，非零的n将全部置为1，这对需要布尔值输入的离散概率模型的有用的。

实例：

from sklearn.feature_extraction.text import CountVectorizer

corpus = ['我 爱 中国 中国','爸爸 妈妈 爱 我','爸爸 妈妈 爱 中国']

# corpus = ['我爱中国','爸爸妈妈爱我','爸爸妈妈爱中国']

vectorizer = CountVectorizer(min_df=1, ngram_range=(1, 1)) ##创建词袋数据结构,里面相应参数设置

features = vectorizer.fit_transform(corpus)  #拟合模型，并返回文本矩阵

print("CountVectorizer:")

print(vectorizer.get_feature_names())   #显示所有文本的词汇，列表类型

#词表

#['中国', '妈妈', '爸爸'] 

print(vectorizer.vocabulary_)    #词汇表，字典类型

#key：词，value:对应编号

#{'中国': 0, '爸爸': 2, '妈妈': 1} 

print(features)   #文本矩阵

#第一行 (0, 0)	2 表示为：第0个列表元素，**词典中索引为0的元素**， 词频为2

#  (0, 0)	2

#  (1, 1)	1

#  (1, 2)	1

#  (2, 1)	1

#  (2, 2)	1

#  (2, 0)	1

print(features.toarray())   #.toarray() 是将结果转化为稀疏矩阵

#将结果转化为稀疏矩阵

#[[2 0 0]

# [0 1 1]

# [1 1 1]]

print(features.toarray().sum(axis=0)) #统计每个词在所有文档中的词频

#文本中的词频

#[3 2 2]

sklearn: CountVectorize处理及一些使用参数的更多相关文章

SVM的sklearn.svm.SVC实现与类参数
SVC继承了父类BaseSVC SVC类主要方法: ★__init__() 主要参数: C: float参数默认值为1.0 错误项的惩罚系数.C越大,即对分错样本的惩罚程度越大,因此在训练样本中准确 ...
SKlearn中分类决策树的重要参数详解
学习机器学习童鞋们应该都知道决策树是一个非常好用的算法,因为它的运算速度快,准确性高,方便理解,可以处理连续或种类的字段,并且适合高维的数据而被人们喜爱,而Sklearn也是学习Python实现机器学 ...
sklearn.model_selection 的train_test_split方法和参数
train_test_split是sklearn中用于划分数据集,即将原始数据集划分成测试集和训练集两部分的函数. from sklearn.model_selection import train_ ...
python sklearn PCA源码阅读：参数n_components的设置（设为‘mle’出错的原因）
在介绍n_components参数之前,首先贴一篇PCA参数详解的文章:http://www.cnblogs.com/akrusher/articles/6442549.html. 按照文章中对于n_ ...
sklearn.svc 参数
sklearn.svc 参数 sklearn中的SVC函数是基于libsvm实现的,所以在参数设置上有很多相似的地方.(PS: libsvm中的二次规划问题的解决算法是SMO). 对于SVC函数的参数 ...
使用sklearn做单机特征工程
目录 1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺 ...
【转】使用sklearn做单机特征工程
这里是原文说明:这是我用Markdown编辑的第一篇随笔目录 1 特征工程是什么? 2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 无量纲化与正则化的区别 ...
Python机器学习笔记使用sklearn做特征工程和数据挖掘
特征处理是特征工程的核心部分,特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样式确定的步骤,更多的是工程上的经验和权衡,因此没有统一的方法,但是sklearn提供了较为完整的特征处 ...
基于sklearn和keras的数据切分与交叉验证
在训练深度学习模型的时候,通常将数据集切分为训练集和验证集．Keras提供了两种评估模型性能的方法: 使用自动切分的验证集使用手动切分的验证集一．自动切分在Keras中,可以从数据集中切分出一部 ...

随机推荐

为什么90%的大学都要求计算机专业学习C语言？
编程语言是编程的工具,计算机相关专业的学生必须具备足够的编程能力.当然,关于"最好语言"的争论从来没有休止过,这里要强调一下:语言的选择真的没那么重要,学习语言的过程最重要是语言的 ...
学会了这一招，距离Git大神不远了！
大家好,今天我们来介绍git当中一项非常重要的功能--交互式工具有的时候如果我们要处理的文件很多,使用git add .等操作会非常有隐患,因为很有可能我们一不小心就疏忽了一些内容.如果我们使用一个 ...
做IT需要掌握的电力基础知识
电流损耗直流电的传输损耗大,所以不适合长距离传输, 交流电的传输损耗小,所以适合长距离传输, 使用直流电电压稳定,无白躁声,故适於电子产品使用(例如电视机,收音机电脑等), 交流电要经过整流/开 ...
如何利用小熊派获取MPU6050六轴原始数据
摘要:使用小熊派开发板,通过硬件IIC与MPU6050六轴传感器模块通信,完成相应寄存器配置,成功获取陀螺仪.加速度计数据. 本问主要讲述使用小熊派开发板+MPU6050六轴传感器,获取加速度计以及陀 ...
moviepy执行TextClip.search方法时报错TypeError: a bytes-like object is required, not str
☞ ░ 前往老猿Python博文目录 ░ 执行TextClip.search方法时,报错: >>> from moviepy.editor import * >>> ...
PyQt（Python+Qt）学习随笔：QListWidget获取指定位置对应项的itemAt方法
老猿Python博文目录专栏:使用PyQt开发图形界面Python应用老猿Python博客地址 itemAt方法根据参数给定位置返回列表部件中的项.对应语法如下: QListWidgetItem ...
PyQt(Python+Qt)学习随笔：Designer中ItemViews类部件frameShape属性
老猿Python博文目录老猿Python博客地址 frameShape属性是从QFrame继承的属性,对应类型为QFrame.Shape,该属性表示框架样式中的框架形状,有如下取值: 老猿Pytho ...
ATT&CK 实战 - 红日安全 vulnstack (二) 环境部署（劝退水文）
靶机下载地址:http://vulnstack.qiyuanxuetang.net/vuln/detail/3/ 靶场简述红队实战系列,主要以真实企业环境为实例搭建一系列靶场,通过练习.视频教程.博 ...
JDBC（二）——　获取连接池方式
## 获取数据库连接的方式 ### 方式一 ```javaDriver driver = new com.mysql.cj.jdbc.Driver(); String url = "jdbc ...
【AtCoder AGC023F】01 on Tree（贪心）
Description 给定一颗 \(n\) 个结点的树,每个点有一个点权 \(v\).点权只可能为 \(0\) 或 \(1\). 现有一个空数列,每次可以向数列尾部添加一个点 \(i\) 的点权 \ ...

sklearn: CountVectorize处理及一些使用参数

sklearn: CountVectorize处理及一些使用参数

实例：

sklearn: CountVectorize处理及一些使用参数的更多相关文章

随机推荐

热门专题