sklearn中的分词函数countVectorizer()的改动--保留长度为1的字符串

1简述问题

使用countVectorizer()将文本向量化时发现，文本中长度唯一的字符串会被自动过滤掉，这对于我在做的情感分析来讲，一些表较重要的表达情感倾向的词汇被过滤掉，比如文本'没用的东西，可把我可把我坑的不轻，越用越觉得这个手机真的废'。

用结巴分词的精确模式分词，然后我用空格连接这些分词得到的句子是：

'没用 的 东西 ， 可 把 我 可 把 我 坑 的 不轻 ， 越用 越 觉得 这个 手机 真的 废'

　　代码如下：

def cut_word(sent):

    line=re.sub(r'[a-zA-Z0-9]*','',sent)

    wordList=jieba.lcut(line)

    #print(wordList)

    return ' '.join(wordList)

vec= CountVectorizer(min_df=1)

c='没用的东西，可把我可把我坑的不轻，越用越觉得这个手机真的废'

cut=cut_word(c)

然后用countVectorizer()对这个分好词的句子进行向量化发现，一个字的词都被过滤掉了：

['不轻', '东西', '手机', '没用', '真的','越用']

　　代码如下：

vec.fit_transform([cut])

vec.get_feature_names()

他把最能表达情感倾向的词“坑”，‘废’给过滤掉了，这对于向量化后的句子特征就损失了很多的信息。我认为因为这个库的函数原本就是为了英文分词的，而英文长度为1 的词是26个字母，并不会表示什么重要含义，所以在编写这个函数时自动就给这些长度低于2的单词给去掉了。但是中文可不一样，一个字的意义可以有非常重要的含义。对于我们分类不重要的词，比如一些代词“你”，‘我’，‘他’等其他经常出现的词，可以用停用词表给过滤掉，这个countVectorizer()就自带了一个组停用词的参数，stop_words,这个停用词是个列表包含了要去掉的停用词，我们可以针对自己需要自定义一个停用词表。当stop_words=‘english’时，函数会自动为英文文本分词去除停用词。中文都是自己自定义。

2解决方法

我是找了源代码，这个函数在sklearn包的feature_exceration文件夹中text.py。

找到了打开文件，找到了CountVectorizer()的代码，定位到fit_transform（raw_documents）中关于词汇表对于原始文本进行处理的地方

看见vocabulary这是包含所有分词的字典，再定位到_cout_vocab（）函数位置，

看见raw_vocabulary了，796行是对特征（分词）进行计数的放到字典feature_counter中。doc是原始文本的每行文本，这利用analyze（）处理，再往回找

analyze = self.build_analyzer()，可再往上找self.build_analyzer()函数，

我们主要找的是对文本进行处理的函数，所以找的就是出现文本，且对文本进行操作的函数。定位到264行，根据countVectorizer()的初始定义self.analyzer的默认值是‘word’,所以

self.build_analyzer()函数默认情况下是跳到这里对文本dco进行操作。再看看preprocess()和tokenize()

找到self.build_preprocessor()看一下知道是对文本的编码格式以及大小写的操作，对文本预处理的函数。

重点到self.bulid_tokenizer(),看名字就是知道是分词函数了。

这是我该过的，#原句是 return lambda doc: token_pattern.findall(doc),是根据正则表达式token_patten来从文本doc中找到符合正则表达式的所有分词，可见问题出在这里，再回到原文本countVectorizer()定义的正则表达式。

#原句token_patten=u'(?u)\b\w\w+\b',水平太菜不太看懂这个表达式，反正试了一下，这个表达式真的会过滤掉字符长度为1的字符串，我就改了一下正则表达式。因为待分的文本都是分词好且用空格连起来的字符串，所以用郑子表达式空格作为切分文本的标记。

所以总的来说就是改了两个点

（1）CountVectorizer中将默认的正则表达式u'(?u)\b\w\w+\b'改为r"\s+：即token_pattern=r"\s+"

（2）self.build_tokenizer()中fiandall()替换成split(),即return lambda doc: token_pattern.split(doc)

3.测试

结合自己定义的停词表，去掉没用的词，再试一下分词效果：

　原来分词效果：

['不轻', '东西', '手机', '没用', '真的','越用']

更改过后效果：

['不轻', '东西', '坑', '废', '手机', '没用', '真的', '越', '越用']

可见，长度为1的重要情感词，'坑', '废'，得到了保留。

sklearn中的分词函数countVectorizer()的改动--保留长度为1的字符串的更多相关文章

转载 --- SKLearn中预测准确率函数介绍
混淆矩阵 confusion_matrix 下面将一一给出'tp','fp','fn'的具体含义: 准确率: 所有识别为"1"的数据中,正确的比率是多少. 如识别出来100个结果是 ...
sklearn中的cross_val_score()函数
sklearn.cross_validation.cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jobs=1, verb ...
sklearn中LinearRegression使用及源码解读
sklearn中的LinearRegression 函数原型:class sklearn.linear_model.LinearRegression(fit_intercept=True,normal ...
sklearn中调用PCA算法
sklearn中调用PCA算法 PCA算法是一种数据降维的方法,它可以对于数据进行维度降低,实现提高数据计算和训练的效率,而不丢失数据的重要信息,其sklearn中调用PCA算法的具体操作和代码如下所 ...
PYTHON练习题二. 使用random中的randint函数随机生成一个1~100之间的预设整数让用户键盘输入所猜的数。
Python 练习标签: Python Python练习题 Python知识点二. 使用random中的randint函数随机生成一个1~100之间的预设整数让用户键盘输入所猜的数,如果大于预设的 ...
文本数据预处理：sklearn 中 CountVectorizer、TfidfTransformer 和 TfidfVectorizer
文本数据预处理的第一步通常是进行分词,分词后会进行向量化的操作.在介绍向量化之前,我们先来了解下词袋模型. 1.词袋模型(Bag of words,简称 BoW ) 词袋模型假设我们不考虑文本中词与词 ...
sklearn中的模型评估-构建评估函数
1.介绍有三种不同的方法来评估一个模型的预测质量: estimator的score方法:sklearn中的estimator都具有一个score方法,它提供了一个缺省的评估法则来解决问题. Scor ...
sklearn中，数据集划分函数 StratifiedShuffleSplit.split() 使用踩坑
在SKLearn中,StratifiedShuffleSplit 类实现了对数据集进行洗牌.分割的功能.但在今晚的实际使用中,发现该类及其方法split()仅能够对二分类样本有效. 一个简单的例子如下 ...
Jquery中的队列函数quene()、dequene()、clearQuene()
jQuery中的queue和dequeue是一组很有用的方法,他们对于一系列需要按次序运行的函数特别有用.特别animate动画,ajax,以及timeout等需要一定时间的函数.Queue()和de ...

随机推荐

OpenCL + OpenCV 图像旋转
▶ 使用 OpenCV 从文件读取彩色的 png 图像,旋转一定角度以后写回文件 ● 代码,核函数 // rotate.cl //__constant sampler_t sampler = CLK_ ...
42. linux下数据库服务启动
进到bin目录运行 emctl start dbconsole oracle@suse92:~> sqlplus /nolog SQL*Plus: Release 9.2.0.4.0 - Pro ...
mock——test　基本所有使用
可以参考:http://www.cnblogs.com/lyy-2016/p/6122144.html test /** * */ package com.imooc.web.controller; ...
IE6部分兼容问题
border-style:dotted 点线 IE6不兼容 (除了solid以外,其它都有兼容问题,不完全一样) a IE6 不支持a以外的所有标签伪类,IE6以上版本支持所有标签的hover伪类. ...
shrio Subject的认证
注意:shiro的认证只是获取用户名和密码,具体的匹配由shiro来完成
机器学习入门-随机森林温度预测-增加样本数据 1.sns.pairplot(画出两个关系的散点图) 2.MAE(平均绝对误差) 3.MAPE(准确率指标)
在上一个博客中,我们构建了随机森林温度预测的基础模型,并且研究了特征重要性. 在这个博客中,我们将从两方面来研究数据对预测结果的影响第一方面:特征不变,只增加样本的数据第二方面:增加特征数,增加样 ...
7 python 类的组合
1.组合与重用性软件重用的重要方式除了继承之外还有另外一种方式,即:组合组合指的是,在一个类中以另外一个类的对象作为 1.一个类的属性可以是一个类对象,通常情况下在一个类里面很少定义一个对象就是它 ...
ansible之条件语句when
注册变量: 变量的另一个用途是将一条命令的运行结果保存到变量中,供后面的playbook使用.例如: - hosts: webservers tasks: - shell: /usr/bin/foo ...
YAML描述与Python的对应关系
YAML是"YAML Ain't a Markup Language"的首字母缩写,其语法简单,结构通过空格来展示,(列表)项目使用"-"来代表,(字典)键值对 ...
ICE中间件相关
Ice 是网络通信引擎 Internet Communications Engine 的简称,是ZeroC开发的一个面向对象的中间件平台.它提供了面向对象的远程过程调用.网格计算和发布/订阅功能,并 ...

sklearn中的分词函数countVectorizer()的改动--保留长度为1的字符串

sklearn中的分词函数countVectorizer()的改动--保留长度为1的字符串的更多相关文章

随机推荐

热门专题