机器学习之路：python 文本特征提取 CountVectorizer, TfidfVectorizer

本特征提取：
    将文本数据转化成特征向量的过程
    比较常用的文本特征表示法为词袋法
词袋法：
    不考虑词语出现的顺序，每个出现过的词汇单独作为一列特征
    这些不重复的特征词汇集合为词表
    每一个文本都可以在很长的词表上统计出一个很多列的特征向量
    如果每个文本都出现的词汇，一般被标记为 停用词 不计入特征向量

主要有两个api来实现 CountVectorizer 和 TfidfVectorizer
CountVectorizer：
    只考虑词汇在文本中出现的频率
TfidfVectorizer：
    除了考量某词汇在文本出现的频率，还关注包含这个词汇的所有文本的数量
    能够削减高频没有意义的词汇出现带来的影响, 挖掘更有意义的特征

相比之下，文本条目越多，Tfid的效果会越显著

下面对两种提取特征的方法，分别设置停用词和不停用，
使用朴素贝叶斯进行分类预测，比较评估效果

python3 学习api的使用

源代码git: https://github.com/linyi0604/MachineLearning

代码：

 from sklearn.datasets import  fetch_20newsgroups

 from sklearn.cross_validation import train_test_split

 from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

 from sklearn.naive_bayes import MultinomialNB

 from sklearn.metrics import classification_report

 '''

 文本特征提取：

     将文本数据转化成特征向量的过程

     比较常用的文本特征表示法为词袋法

 词袋法：

     不考虑词语出现的顺序，每个出现过的词汇单独作为一列特征

     这些不重复的特征词汇集合为词表

     每一个文本都可以在很长的词表上统计出一个很多列的特征向量

     如果每个文本都出现的词汇，一般被标记为 停用词 不计入特征向量

 主要有两个api来实现 CountVectorizer 和 TfidfVectorizer

 CountVectorizer：

     只考虑词汇在文本中出现的频率

 TfidfVectorizer：

     除了考量某词汇在文本出现的频率，还关注包含这个词汇的所有文本的数量

     能够削减高频没有意义的词汇出现带来的影响, 挖掘更有意义的特征

 相比之下，文本条目越多，Tfid的效果会越显著

 下面对两种提取特征的方法，分别设置停用词和不停用，

 使用朴素贝叶斯进行分类预测，比较评估效果

 '''

 # 1 下载新闻数据

 news = fetch_20newsgroups(subset="all")

 # 2 分割训练数据和测试数据

 x_train, x_test, y_train, y_test = train_test_split(news.data,

                                                     news.target,

                                                     test_size=0.25,

                                                     random_state=33)

 # 3.1 采用普通统计CountVectorizer提取特征向量

 # 默认配置不去除停用词

 count_vec = CountVectorizer()

 x_count_train = count_vec.fit_transform(x_train)

 x_count_test = count_vec.transform(x_test)

 # 去除停用词

 count_stop_vec = CountVectorizer(analyzer='word', stop_words='english')

 x_count_stop_train = count_stop_vec.fit_transform(x_train)

 x_count_stop_test = count_stop_vec.transform(x_test)

 # 3.2 采用TfidfVectorizer提取文本特征向量

 # 默认配置不去除停用词

 tfid_vec = TfidfVectorizer()

 x_tfid_train = tfid_vec.fit_transform(x_train)

 x_tfid_test = tfid_vec.transform(x_test)

 # 去除停用词

 tfid_stop_vec = TfidfVectorizer(analyzer='word', stop_words='english')

 x_tfid_stop_train = tfid_stop_vec.fit_transform(x_train)

 x_tfid_stop_test = tfid_stop_vec.transform(x_test)

 # 4 使用朴素贝叶斯分类器  分别对两种提取出来的特征值进行学习和预测

 # 对普通通统计CountVectorizer提取特征向量 学习和预测

 mnb_count = MultinomialNB()

 mnb_count.fit(x_count_train, y_train)   # 学习

 mnb_count_y_predict = mnb_count.predict(x_count_test)   # 预测

 # 去除停用词

 mnb_count_stop = MultinomialNB()

 mnb_count_stop.fit(x_count_stop_train, y_train)   # 学习

 mnb_count_stop_y_predict = mnb_count_stop.predict(x_count_stop_test)    # 预测

 # 对TfidfVectorizer提取文本特征向量 学习和预测

 mnb_tfid = MultinomialNB()

 mnb_tfid.fit(x_tfid_train, y_train)

 mnb_tfid_y_predict = mnb_tfid.predict(x_tfid_test)

 # 去除停用词

 mnb_tfid_stop = MultinomialNB()

 mnb_tfid_stop.fit(x_tfid_stop_train, y_train)   # 学习

 mnb_tfid_stop_y_predict = mnb_tfid_stop.predict(x_tfid_stop_test)    # 预测

 # 5 模型评估

 # 对普通统计CountVectorizer提取的特征学习模型进行评估

 print("未去除停用词的CountVectorizer提取的特征学习模型准确率：", mnb_count.score(x_count_test, y_test))

 print("更加详细的评估指标:\n", classification_report(mnb_count_y_predict, y_test))

 print("去除停用词的CountVectorizer提取的特征学习模型准确率：", mnb_count_stop.score(x_count_stop_test, y_test))

 print("更加详细的评估指标:\n", classification_report(mnb_count_stop_y_predict, y_test))

 # 对TfidVectorizer提取的特征学习模型进行评估

 print("TfidVectorizer提取的特征学习模型准确率：", mnb_tfid.score(x_tfid_test, y_test))

 print("更加详细的评估指标:\n", classification_report(mnb_tfid_y_predict, y_test))

 print("去除停用词的TfidVectorizer提取的特征学习模型准确率：", mnb_tfid_stop.score(x_tfid_stop_test, y_test))

 print("更加详细的评估指标:\n", classification_report(mnb_tfid_stop_y_predict, y_test))

 '''

 未去除停用词的CountVectorizer提取的特征学习模型准确率： 0.8397707979626485

 更加详细的评估指标:

               precision    recall  f1-score   support

           0       0.86      0.86      0.86       201

           1       0.86      0.59      0.70       365

           2       0.10      0.89      0.17        27

           3       0.88      0.60      0.72       350

           4       0.78      0.93      0.85       204

           5       0.84      0.82      0.83       271

           6       0.70      0.91      0.79       197

           7       0.89      0.89      0.89       239

           8       0.92      0.98      0.95       257

           9       0.91      0.98      0.95       233

          10       0.99      0.93      0.96       248

          11       0.98      0.86      0.91       272

          12       0.88      0.85      0.86       259

          13       0.94      0.92      0.93       252

          14       0.96      0.89      0.92       239

          15       0.96      0.78      0.86       285

          16       0.96      0.88      0.92       272

          17       0.98      0.90      0.94       252

          18       0.89      0.79      0.84       214

          19       0.44      0.93      0.60        75

 avg / total       0.89      0.84      0.86      4712

 去除停用词的CountVectorizer提取的特征学习模型准确率： 0.8637521222410866

 更加详细的评估指标:

               precision    recall  f1-score   support

           0       0.89      0.85      0.87       210

           1       0.88      0.62      0.73       352

           2       0.22      0.93      0.36        59

           3       0.88      0.62      0.73       341

           4       0.85      0.93      0.89       222

           5       0.85      0.82      0.84       273

           6       0.79      0.90      0.84       226

           7       0.91      0.91      0.91       239

           8       0.94      0.98      0.96       264

           9       0.92      0.98      0.95       236

          10       0.99      0.92      0.95       251

          11       0.97      0.91      0.93       254

          12       0.89      0.87      0.88       254

          13       0.95      0.94      0.95       248

          14       0.96      0.91      0.93       233

          15       0.94      0.87      0.90       250

          16       0.96      0.89      0.93       271

          17       0.98      0.95      0.97       238

          18       0.90      0.84      0.87       200

          19       0.53      0.91      0.67        91

 avg / total       0.90      0.86      0.87      4712

 TfidVectorizer提取的特征学习模型准确率： 0.8463497453310697

 更加详细的评估指标:

               precision    recall  f1-score   support

           0       0.67      0.84      0.75       160

           1       0.74      0.85      0.79       218

           2       0.85      0.82      0.83       256

           3       0.88      0.76      0.82       275

           4       0.84      0.94      0.89       217

           5       0.84      0.96      0.89       229

           6       0.69      0.93      0.79       192

           7       0.92      0.84      0.88       259

           8       0.92      0.98      0.95       259

           9       0.91      0.96      0.94       238

          10       0.99      0.88      0.93       264

          11       0.98      0.73      0.83       321

          12       0.83      0.91      0.87       226

          13       0.92      0.97      0.95       231

          14       0.96      0.89      0.93       239

          15       0.97      0.51      0.67       443

          16       0.96      0.83      0.89       293

          17       0.97      0.92      0.95       245

          18       0.62      0.98      0.76       119

          19       0.16      0.93      0.28        28

 avg / total       0.88      0.85      0.85      4712

 去除停用词的TfidVectorizer提取的特征学习模型准确率： 0.8826400679117148

 更加详细的评估指标:

               precision    recall  f1-score   support

           0       0.81      0.86      0.83       190

           1       0.81      0.85      0.83       238

           2       0.87      0.84      0.86       257

           3       0.88      0.78      0.83       269

           4       0.90      0.92      0.91       235

           5       0.88      0.95      0.91       243

           6       0.80      0.90      0.85       230

           7       0.92      0.89      0.90       244

           8       0.94      0.98      0.96       265

           9       0.93      0.97      0.95       242

          10       0.99      0.88      0.93       264

          11       0.98      0.85      0.91       273

          12       0.86      0.93      0.89       231

          13       0.93      0.96      0.95       237

          14       0.97      0.90      0.93       239

          15       0.96      0.70      0.81       320

          16       0.98      0.84      0.90       294

          17       0.99      0.92      0.95       248

          18       0.74      0.97      0.84       145

          19       0.29      0.96      0.45        48

 avg / total       0.90      0.88      0.89      4712

 '''

机器学习之路：python 文本特征提取 CountVectorizer, TfidfVectorizer的更多相关文章

python 文本特征提取 CountVectorizer, TfidfVectorizer
1. TF-IDF概述 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术.TF-IDF是一种统计方法,用以评 ...
python —— 文本特征提取 CountVectorize
CountVectorize 来自:python学习文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理 - CSDN博客 https://blog.csdn ...
机器学习之路: python k近邻分类器 KNeighborsClassifier 鸢尾花分类预测
使用python语言学习k近邻分类器的api 欢迎来到我的git查看源代码: https://github.com/linyi0604/MachineLearning from sklearn.da ...
机器学习之路--Python
常用数据结构 1.list 列表有序集合 classmates = ['Michael', 'Bob', 'Tracy'] len(classmates) classmates[0] len(cla ...
机器学习之路: python 回归树 DecisionTreeRegressor 预测波士顿房价
python3 学习api的使用 git: https://github.com/linyi0604/MachineLearning 代码: from sklearn.datasets import ...
机器学习之路: python 线性回归LinearRegression, 随机参数回归SGDRegressor 预测波士顿房价
python3学习使用api 线性回归,和随机参数回归 git: https://github.com/linyi0604/MachineLearning from sklearn.datasets ...
机器学习之路: python 决策树分类DecisionTreeClassifier 预测泰坦尼克号乘客是否幸存
使用python3 学习了决策树分类器的api 涉及到特征的提取,数据类型保留,分类类型抽取出来新的类型需要网上下载数据集,我把他们下载到了本地, 可以到我的git下载代码和数据集: https: ...
使用sklearn做文本特征提取
提取文本的特征,把文本用特征表示出来,是文本分类的前提,使用sklearn做文本的特征提取,需要导入TfidfVectorizer模块. from sklearn.feature_extraction ...
机器学习之路： python nltk 文本特征提取
git: https://github.com/linyi0604/MachineLearning 分别使用词袋法和nltk自然预言处理包提供的文本特征提取 from sklearn.feature_ ...

随机推荐

【leetcode 简单】第一百零九题最小移动次数使数组元素相等
给定一个长度为 n 的非空整数数组,找到让数组所有元素相等的最小移动次数.每次移动可以使 n - 1 个元素增加 1. 示例: 输入: [1,2,3] 输出: 3 解释: 只需要3次移动(注意每次移动 ...
2017ACM暑期多校联合训练 - Team 9 1005 HDU 6165 FFF at Valentine (dfs)
题目链接 Problem Description At Valentine's eve, Shylock and Lucar were enjoying their time as any other ...
app横竖屏切换
问题: 使用react编写的页面,编译后的页面文件打包成app安装后,在手机上显示时,初次横竖屏切换时会出现页面尺寸渲染问题,要跳到其它页面后才能恢复,如图: 由竖屏切换成横屏后页面出现很多空白. 解 ...
[转]Ubuntu下ROS开发环境搭建(QT+ros_qtc_plugin)
ROS与C++入门教程-搭建开发环境(QT+ros_qtc_plugin) PS : 在“安装ros_qtc_plugin插件”这一步中,原文提到“ Ubuntu 14.04使用apt-get方式安装 ...
与JavaWeb有关的故事（Web请求与Java IO）
作为一名后端屌丝程序员,对算法.并发.性能乐此不疲.但是,随着年龄和阅历的增加,显然叶落而不知秋的心态是不太能混了.尤其是,某T面试官在明知我是后端,且明确表示对HTTP协议不太熟的情况下,强行让我解 ...
HDU 6215 2017Brute Force Sorting 青岛网络赛队列加链表模拟
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=6215 题意:给你长度为n的数组,定义已经排列过的串为:相邻两项a[i],a[i+1],满足a[i]&l ...
使用postman做接口测试（一）
参考大神的总结:https://www.cnblogs.com/Skyyj/p/6856728.html 一,先了解一下基础知识,虽然工作中没什么卵用,但背会了,可以显摆自己很专业的样子,以下内容来自 ...
002_Linux-Memory专题
一.单独查看某个进程的内存占用 pmap 736 | tail -n 1 二. 以前我对这块认识很模糊,而且还有错误的认识:今天由我同事提醒,所以我决定来好好的缕缕这块的关系. 图: -------- ...
排序算法——Shell排序
二.Shell排序 Shell排序也叫“缩减增量排序”(disminishing increment sort),基于插入排序进行. Shell建议的序列是一种常用但不理想的增量序列:1,...,N/ ...
Animate.css 前端动画开发教程
1.首先下载animate.css文件: 2.打开动画预览地址选择想要的动画,地址:https://daneden.github.io/animate.css/ ,选择好后记住动画的名字在你下载的a ...

机器学习之路：python 文本特征提取 CountVectorizer, TfidfVectorizer

机器学习之路：python 文本特征提取 CountVectorizer, TfidfVectorizer的更多相关文章

随机推荐

热门专题