利用Python进行文章特征提取（二）

本篇blog是利用Python进行文章特征提取的续篇，主要介绍构建带TF-IDF权重的文章特征向量。

In [1]:

#  带TF-IDF权重的扩展词库

# 在第一篇文档里 主要是利用词库模型简单判断单词是否在文档中出现。然而与单词的顺序、频率无关。然后词的频率对文档更有意义。因此本文将词频加入特征向量

In [2]:

# 1.计算单词在文档中的频率

from sklearn.feature_extraction.text import CountVectorizer

In [5]:

documents=['The dog ate a sandwich, the wizard transfigured a sandwich, and I ate a sandwich']

vector=CountVectorizer(stop_words='english')

print(vector.fit_transform(documents).todense())

print(vector.vocabulary_)

[[2 1 3 1 1]]

{u'sandwich': 2, u'wizard': 4, u'dog': 1, u'transfigured': 3, u'ate': 0}

In [ ]:

# 2.逆向文档率（IDF）

# 但是在对比长度不同的文档时候，问题就变得复杂了。sklearn提供了TfdfTransformer类来解决问题，

#主要是对词频特征向量归一化实现不同文档向量的可比性。该类使用L2范式对特征向量进行归一化：

#另外，还有对数词频调整方法（logarithmically scaled term frequencies），把词频调整到一个更小的范围，或者词频放大法（augmented term frequencies），适用于消除较长文档的差异。

#归一化，对数调整词频和词频放大三支方法都消除文档不同大小对词频的影响。

# 对于消除频率高但是很普通的词对文档影响，引进了 逆文档频率（inverse document frequency，IDF），用来度量文档集中单词的频率。

# TfdfTransformer类默认返回TF-IDF值，其参数use_idf默认为True

#sklearn提供了TfidfVectorizer类将CountVectorizer和TfdfTransformer类封装在一起。代码如下：

In [6]:

from sklearn.feature_extraction.text import TfidfVectorizer

documents=['The dog ate a sandwich and I ate a sandwich','The wizard transfigured a sandwich']

vector=TfidfVectorizer(stop_words='english')

print(vector.fit_transform(documents).todense())

print(vector.vocabulary_)

[[ 0.75458397  0.37729199  0.53689271  0.          0.        ]

 [ 0.          0.          0.44943642  0.6316672   0.6316672 ]]

{u'sandwich': 2, u'wizard': 4, u'dog': 1, u'transfigured': 3, u'ate': 0}

In [7]:

# 3. 通过哈希表来实现特征向量

# 在计算文档词频和IDF值时，都是先通过建立词典，然后创建特征向量。但是如果文档集特别大，就会引起内存耗尽的问题。

# 因此，可以采取利用哈希表来解决上述问题。sklearn提供了HashingVectorizer来实现，代码如下：

In [9]:

from sklearn.feature_extraction.text import HashingVectorizer

documents=['The dog ate a sandwich and I ate a sandwich','The wizard transfigured a sandwich']

vector=HashingVectorizer(n_features=5)

print(vector.transform(documents).todense())

[[ 0.33333333  0.66666667  0.         -0.66666667  0.        ]

 [ 0.9486833   0.          0.         -0.31622777  0.        ]]

In [ ]:

#哈希技巧是无固定状态的（stateless），它把任意的数据块映射到固定数目的位置，并且保证相同的输入一定产生相同的输出，不同的输入尽可能产生不同的输出。它可以用并行，线上，流式传输创建特征向量，因为它初始化是不需要文集输入。n_features是一个可选参数，默认值是 2的20次方。

#用带符号哈希函数可以把词块发生哈希碰撞的概率相互抵消掉，信息损失比信息损失的同时出现信息

#冗余要好。哈希技巧的一个不足是模型的结果更难察看，由于哈希函数不能显示哪个词块映射到特征

#向量的哪个位置了。

# 特别感谢《Mastering Machine Learning With scikit-learn》一书。

利用Python进行文章特征提取（二）的更多相关文章

利用Python进行文章特征提取（一）
# 文字特征提取词库模型(bag of words) 2016年2月26,星期五 # 1.词库表示法 In [9]: # sklearn 的 CountVectorizer类能够把文档词块化(tok ...
利用python 学习数据分析 (学习二)
内容学习自: Python for Data Analysis, 2nd Edition 就是这本纯英文学的很累,对不对取决于百度翻译了前情提要: 各种方法贴: https://w ...
python笔记利用python 自动生成条形码二维码
1. ean13标准条形码 from pystrich.ean13 import EAN13Encoder encode = EAN13Encoder(') encode.save('d:/barco ...
《利用python进行数据分析》读书笔记 --第一、二章准备与例子
http://www.cnblogs.com/batteryhp/p/4868348.html 第一章准备工作今天开始码这本书--<利用python进行数据分析>.R和python都得 ...
Python 数据分析（二本实验将学习利用 Python 数据聚合与分组运算，时间序列，金融与经济数据应用等相关知识
Python 数据分析(二) 本实验将学习利用 Python 数据聚合与分组运算,时间序列,金融与经济数据应用等相关知识第1节 groupby 技术第2节数据聚合第3节分组级运算和转换第4 ...
利用Python编写网络爬虫下载文章
#coding: utf-8 #title..href... str0='blabla<a title="<论电影的七个元素>——关于我对电影的一些看法以及<后会无期 ...
利用 Python django 框架输入汉字，数字，字符，等。。转成二维码！
利用 Python django 框架输入汉字,数字,字符,等..转成二维码! 模块必备:Python环境 + pillow + qrcode 模块核心代码import qrcode qr = ...
利用Python实现一个感知机学习算法
本文主要参考英文教材Python Machine Learning第二章.pdf文档下载链接: https://pan.baidu.com/s/1nuS07Qp 密码: gcb9. 本文主要内容包括利 ...
如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...

随机推荐

安装Hadoop 1.1.2 （二安装配置SSH）
1 查找SSH yum search ssh 2 如果没有安装, yum install openssh.x86_64 4 直接运行 ssh-keygen -t dsa -P '' -f /roo ...
SVM支持向量机
支持向量机(Support Vector Machine,SVM)是效果最好的分类算法之中的一个. 一.线性分类器: 一个线性分类器就是要在n维的数据空间中找到一个超平面,通过这个超平面能够把两类数据 ...
Leetcode - CopyWithRandomList
Algorithm: Iterate and copy the original list first. For the random pointer, just copy the value fro ...
基于jquery的bootstrap在线文本编辑器插件Summernote （转）
Summernote是一个基于jquery的bootstrap超级简单WYSIWYG在线编辑器.Summernote非常的轻量级,大小只有30KB,支持Safari,Chrome,Firefox.Op ...
SpringMVC拦截器实现用户登录拦截
本例实现登陆时的验证拦截,采用SpringMVC拦截器来实现当用户点击到网站主页时要进行拦截,用户登录了才能进入网站主页,否则进入登陆页面核心代码首先是index.jsp,显示链接 1 < ...
九度OJ 1336：液晶屏裁剪（GCD）
时间限制:1 秒内存限制:32 兆特殊判题:否提交:983 解决:228 题目描述: 苏州某液晶厂一直生产a * b大小规格的液晶屏幕,由于该厂的加工工艺限制,液晶屏的边长都为整数.最近由于市场 ...
Python高级入门01-property
JAVA中存在对变量私有化,公开,保护... 私有化时候,需要提供一个公开的get 和 set方法对外公开,让别人进行调用 python中同样存在私有化变量定义是__是这个双下划线,eg:_ ...
jquery点击一组按钮中的一个，跳转至对应页面处理策略。（如点击订单列表中的一个订单，跳转至该订单的详情）
将改组按钮的数据设置一个相同的属性(如class),然后每个按钮设置不同的id 当用户点击属性为class的按钮,根据id属性来判断点击的是哪个按钮,然后进行相关操作. 代码示例: <scrip ...
Linux安装过程记录信息
全新的linux安装完成后,会在root目录下有一下三个文件,记录了Linux的安装细节 anaconda-ks.cfg 以Kickstart配置文件的格式记录安装过程中设置的选项信息 install ...
openstack 官方镜像qcow2 下载和修改密码
下载地址: CentOS6:http://cloud.centos.org/centos/6/images/ CentOS7:http://cloud.centos.org/centos/7/imag ...

利用Python进行文章特征提取（二）

利用Python进行文章特征提取（二）的更多相关文章

随机推荐

热门专题