利用Python进行文章特征提取（一）

#     文字特征提取 词库模型（bag of words） 2016年2月26，星期五

# 1.词库表示法

In [9]:

# sklearn 的 CountVectorizer类能够把文档词块化（tokenize），代码如下

from sklearn.feature_extraction.text import CountVectorizer

corpus=['UNC played Duke in basketball','Duke lost the basketball game','I ate a sandwich']

vectorizer=CountVectorizer()

corpusTotoken=vectorizer.fit_transform(corpus).todense()

corpusTotoken

#[[1, 1, 0, 1, 0, 1, 0, 1],

#        [1, 1, 1, 0, 1, 0, 1, 0]]

vectorizer.vocabulary_

#{u'ate': 0,

# u'basketball': 1,

# u'duke': 2,

# u'game': 3,

# u'in': 4,

# u'lost': 5,

# u'played': 6,

# u'sandwich': 7,

# u'the': 8,

# u'unc': 9}

In [14]:

# 2. 计算向量之间的欧式距离，sklearn中引入euclidean_distances，代码如下：

from sklearn.metrics.pairwise import euclidean_distances

counts=vectorizer.fit_transform(corpus).todense()

for x,y in [[0,1],[0,2],[1,2]]:

    dist=euclidean_distances(counts[x],counts[y])

    print('文档{}与文档{}的距离{}'.format(x,y,dist))

#文档0与文档1的距离[[ 2.44948974]]

#文档0与文档2的距离[[ 2.64575131]]

#文档1与文档2的距离[[ 2.64575131]]

In [17]:

# 3.停用词过滤，停用词通常是构建文档意思的功能词汇，其字面意义并不体现。CountVectorizer类可以通过设置stop_words参数过滤停用词。默认是英语常用的停用词。代码如下

vectorizer=CountVectorizer(stop_words='english')

print(vectorizer.fit_transform(corpus).todense())

#[[0 1 1 0 0 1 0 1]

# [0 1 1 1 1 0 0 0]

# [1 0 0 0 0 0 1 0]]

print(vectorizer.vocabulary_)

#{u'duke': 2, u'basketball': 1, u'lost': 4, u'played': 5, u'game': 3, u'sandwich': 6, u'unc': 7, u'ate': 0}

#4. 词根还原与词性还原。特征向量里面的单词很多都是一个词的不同形式，比如jumping和jumps都是jump的不同形式。词根还原与词形还原就是为了将单词从不同的时态、派生形式还原。可利用Python里面的NLTK（Natural Language ToolKit）库来处理

In [28]:

import nltk

nltk.download()

showing info http://www.nltk.org/nltk_data/

Out[28]:

True

In [26]:

from nltk.stem.wordnet import WordNetLemmatizer

lemm=WordNetLemmatizer()

In [29]:

print(lemm.lemmatize('gathering'),'v')

print(lemm.lemmatize('gathering'),'n')

#('gathering', 'v')

#('gathering', 'n')

利用Python进行文章特征提取（一）的更多相关文章

利用Python进行文章特征提取（二）
本篇blog是利用Python进行文章特征提取的续篇,主要介绍构建带TF-IDF权重的文章特征向量. In [1]: # 带TF-IDF权重的扩展词库 # 在第一篇文档里主要是利用词库模型简单判断单 ...
利用Python编写网络爬虫下载文章
#coding: utf-8 #title..href... str0='blabla<a title="<论电影的七个元素>——关于我对电影的一些看法以及<后会无期 ...
有关利用python获取网页，以及KDD近几年论文标题与摘要链接
最近一直在看KDD的论文,不过,由于老师并没有什么合理的方向性,所以考虑把kdd中的大部分内容都利用python将所有标题.摘要获取下来. 还有一个原因在于,看acm上的摘要,都只显示了两行,再看多点 ...
用python定时文章发布wordpress
用python定时文章发布wordpress: 流程: 采集 - 筛选文章 - wordpress文章发布. wordpress文章发布代码:python利用模块xmlrpclib发布文章非常便捷,省 ...
利用Python实现一个感知机学习算法
本文主要参考英文教材Python Machine Learning第二章.pdf文档下载链接: https://pan.baidu.com/s/1nuS07Qp 密码: gcb9. 本文主要内容包括利 ...
利用python设计PDF报告，jinja2，whtmltopdf，matplotlib，pandas
转自:https://foofish.net/python-crawler-html2pdf.html 工具准备弄清楚了网站的基本结构后就可以开始准备爬虫所依赖的工具包了.requests.beau ...
如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...
如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
利用 Python + Selenium 实现对页面的指定元素截图(可截长图元素)
对WebElement截图 WebDriver.Chrome自带的方法只能对当前窗口截屏,且不能指定特定元素.若是需要截取特定元素或是窗口超过了一屏,就只能另辟蹊径了. WebDriver.Phant ...

随机推荐

PHP 权限管理
login页面 <form action="loginchuli.php" method="post"> <div>用户名:<in ...
求组合数的方法：转载自VincentCZW的博客
遇到了就查了下:地址:http://www.cnblogs.com/BeyondAnyTime/archive/2012/05/18/2508189.html 求一个组合数Cnm的值,Cnm= n! ...
Spring 之混合配置
[JavaConfig 导入另外一个 JavaConfig & JavaConfig 导入 XML] package soundsystem.config; import org.spring ...
【笔记】css3实现网页平滑过渡效果...
参考:http://www.imooc.com/video/7142 未完. <!DOCTYPE html> <html> <head> <meta char ...
Python3.x：pip install pymssql安装时出错
Python3.x:pip install pymssql安装时出错一.错误日志 error: Microsoft Visual C++ 14.0 is required. Get it with ...
Nginx 启动脚本
Nginx 启动脚本 1.vim /etc/init.d/nginx #!/bin/bash # chkconfig: - 30 21 # description: http service. # S ...
使用Angularjs开发Web App 视频课程 --麦子学院课程
前往搓这里: http://www.maiziedu.com/group/common/course/3271/ 查看课程搓这里:http://www.maiziedu.com/course/web/ ...
插入算法分别从C，java,python三种语言进行书写
真正学懂计算机的人(不只是“编程匠”)都对数学有相当的造诣,既能用科学家的严谨思维来求证,也能用工程师的务实手段来解决问题——而这种思维和手段的最佳演绎就是“算法”. 作为一个初级编程人员或者说是一个 ...
sublime text3 破解, 中文乱码支持, 设置
1. 激活菜单: Help -> Enter License, 弹出对话框输入激活码确认(Use License):如下图:. 激活码: ----- BEGIN LICENSE ----- A ...
平衡搜索树--红黑树 RBTree
红黑树是一棵二叉搜索树,它在每个节点上增加了一个存储位来表示节点的颜色,可以是Red或Black. 通过对任何一条从根到叶子节点简单路径上的颜色来约束树的高度,红黑树保证最长路径不超过最短路径的两倍, ...

利用Python进行文章特征提取（一）

利用Python进行文章特征提取（一）的更多相关文章

随机推荐

热门专题