python scikit-learn计算tf-idf词语权重

python的scikit-learn包下有计算tf-idf的api，研究了下做个笔记

1 安装scikit-learn包

sudo pip install scikit-learn

2 中文分词採用的jieba分词，安装jieba分词包

sudo pip install jieba

3 关于jieba分词的使用很easy，參考这里，关键的语句就是(这里简单试水，不追求效果4 )

import jieba.posseg as pseg

words=pseg.cut("对这句话进行分词")

for key in words:

     print key.word,key.flag

输出结果：

对 p
这 r
句 q
话 n
进行 v
分词 n

4 採用scikit-learn包进行tf-idf分词权重计算关键用到了两个类：CountVectorizer和TfidfTransformer，详细參见这里

一个简单的代码例如以下:

# coding:utf-8

__author__ = "liuxuejiang"

import jieba

import jieba.posseg as pseg

import os

import sys

from sklearn import feature_extraction

from sklearn.feature_extraction.text import TfidfTransformer

from sklearn.feature_extraction.text import CountVectorizer

if __name__ == "__main__":

    corpus=["我 来到 北京 清华大学",#第一类文本切词后的结果。词之间以空格隔开

		"他 来到 了 网易 杭研 大厦",#第二类文本的切词结果

		"小明 硕士 毕业 与 中国 科学院",#第三类文本的切词结果

		"我 爱 北京 天安门"]#第四类文本的切词结果

    vectorizer=CountVectorizer()#该类会将文本中的词语转换为词频矩阵，矩阵元素a[i][j] 表示j词在i类文本下的词频

    transformer=TfidfTransformer()#该类会统计每一个词语的tf-idf权值

    tfidf=transformer.fit_transform(vectorizer.fit_transform(corpus))#第一个fit_transform是计算tf-idf。第二个fit_transform是将文本转为词频矩阵

    word=vectorizer.get_feature_names()#获取词袋模型中的全部词语

    weight=tfidf.toarray()#将tf-idf矩阵抽取出来。元素a[i][j]表示j词在i类文本中的tf-idf权重

    for i in range(len(weight)):#打印每类文本的tf-idf词语权重，第一个for遍历全部文本，第二个for便利某一类文本下的词语权重

        print u"-------这里输出第",i,u"类文本的词语tf-idf权重------"

        for j in range(len(word)):

            print word[j],weight[i][j]

程序输出：每行格式为：词语 tf-idf权重

-------这里输出第 0 类文本的词语tf-idf权重------           #该类相应的原文本是："我来到北京清华大学"

中国 0.0

北京 0.52640543361

大厦 0.0

天安门 0.0

小明 0.0

来到 0.52640543361

杭研 0.0

毕业 0.0

清华大学 0.66767854461

硕士 0.0

科学院 0.0

网易 0.0

-------这里输出第 1 类文本的词语tf-idf权重------           #该类相应的原文本是： "他来到了网易杭研大厦"

中国 0.0

北京 0.0

大厦 0.525472749264

天安门 0.0

小明 0.0

来到 0.414288751166

杭研 0.525472749264

毕业 0.0

清华大学 0.0

硕士 0.0

科学院 0.0

网易 0.525472749264

-------这里输出第 2 类文本的词语tf-idf权重------           #该类相应的原文本是： "小明硕士毕业于中国科学院“

中国 0.4472135955

北京 0.0

大厦 0.0

天安门 0.0

小明 0.4472135955

来到 0.0

杭研 0.0

毕业 0.4472135955

清华大学 0.0

硕士 0.4472135955

科学院 0.4472135955

网易 0.0

-------这里输出第 3 类文本的词语tf-idf权重------            #该类相应的原文本是： "我爱北京天安门"

中国 0.0

北京 0.61913029649

大厦 0.0

天安门 0.78528827571

小明 0.0

来到 0.0

杭研 0.0

毕业 0.0

清华大学 0.0

硕士 0.0

科学院 0.0

网易 0.0

注：这里随便举了几个文本，所以tf-idf也没什么实际价值，旨在说明scikit-learn包关于tf-idf计算API的调用

python scikit-learn计算tf-idf词语权重的更多相关文章

Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
tf–idf算法解释及其python代码实现(下)
tf–idf算法python代码实现这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四 ...
tf–idf算法解释及其python代码实现(上)
tf–idf算法解释 tf–idf, 是term frequency–inverse document frequency的缩写,它通常用来衡量一个词对在一个语料库中对它所在的文档有多重要,常用在信息 ...
文本分类学习（三）特征权重（TF/IDF）和特征提取
上一篇中,主要说的就是词袋模型.回顾一下,在进行文本分类之前,我们需要把待分类文本先用词袋模型进行文本表示.首先是将训练集中的所有单词经过去停用词之后组合成一个词袋,或者叫做字典,实际上一个维度很大的 ...
tf–idf算法解释及其python代码
tf–idf算法python代码实现这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四 ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
python使用scikit-learn计算TF-IDF
1 Scikit-learn下载安装 1.1 简介 1.2 安装软件 2 TF-IDF基础知识 2.1 TF-IDF概念 2.2 举例说明计算 3 Scikit-Learn中计算TF-IDF 3.1 ...
信息检索中的TF/IDF概念与算法的解释
https://blog.csdn.net/class_brick/article/details/79135909 概念 TF-IDF(term frequency–inverse document ...
TF/IDF（term frequency/inverse document frequency)
TF/IDF(term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明. 一. TF/IDF描述单个term与特定document的相 ...

随机推荐

Java 的锁-老王女儿的爱情
对象锁: new一个对象,都会给这个实例创建一把锁,对象中的方法必须在实例创建后,通过调用方法获取锁,一个线程进去这个方法之前拿到对象的锁,才能调用方法,否则被阻塞,举个例子,老王有个如花似玉的女儿, ...
Django的日常-模型层(2)
目录 Django的日常-模型层(2) 几种常用的查询方式聚合查询分组查询 F和Q查询查询优化相关 orm中常见字段 choices参数 orm的事务操作 Django的日常-模型层(2) 几种 ...
关于公式文件.eqn
建议默认打开该选项
廖雪峰Java12maven基础-1maven入门-3构建流程
maven是一个Java项目管理和构建工具: 标准化项目结构标准化构建流程(编译.打包.发布) 依赖管理 Maven的构建流程 clean 删除所有编译生成的文件 compile 编译源码.编译测试 ...
洛谷 P1242 新汉诺塔
原题链接题目描述设有n个大小不等的中空圆盘,按从小到大的顺序从1到n编号.将这n个圆盘任意的迭套在三根立柱上,立柱的编号分别为A.B.C,这个状态称为初始状态. 现在要求找到一种步数最少的移动方案 ...
sql.xml where ids in的写法
<if test="iSurfaceTypeArray != null"> AND b.i_SurfaceType in  ...
dvajs+antd定制主题踩坑记录
记一下刚刚解决的问题,困扰了几周,期间困兽争斗,甚至想放弃antd组件库.终于出来了,人类科技又进步了(才怪). 首先我按照dva官网建立了项目.里面引入antd的各种组件,因为需要用到一个switc ...
Mac 下搭建vue开发环境
tips:一定要有翻墙工具如lanter,另外要保证网速OK. 1. 首先需要安装homebrew liukingdeMBP:~ liuking$ /usr/bin/ruby -e "$(c ...
左神算法进阶班3_1构造数组的MaxTree
题目一个数组的MaxTree定义: 数组必须没有重复元素 MaxTree是一棵二叉树,数组的每一个值对应一个二叉树节点包括MaxTree树在内且在其中的每一棵子树上,值最大的节点都是树的头给定一 ...
springmvc前端控制器拦截路径的配置报错404
1.拦截"/",可以实现现在很流行的REST风格.很多互联网类型的应用很喜欢这种风格的URL.为了实现REST风格,拦截除了jsp的所有. 2.拦截/*,拦截所有访问,会导致404 ...

python scikit-learn计算tf-idf词语权重

python scikit-learn计算tf-idf词语权重的更多相关文章

随机推荐

热门专题