python 分词计算文档TF-IDF值并排序

该程序实现的功能是：首先读取一些文档，然后通过jieba来分词，将分词存入文件，然后通过sklearn计算每一个分词文档中的tf-idf值，再将文档排序输入一个大文件里

依赖包：

sklearn

jieba

注：此程序參考了一位同行的程序后进行了改动

# -*- coding: utf-8 -*-

"""

@author: jiangfuqiang

"""

import os

import jieba

import jieba.posseg as pseg

import sys

import re

import time

import string

from sklearn import feature_extraction

from sklearn.feature_extraction.text import TfidfTransformer

from sklearn.feature_extraction.text import CountVectorizer

reload(sys)

sys.setdefaultencoding('utf-8')

def getFileList(path):

    filelist = []

    files = os.listdir(path)

    for f in files:

        if f[0] == '.':

            pass

        else:

            filelist.append(f)

    return filelist,path

def fenci(filename,path,segPath):

    f = open(path +"/" + filename,'r+')

    file_list = f.read()

    f.close()

     #保存粉刺结果的文件夹

    if not os.path.exists(segPath):

        os.mkdir(segPath)

    #对文档进行分词处理

    seg_list = jieba.cut(file_list,cut_all=True)

    #对空格。换行符进行处理

    result = []

    for seg in seg_list:

        seg = ''.join(seg.split())

        reg = 'w+'

        r = re.search(reg,seg)

        if seg != '' and seg != '

' and seg != '

' and seg != '=' and 

                        seg != '[' and seg != ']' and seg != '(' and seg != ')' and not r:

            result.append(seg)

    #将分词后的结果用空格隔开，保存至本地

    f = open(segPath+"/"+filename+"-seg.txt","w+")

    f.write(' '.join(result))

    f.close()

#读取已经分词好的文档。进行TF-IDF计算

def Tfidf(filelist,sFilePath,path):

    corpus = []

    for ff in filelist:

        fname = path + ff

        f = open(fname+"-seg.txt",'r+')

        content = f.read()

        f.close()

        corpus.append(content)

    vectorizer = CountVectorizer()

    transformer = TfidfTransformer()

    tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))

    word = vectorizer.get_feature_names()  #全部文本的关键字

    weight = tfidf.toarray()

    if not os.path.exists(sFilePath):

        os.mkdir(sFilePath)

    for i in range(len(weight)):

        print u'----------writing all the tf-idf in the ',i,u'file into ', sFilePath+'/' +string.zfill(i,5)+".txt"

        f = open(sFilePath+"/"+string.zfill(i,5)+".txt",'w+')

        for j in range(len(word)):

            f.write(word[j] + "  " + str(weight[i][j]) + "

")

        f.close()

if __name__ == "__main__":

    #保存tf-idf的计算结果文件夹

    sFilePath = "/home/lifeix/soft/allfile/tfidffile"+str(time.time())

    #保存分词的文件夹

    segPath = '/home/lifeix/soft/allfile/segfile'

    (allfile,path) = getFileList('/home/lifeix/soft/allkeyword')

    for ff in allfile:

        print "Using jieba on " + ff

        fenci(ff,path,segPath)

    Tfidf(allfile,sFilePath,segPath)

    #对整个文档进行排序

    os.system("sort -nrk 2 " + sFilePath+"/*.txt >" + sFilePath + "/sorted.txt")

python 分词计算文档TF-IDF值并排序的更多相关文章

用Python做SVD文档聚类---奇异值分解----文档相似性----LSI（潜在语义分析）
转载请注明出处:电子科技大学EClab——落叶花开http://www.cnblogs.com/nlp-yekai/p/3848528.html SVD,即奇异值分解,在自然语言处理中,用来做潜在语义 ...
Python处理Excel文档（xlrd, xlwt, xlutils）
简介 xlrd,xlwt和xlutils是用Python处理Excel文档(*.xls)的高效率工具.其中,xlrd只能读取xls,xlwt只能新建xls(不可以修改),xlutils能将xlrd.B ...
python+selenium自动化软件测试(第12章)：Python读写XML文档
XML 即可扩展标记语言,它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言.xml 有如下特征: 首先,它是有标签对组成:<aa></aa> ...
【转】Python之xml文档及配置文件处理（ElementTree模块、ConfigParser模块）
[转]Python之xml文档及配置文件处理(ElementTree模块.ConfigParser模块) 本节内容前言 XML处理模块 ConfigParser/configparser模块总结 ...
获取文档版本版本值滚动标识符游标控制查询如何执行控制查询在哪些分片执行 boost加权
映射mapping.json{ "book": { "_index": { "enabled": true }, "_id&quo ...
使用Python操作Excel文档（一）
Python | 使用Python操作Excel文档(一) 0 前言在阅读本文之前,请确保您已满足或可能满足以下条件: 请确保您具备基本的Python编程能力. 请确保您会使用Excel. 请确保您 ...
使用Python从Markdown文档中自动生成标题导航
概述知识与思路代码实现概述 Markdown 很适合于技术写作,因为技术写作并不需要花哨的排版和内容, 只要内容生动而严谨,文笔朴实而优美. 为了编写对读者更友好的文章,有必要生成文章的标题导航 ...
Openstack python api 学习文档 api创建虚拟机
Openstack python api 学习文档转载请注明http://www.cnblogs.com/juandx/p/4953191.html 因为需要学习使用api接口调用openstack ...
[转载]linux+nginx+python+mysql安装文档
原文地址:linux+nginx+python+mysql安装文档作者:oracletom # 开发包(如果centos没有安装数据库服务,那么要安装下面的mysql开发包) MySQL-devel- ...

随机推荐

[python 源码]整数对象的创建和维护
刚开始学python时候,发现一个很迷惑的现象,一直到看了源码后才知道了: >>> a=6 >>> b=6 >>> a is b True 想用同 ...
QQ怎么发送已经录好的视频
韩梦飞沙韩亚飞 313134555@qq.com yue31313 han_meng_fei_sha QQ发送已经录好的视频直接放过去,对方是需要下载的. 只有通过QQ录制的,才是直接就 ...
[Arc081F]Flip and Rectangles
[Arc081F]Flip and Rectangles 试题分析首先考虑如何操作,发现我们只会选若干行和若干列来进行一次取反. 这个东西相当于什么呢?相当于交点不变,然后这些行和这些列的其它点取反 ...
Azure ServiceBus的消息中带有@strin3http//schemas.microsoft.com/2003/10/Serialization/�
今天碰到一个很讨厌的问题,使用nodejs 接收Azure service bus队列消息的时候,出现了:@strin3http//schemas.microsoft.com/2003/10/Seri ...
Sublime Text2 默认语言（windows/unix）设置，Sublime插件大全
Sublime默认系统语言设置 Sublime Text 2默认使用的就是UTF8,这个UTF8模式使用的是不带BOM的,如果要修改这个配置,到Perference->Settings-User ...
dubbo启动报java.lang.ClassNotFoundException: javassist.ClassPath
原文: dubbo启动报java.lang.ClassNotFoundException: javassist.ClassPath 在dubbo启动的过程中报错误:java.lang. ...
【BZOJ】4565: [Haoi2016]字符合并
4565: [Haoi2016]字符合并 Time Limit: 20 Sec Memory Limit: 256 MBSubmit: 690 Solved: 316[Submit][Status ...
Android开发点点滴滴——一些基础的但实用的知识（2）
1.onItemLongClick和onItemClick事件截取当须要同一时候获得一个listview的条目长按事件(onItemLongClick)和点击事件(onItemClick)时,仅仅须 ...
LeetCode152：Maximum Product Subarray
Find the contiguous subarray within an array (containing at least one number) which has the largest ...
DM6446开发攻略：UBOOT-2009.03移植及nand flash烧写
有关DAVINCI U-BOOT的移植,以前写过一篇u-boot-1.3.4(2008年的),其实和这个u-boot-2009.03差别不大,只不过这个u-boot-2009.03是从TI的网站上下载 ...

python 分词计算文档TF-IDF值并排序

python 分词计算文档TF-IDF值并排序的更多相关文章

随机推荐

热门专题