python 语料处理（从文件夹中读取文件夹中文件，分词，去停用词，去单个字）

# -*- coding:utf8 -*-

import os

import jieba

def splitSentence(inputFile):

    fin = open(inputFile, 'r')                                  #以读的方式打开文件

    global fout                                                 #以写得方式打开文件

    #print fin

    global stop

    for eachLine in fin:

    #print eachLine

        line = eachLine.strip()#.decode('utf-8', 'ignore')      #去除每行首尾可能出现的空格，并转为Unicode进行处理

    line=line.strip('\n')                                   #去掉多余空行

        wordList = list(jieba.cut(line))                        #用结巴分词，对每行内容进行分词

    #wordList = list(jieba.cut_for_search(line))       

        outStr = ''

        for word in wordList:#

            if len(word)>1:

                if not word in stop:

                        outStr += word

                        outStr += ' '

        fout.write(outStr.strip().encode('utf-8'))              #将分词好的结果写入到输出文件

    fout.write('\n')

    fin.close()

#path=r'/media/软件/zhuomian/VARandLDAr/train'

#r'D:/zhuomian/VARandLDA/train'

path='/home/xdj/train'

fns=[os.path.join(root,fn) for root,dirs,files in os.walk(path) for fn in files]

stop = [line.strip().decode('utf-8', 'ignore') for line in open('/home/xdj/chstop.txt').readlines()]

fout = open('myOutput.txt', 'w')

fout.write('%d' %len(fns)+'\n')

for f in fns:

    splitSentence(f)                                           #splitSentence('/home/xdj/train/C3-Art/C3-Art1459.txt', 'myOutput.txt')

print(len(fns))

fout.close()

python 语料处理（从文件夹中读取文件夹中文件，分词，去停用词，去单个字）的更多相关文章

python使用jieba实现中文文档分词和去停用词
分词工具的选择: 现在对于中文分词,分词工具有很多种,比如说:jieba分词.thulac.SnowNLP等.在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理 ...
python模块：xlsxwriter和xlrd相结合读取、写入excel文件
python模块简单说明: xlsxwriter:负责写入数据 xlrd:负责读取数据 xlsxwriter 官方文档:http://xlsxwriter.readthedocs.org 本实例是刚写 ...
IDEA中读取 resource目录下文件
1. 资源文件 2. 加载文件 public void test() { try { System.out.println("begin test"); String filepa ...
Kafka消费者从Kafka中读取数据并写入文件
Kafka消费者从Kafka中读取数据最近有需求要从kafak上消费读取实时数据,并将数据中的key输出到文件中,用于发布端的原始点进行比对,以此来确定是否传输过程中有遗漏数据. 不废话,直接上代 ...
在spark udf中读取hdfs上的文件
某些场景下,我们在写UDF实现业务逻辑时候,可能需要去读取某个文件. 我们可以将此文件上传个hdfs某个路径下,然后通过hdfs api读取该文件,但是需要注意: UDF中读取文件部分最好放在静态代码 ...
SpringBoot在logback.xml中读取application.properties中配置的日志路径
1.在springboot项目中使用logback记录日志,在logback.xml中配置日志存储位置时读取application.properties中配置的路径,在 logback.xml中配置引 ...
winform中读取App.config中数据连接字符串
1.首先要在工程引用中导入System.Configuration.dll文件的引用. 2.通过System.Configuration.ConfigurationManager.Connection ...
python调用jieba(结巴)分词加入自定义词典和去停用词功能
把语料从数据库提取出来以后就要进行分词啦,我是在linux环境下做的,先把jieba安装好,然后找到内容是build jieba PKG-INFO setup.py test的那个文件夹(我这边是ji ...
一篇文章告诉你Python接口自动化测试中读取Text,Excel,Yaml文件的方法
前言不管是做Ui自动化和接口自动,代码和数据要分离,会用到Text,Excel,Yaml.今天讲讲如何读取文件数据 Python也可以读取ini文件,传送门记住一点:测试的数据是不能写死在代码里面 ...

随机推荐

使用注解方式定义和配置aop
http://blog.sina.com.cn/s/blog_5e6d29fd0100ycka.html
spring4 mvc 出错
java.lang.IncompatibleClassChangeError: class org.springframework.core.type.classreading.ClassMetada ...
Jenkins控制台中文输出乱码解决方法
1. 设置jenkins所在服务器环境变量,右键我的电脑→属性→高级系统设置→环境变量,添加JAVA_TOOL_OPTIONS 2.修改Tomcat配置,进入apache_tomcat/conf文件夹 ...
HDU3157 Crazy Circuits（有源汇流量有上下界网络的最小流）
题目大概给一个电路,电路上有n+2个结点,其中有两个分别是电源和负载,结点们由m个单向的部件相连,每个部件都有最少需要的电流,求使整个电路运转需要的最少电流. 容量网络的构建很容易,建好后就是一个有源 ...
excel VLOOKUP函数的使用方法 .
VLOOKUP函数是Excel中几个最重函数之一,为了方便大家学习,兰色幻想特针对VLOOKUP函数的使用和扩展应用,进行一次全面综合的说明.本文为入门部分一.入门级 VLOOKUP是一个查找函数, ...
WPF ComboBox Binding
public ConnectionViewModel { private readonly CollectionView _phonebookEntries; private string _phon ...
ASP.net的url重写
http://blog.csdn.net/windok2004/article/details/2432691 1. 有关于URL的重写,本文也只是拿来主意.相继有MS的组件“URLRewriter” ...
ACM Haffman编码
Haffman编码时间限制:1000 ms | 内存限制:65535 KB 难度:3 描述哈弗曼编码大家一定很熟悉吧(不熟悉也没关系,自己查去...).现在给你一串字符以及它们所对应的权值 ...
objective-c 多线程注意的问题
1.资源竞争:当每个线程都去访问同一段内存时,会导致所谓i资源竞争问题,这时候可以通过“@synchronized block”将实例变量包围起来,创建一个互斥锁, 这样你就可以确保在互斥锁中的代码一 ...
【HDU】2829 Lawrence
http://acm.hdu.edu.cn/showproblem.php?pid=2829 题意:将长度为n的序列分成p+1块,使得$\sum_{每块}\sum_{i<j} a[i]a[j]$ ...

python 语料处理（从文件夹中读取文件夹中文件，分词，去停用词，去单个字）

python 语料处理（从文件夹中读取文件夹中文件，分词，去停用词，去单个字）的更多相关文章

随机推荐

热门专题