Python中文语料批量预处理手记

手记实用系列文章：

语料预处理封装类：

#coding=utf-8

import os

import jieba

import sys

import re

import time

import jieba.posseg as pseg

sys.path.append("../")

jieba.load_userdict("../Database/userdict.txt") # 加载自定义分词词典

'''

title：利用结巴分词进行文本语料处理：单文本处理器、批量文件处理器

    1 首先对文本进行遍历查找

    2 创建原始文本的保存结构

    3 对原文本进行结巴分词和停用词处理

    4 对预处理结果进行标准化格式，并保存原文件结构路径

author：白宁超

myblog：http://www.cnblogs.com/baiboy/

'''

'''

分词.词性标注以及去停用词

stopwordspath： 停用词路径

dealpath：中文数据预处理文件的路径

savepath：中文数据预处理结果的保存路径

'''

def cutTxtWord(dealpath,savepath,stopwordspath):

    stopwords = {}.fromkeys([ line.rstrip() for line in open(stopwordspath,"r",encoding='utf-8')]) # 停用词表

    with open(dealpath,"r",encoding='utf-8') as f:

        txtlist=f.read() # 读取待处理的文本

    words =pseg.cut(txtlist) # 带词性标注的分词结果

    cutresult=""# 获取去除停用词后的分词结果

    for word, flag in words:

        if word not in stopwords:

            cutresult += word+"/"+flag+" " #去停用词

            getFlag(cutresult,savepath) #

'''

分词.词性标注以及去停用词

stopwordspath： 停用词路径

read_folder_path ：中文数据预处理文件的路径

write_folder_path ：中文数据预处理结果的保存路径

filescount=300 #设置文件夹下文件最多多少个

'''

def cutFileWord(read_folder_path,write_folder_path,stopwordspath):

    # 停用词表

    stopwords = {}.fromkeys([ line.rstrip() for line in open(stopwordspath,"r",encoding='utf-8')])

    # 获取待处理根目录下的所有类别

    folder_list = os.listdir(read_folder_path)

    # 类间循环

    for folder in folder_list:

        #某类下的路径

        new_folder_path = os.path.join(read_folder_path, folder)

        # 创建保存文件目录

        path=write_folder_path+folder #保存文件的子文件

        isExists=os.path.exists(path)

        if not isExists:

            os.makedirs(path)

            print(path+' 创建成功')

        else: pass

        save_folder_path = os.path.join(write_folder_path, folder)#某类下的保存路径

        print('--> 请稍等，正在处理中...')

        # 类内循环

        files = os.listdir(new_folder_path)

        j = 1

        for file in files:

            if j > len(files): break

            dealpath = os.path.join(new_folder_path, file) #处理单个文件的路径

            with open(dealpath,"r",encoding='utf-8') as f:

                txtlist=f.read()

                # python 过滤中文、英文标点特殊符号

                # txtlist1 = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——！，。？、~@#￥%……&*（）]+", "",txtlist)

            words =pseg.cut(txtlist) # 带词性标注的分词结果

            cutresult="" # 单个文本：分词后经停用词处理后的结果

            for word, flag in words:

                if word not in stopwords:

                    cutresult += word+"/"+flag+" " #去停用词

            savepath = os.path.join(save_folder_path,file)

            getFlag(cutresult,savepath)

            j += 1

'''

做词性筛选

cutresult：str类型，初切分的结果

savepath： 保存文件路径

'''

def getFlag(cutresult,savepath):

    txtlist=[] #过滤掉的词性后的结果

    #词列表为自己定义要过滤掉的词性

    cixing=["/x","/zg","/uj","/ul","/e","/d","/uz","/y"]

    for line in cutresult.split('\n'):

        line_list2=re.split('[ ]', line)

        line_list2.append("\n") # 保持原段落格式存在

        line_list=line_list2[:]

        for segs in line_list2:

            for K in cixing:

                if K in segs:

                    line_list.remove(segs)

                    break

                else:

                    pass

        txtlist.extend(line_list)

    # 去除词性标签

    resultlist=txtlist[:]

    flagresult=""

    for v in txtlist:

        if "/" in v:

            slope=v.index("/")

            letter=v[0:slope]+" "

            flagresult+= letter

        else:

            flagresult+= v

    standdata(flagresult,savepath)

'''

标准化处理，去除空行，空白字符等。

flagresult:筛选过的结果

'''

def standdata(flagresult,savepath):

    f2=open(savepath,"w",encoding='utf-8')

    for line in flagresult.split('\n'):

        if len(line)>=2:

            line_clean="/ ".join(line.split())

            lines=line_clean+" "+"\n"

            f2.write(lines)

        else: pass

    f2.close()

if __name__ == '__main__' :

    t1=time.time()

    # 测试单个文件

    dealpath="../Database/SogouC/FileTest/1.txt"

    savepath="../Database/SogouCCut/FileTest/1.txt"

    stopwordspath='../Database/stopwords/CH_stopWords.txt'

    stopwordspath1='../Database/stopwords/HG_stopWords.txt' # 哈工大停用词表

    # 批量处理文件夹下的文件

    # rfolder_path = '../Database/SogouC/Sample/'

    rfolder_path = '../Database/SogouC/FileNews/'

    # 分词处理后保存根路径

    wfolder_path = '../Database/SogouCCut/'

    # 中文语料预处理器

    # cutTxtWord(dealpath,savepath,stopwordspath) # 单文本预处理器

    cutFileWord(rfolder_path,wfolder_path,stopwordspath) # 多文本预处理器

    t2=time.time()

    print("中文语料语处理完成，耗时："+str(t2-t1)+"秒。") #反馈结果

执行结果：

Python中文语料批量预处理手记的更多相关文章

python中文语料分词处理，按字或者词cut_sentence
cut_sentence.py import string import jieba import jieba.posseg as psg import logging #关闭jieba日制 jieb ...
Python中结巴分词使用手记
手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中 ...
基于CBOW网络手动实现面向中文语料的word2vec
最近在工作之余学习NLP相关的知识,对word2vec的原理进行了研究.在本篇文章中,尝试使用TensorFlow自行构建.训练出一个word2vec模型,以强化学习效果,加深理解. 一.背景知识: ...
wiki中文语料的word2vec模型构建
一.利用wiki中文语料进行word2vec模型构建 1)数据获取到wiki官网下载中文语料,下载完成后会得到命名为zhwiki-latest-pages-articles.xml.bz2的文件,里 ...
python调用hanlp分词包手记
python调用hanlp分词包手记 Hanlp作为一款重要的分词工具,本月初的时候看到大快搜索发布了hanlp的1.7版本,新增了文本聚类.流水线分词等功能.关于hanlp1.7版本的新功能,后 ...
word2vec词向量处理中文语料
word2vec介绍 word2vec官网:https://code.google.com/p/word2vec/ word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间 ...
利用RNN进行中文文本分类（数据集是复旦中文语料）
利用TfidfVectorizer进行中文文本分类(数据集是复旦中文语料) 1.训练词向量数据预处理参考利用TfidfVectorizer进行中文文本分类(数据集是复旦中文语料) ,现在我们有了分词 ...
基于tensorflow的文本分类总结（数据集是复旦中文语料）
代码已上传到github:https://github.com/taishan1994/tensorflow-text-classification 往期精彩: 利用TfidfVectorizer进行 ...
【原】python中文文本挖掘资料集合
这些网址是我在学习python中文文本挖掘时觉得比较好的网站,记录一下,后期也会不定期添加: 1.http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7% ...

随机推荐

python 全栈开发，Day54(jQuery的属性操作,使用jQuery操作input的value值,jQuery的文档操作)
昨日内容回顾 jQuery 宗旨:write less do more 就是js的库,它是javascript的基础上封装的一个框架在前端中,一个js文件就是一个模块一.用法: 1.引入包 2.入 ...
Oracle GoldenGate常用配置端口
1 简介 Oracle Golden Gate软件是一种基于日志的结构化数据复制备份软件,它通过解析源数据库在线日志或归档日志获得数据的增量变化,再将这些变化应用到目标数据库,从而实现源数据库与目标数 ...
[转] Nginx 配置 SSL 证书 + 搭建 HTTPS 网站教程
一.HTTPS 是什么? 根据维基百科的解释: 超文本传输安全协议(缩写:HTTPS,英语:Hypertext Transfer Protocol Secure)是超文本传输协议和SSL/TLS的组合 ...
POJ 2376 Cleaning Shifts【贪心】
POJ 2376 题意: 给出一给大区间和n各小区间,问最少可以用多少小区间覆盖整个大区间. 分析: 贪心法.设t为当前所有已确定区间的最右端,那我们可以每次都取所有可选的小区间(左端点<=t+ ...
【noip模拟赛4】找啊找啊找BF 拓扑排序
描述 sqybi上次找GF的工作十分不成功,于是依旧单身的他在光棍节前的某天突发奇想,要给自己找一个BF(这里指的是男性的好朋友……),这样既可以和人分享内心的压抑(路人甲:压抑还分享么……),也可以 ...
Python4 - 文件操作
对文件操作流程打开文件,得到文件句柄并赋值给一个变量文件的内存对象-包含文件名.字符集.大小.在硬盘上的起止位置... 通过句柄对文件进行操作关闭文件 open 方法 open()函数打开一个 ...
二分搜索-HihoCoder1128
题目链接:https://hihocoder.com/problemset/problem/1128 题目描述: 题目大意就是要我们编程找出K在数组a中的大小排序后的位置. 代码实现: #includ ...
HihoCoder - 1078 【区间修改】
题目链接:https://vjudge.net/contest/241135#problem/A 题目大意:(与区间修改模板题相同) 输入每个测试点(输入文件)有且仅有一组测试数据. 每组测试数据的 ...
C++雾中风景番外篇3：GDB与Valgrind ，调试代码内存的工具
写 C++的同学想必有太多和内存打交道的血泪经验了,常常被 C++的内存问题搅的焦头烂额.(写 core 的经验了)有很多同学一见到 core 就两眼一抹黑,不知所措了.笔者入"坑&quo ...
IdentityServer4-端点
一.发现端点二.授权端点三.令牌端点四.UserInfo端点五.Introspection端点六.撤销端点七.结束会话端点一.发现端点发现端点可用于检索有关IdentityServer ...

Python中文语料批量预处理手记

手记实用系列文章：

语料预处理封装类：

执行结果：

Python中文语料批量预处理手记的更多相关文章

随机推荐

热门专题