结巴分词和自然语言处理HanLP处理手记

手记实用系列文章：

代码封装类：

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import jieba

import os

import re

import time

from jpype import *

'''

title：利用结巴分词进行文本语料的批量处理

    1 首先对文本进行遍历查找

    2 创建原始文本的保存结构

    3 对原文本进行结巴分词和停用词处理

    4 对预处理结果进行标准化格式，并保存原文件结构路径

author：白宁超

myblog：http://www.cnblogs.com/baiboy/

time：2017年4月28日10:03:09

'''

'''

创建文件目录

path:根目录下创建子目录

'''

def mkdir(path):

    # 判断路径是否存在

    isExists=os.path.exists(path)

    # 判断结果

    if not isExists:

        os.makedirs(path)

        print(path+' 创建成功')

        return True

    else:

        pass

    print('-->请稍后，文本正在预处理中...')

'''

结巴分词工具进行中文分词处理：

read_folder_path：待处理的原始语料根路径

write_folder_path 中文分词经数据清洗后的语料

'''

def CHSegment(read_folder_path,write_folder_path):

    stopwords ={}.fromkeys([line.strip() for line in open('../Database/stopwords/CH_stopWords.txt','r',encoding='utf-8')]) # 停用词表

    # 获取待处理根目录下的所有类别

    folder_list = os.listdir(read_folder_path)

    # 类间循环

    # print(folder_list)

    for folder in folder_list:

        #某类下的路径

        new_folder_path = os.path.join(read_folder_path, folder)

        # 创建一致的保存文件路径

        mkdir(write_folder_path+folder)

         #某类下的保存路径

        save_folder_path = os.path.join(write_folder_path, folder)

        #某类下的全部文件集

        # 类内循环

        files = os.listdir(new_folder_path)

        j = 1

        for file in files:

            if j > len(files):

                break

            # 读取原始语料

            raw = open(os.path.join(new_folder_path, file),'r',encoding='utf-8').read()

            # 只保留汉字

            # raw1 = re.sub("[A-Za-z0-9\[\`\~\!\@\#\$\^\&\*\(\)\=\|\{\}\'\:\;\'\,\[\]\.\<\>\/\?\~\！\@\#\\\&\*\%]", "", raw)

            # jieba分词

            wordslist = jieba.cut(raw, cut_all=False) # 精确模式

            # 停用词处理

            cutwordlist=''

            for word in wordslist:

                if word not in stopwords and word=="\n":

                    cutwordlist+="\n" # 保持原有文本换行格式

                elif len(word)>1 :

                        cutwordlist+=word+"/" #去除空格

            #保存清洗后的数据

            with open(os.path.join(save_folder_path,file),'w',encoding='utf-8') as f:

                f.write(cutwordlist)

                j += 1

'''

结巴分词工具进行中文分词处理：

read_folder_path：待处理的原始语料根路径

write_folder_path 中文分词经数据清洗后的语料

'''

def HanLPSeg(read_folder_path,write_folder_path):

    startJVM(getDefaultJVMPath(), "-Djava.class.path=C:\hanlp\hanlp-1.3.2.jar;C:\hanlp", "-Xms1g", "-Xmx1g") # 启动JVM，Linux需替换分号;为冒号:

    stopwords ={}.fromkeys([line.strip() for line in open('../Database/stopwords/CH_stopWords.txt','r',encoding='utf-8')]) # 停用词表

    # 获取待处理根目录下的所有类别

    folder_list = os.listdir(read_folder_path)

    # 类间循环

    # print(folder_list)

    for folder in folder_list:

        #某类下的路径

        new_folder_path = os.path.join(read_folder_path, folder)

        # 创建一致的保存文件路径

        mkdir(write_folder_path+folder)

         #某类下的保存路径

        save_folder_path = os.path.join(write_folder_path, folder)

        #某类下的全部文件集

        # 类内循环

        files = os.listdir(new_folder_path)

        j = 1

        for file in files:

            if j > len(files):

                break

            # 读取原始语料

            raw = open(os.path.join(new_folder_path, file),'r',encoding='utf-8').read()

            # HanLP分词

            HanLP = JClass('com.hankcs.hanlp.HanLP')

            wordslist = HanLP.segment(raw)

            #保存清洗后的数据

            wordslist1=str(wordslist).split(",")

            # print(wordslist1[1:len(wordslist1)-1])

            flagresult=""

            # 去除标签

            for v in wordslist1[1:len(wordslist1)-1]:

                if "/" in v:

                    slope=v.index("/")

                    letter=v[1:slope]

                    if len(letter)>0 and '\n\u3000\u3000' in letter:

                        flagresult+="\n"

                    else:flagresult+=letter +"/" #去除空格

            # print(flagresult)

            with open(os.path.join(save_folder_path,file),'w',encoding='utf-8') as f:

                f.write(flagresult.replace(' /',''))

            j += 1

    shutdownJVM()

if __name__ == '__main__' :

    print('开始进行文本分词操作：\n')

    t1 = time.time()

    dealpath="../Database/SogouC/FileTest/"

    savepath="../Database/SogouCCut/FileTest/"

    # 待分词的语料类别集根目录

    read_folder_path = '../Database/SogouC/FileNews/'

    write_folder_path = '../Database/SogouCCut/'

    #jieba中文分词

    CHSegment(read_folder_path,write_folder_path) #300个txtq其中结巴分词使用3.31秒

    HanLPSeg(read_folder_path,write_folder_path) #300个txt其中hanlp分词使用1.83秒

    t2 = time.time()

    print('完成中文文本切分: '+str(t2-t1)+"秒。")

运行效果：

结巴分词和自然语言处理HanLP处理手记的更多相关文章

Python中结巴分词使用手记
手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中 ...
python 结巴分词学习
结巴分词(自然语言处理之中文分词器) jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG), 再采用了动态规划查找最大概率路径,找出基于 ...
结巴分词3--基于汉字成词能力的HMM模型识别未登录词
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 1 算法简介在结巴分词2--基于前缀词典及动态规划实现分词博 ...
中文分词之结巴分词~~~附使用场景+demo（net）
常用技能(更新ing):http://www.cnblogs.com/dunitian/p/4822808.html#skill 技能总纲(更新ing):http://www.cnblogs.com/ ...
python中文分词：结巴分词
中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词.其基本实现原理有三点: 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规 ...
Python 结巴分词（1）分词
利用结巴分词来进行词频的统计,并输出到文件中. 结巴分词github地址:结巴分词结巴分词的特点: 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析: 全模式,把句子中所有的可以成 ...
Python 结巴分词模块
原文链接:http://www.gowhich.com/blog/147?utm_source=tuicool&utm_medium=referral PS:结巴分词支持Python3 源码下 ...
solr+jieba结巴分词
为什么选择结巴分词分词效率高词料库构建时使用的是jieba (python) 结巴分词Java版本下载 git clone https://github.com/huaban/jieba-ana ...
北大开源全新中文分词工具包：准确率远超THULAC、结巴分词
最近,北大开源了一个中文分词工具包,它在多个分词数据集上都有非常高的分词准确率.其中广泛使用的结巴分词误差率高达 18.55% 和 20.42,而北大的 pkuseg 只有 3.25% 与 4.32% ...

随机推荐

java:合并两个排序的整数数组A和B变成一个新的数组。新数组也要有序。
合并两个排序的整数数组A和B变成一个新的数组.新数组也要有序. 样例 1: 输入: A=[1], B=[1] 输出:[1,1] 样例解释: 返回合并后的数组. 样例 2: 输入: A=[1,2,3,4 ...
BZOJ4994 [Usaco2017 Feb]Why Did the Cow Cross the Road III 树状数组
欢迎访问~原文出处——博客园-zhouzhendong 去博客园看该题解题目传送门 - BZOJ4994 题意概括给定长度为2N的序列,1~N各处现过2次,i第一次出现位置记为ai,第二次记为bi ...
不一样的go语言之入门篇-Hello World
这是<不一样的go语言>的开篇之作,我尝试以java语言转变者的角度来聊一聊go语言.所以今天先从go语言的基础开始,即语法. 学习一门新的编程语言,必从语法开始.但需要注意的是, ...
anaconda3下配置python-3.5+tensorflow-gpu-1.9.0人脸识别项目环境
https://www.cnblogs.com/31415926535x/p/10620732.html 之前为了配置tensorflow-gpu的环境又是装cuda,又是装cudnn,还有tenso ...
SQL EXCEPT INTERSECT
EXCEPT是指在第一个集合中存在,但是不存在于第二个集合中的数据. INTERSECT是指在两个集合中都存在的数据. )) go )) go insert into t1 ,'t1' union a ...
汇合confluence
Confluence是一个专业的企业知识管理与协同软件,也可以用于构建企业wiki.使用简单,但它强大的编辑和站点管理特征能够帮助团队成员之间共享信息.文档协作.集体讨论,信息推送. 空间空间是页面 ...
dns 安全
域名系统组织架构 DNS是全球互联网中最重要的基础服务之一,也是如今唯一的一种有中心点的服务.全球域名系统组织与管理架构如下图所示: ICANN 互联网名称与数字地址分配机构(The Interne ...
[BZOJ2877][NOI2012]魔幻棋盘(二维线段树)
https://blog.sengxian.com/solutions/bzoj-2877 注意二维线段树的upd()也是一个O(log n)的函数(pushdown()应该也是但没写过). #inc ...
Python3练习题系列（03）
题目: 思考While循环,看看它的特点是什么? 知识点: while循环分析: 特点:while-loop(while 循环).while-loop 会一直执行它下面的代码片段,直到它对应的布尔表 ...
[USACO4.2]Drainage Ditches
OJ题号:洛谷2740.POJ1273.HDU1532 思路:最大流模板. #include<queue> #include<cstdio> #include<cctyp ...

结巴分词和自然语言处理HanLP处理手记

手记实用系列文章：

代码封装类：

运行效果：

结巴分词和自然语言处理HanLP处理手记的更多相关文章

随机推荐

热门专题