python调用jieba(结巴)分词加入自定义词典和去停用词功能

把语料从数据库提取出来以后就要进行分词啦，我是在linux环境下做的，先把jieba安装好，然后找到内容是build jieba PKG-INFO setup.py test的那个文件夹（我这边是jieba-0.38），把自己的自定义词典（选用，目的是为了分出原始词库中没有的词以及优先分出一些词），停用词词典（选用），需要分词的语料文件，调用jieba的python程序都放到这个文件夹里，就可以用啦。至于词典要什么样的格式，在网上一查就可以了。

之前有看到别的例子用自定义词典替换掉jieba本身词典，但是我试了一下好像效果不行，假设原始词典中有’云‘，’计算‘而没有’云计算‘，我想要分出’云计算‘这个词，加载自定义词典可以成功，但替换原始词典就不一定成功了。（当然我说的也不一定对）

还有停用词词典，我之前是把停用词在程序里存入一个列表，然后分每个词时都循环一遍列表，这样特别浪费时间。后来把停用词做成字典就很快了。

for eachline in fin可避免memory error。如果还是报memory error，那应该就是输入语料文件单行数据多长了。

#!/usr/bin/python

#-*- encoding:utf-8 -*-

import jieba                                           #导入jieba模块

import re

jieba.load_userdict("newdict.txt")                     #加载自定义词典

import jieba.posseg as pseg 

def splitSentence(inputFile, outputFile):

    #把停用词做成字典

    stopwords = {}

    fstop = open('stop_words.txt', 'r')

    for eachWord in fstop:

        stopwords[eachWord.strip().decode('utf-8', 'ignore')] = eachWord.strip().decode('utf-8', 'ignore')

    fstop.close()

    fin = open(inputFile, 'r')                                  #以读的方式打开文件

    fout = open(outputFile, 'w')                                #以写得方式打开文件

    jieba.enable_parallel(4)                                    #并行分词

    for eachLine in fin:

        line = eachLine.strip().decode('utf-8', 'ignore')       #去除每行首尾可能出现的空格，并转为Unicode进行处理

        line1 = re.sub("[0-9\s+\.\!\/_,$%^*()?;；:-【】+\"\']+|[+——！，;:。？、~@#￥%……&*（）]+".decode("utf8"), "".decode("utf8"),line)

        wordList = list(jieba.cut(line1))                        #用结巴分词，对每行内容进行分词

        outStr = ''

        for word in wordList:

            if word not in stopwords:

                outStr += word

                outStr += ' '

        fout.write(outStr.strip().encode('utf-8') + '\n')       #将分词好的结果写入到输出文件

    fin.close()

    fout.close()  

splitSentence('ss.txt', 'tt.txt')

python调用jieba(结巴)分词加入自定义词典和去停用词功能的更多相关文章

Python3.7+jieba(结巴分词)配合Wordcloud2.js来构造网站标签云(关键词集合)
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_138 其实很早以前就想搞一套完备的标签云架构了,迫于没有时间(其实就是懒),一直就没有弄出来完整的代码,说到底标签对于网站来说还是 ...
python安装Jieba中文分词组件并测试
python安装Jieba中文分词组件 1.下载http://pypi.python.org/pypi/jieba/ 2.解压到解压到python目录下: 3.“win+R”进入cmd:依次输入如下代 ...
python使用jieba实现中文文档分词和去停用词
分词工具的选择: 现在对于中文分词,分词工具有很多种,比如说:jieba分词.thulac.SnowNLP等.在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理 ...
R系列：分词、去停用词、画词云（词云形状可自定义）
附注:不要问我为什么写这么快,是16年写的. R的优点:免费.界面友好(个人认为没有matlab友好,matlab在我心中就是统计软件中极简主义的代表).小(压缩包就几十M,MATLAB.R2009b ...
IKAnalyzer进行中文分词和去停用词
最近学习主题模型pLSA.LDA,就想拿来试试中文.首先就是找文本进行切词.去停用词等预处理,这里我找了开源工具IKAnalyzer2012,下载地址:(:(注意:这里尽量下载最新版本,我这里用的IK ...
更新几篇之前写在公众号上的文章：线性可分时SVM理论推导；关联分析做捆绑销售和推荐；分词、去停用词和画词云
适合阅读人群:有一定的数学基础. 这几篇文章是16年写的,之前发布在个人公众号上,公众号现已弃用.回过头来再看这几篇文章,发现写的过于稚嫩,思考也不全面,这说明我又进步了,但还是作为学习笔记记在这里了 ...
solr+jieba结巴分词
为什么选择结巴分词分词效率高词料库构建时使用的是jieba (python) 结巴分词Java版本下载 git clone https://github.com/huaban/jieba-ana ...
python库--jieba(中文分词)
import jieba 精确模式,试图将句子最精确地切开,适合文本分析:全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义:搜索引擎模式,在精确模式的基础上,对长词再次切 ...
python 语料处理（从文件夹中读取文件夹中文件，分词，去停用词，去单个字）
# -*- coding:utf8 -*- import os import jieba def splitSentence(inputFile): fin = open(inputFile, 'r' ...

随机推荐

java.net.BindException: Address already in use: JVM_Bind <null>:8080错误
今天打开myeclipse出现java.net.BindException: Address already in use: JVM_Bind <null>:8080错误从网上搜了一下大 ...
牛客小白月赛4——I—合唱队形
链接:https://www.nowcoder.com/acm/contest/134/I来源:牛客网题目描述铁子的班级在毕业晚会有一个合唱节目,到了毕业晚会的时候,他们必须排成一排一起合唱&qu ...
转：Mysql explain
转自:http://blog.csdn.net/zhuxineli/article/details/14455029(单纯学习而转) explain显示了MySQL如何使用索引来处理select语句以 ...
hdu 5072 计数+容斥原理
/* 题意: 给出n个数(n<100000), 每个数都不大于100000,数字不会有重复.现在随意抽出3个,问三个彼此互质或者三个彼此不互质的数目有多少. 思路: 这道题反着想,就是三个数 ...
C语言高级应用---操作linux下V4L2摄像头应用程序【转】
转自:http://blog.csdn.net/morixinguan/article/details/51001713 版权声明:本文为博主原创文章,如有需要,请注明转载地址:http://blog ...
linux内存管理2：内存映射和需求分页(英文名字：demand Paging，又叫：缺页中断)【转】
转自:http://blog.csdn.net/zhangxinrun/article/details/5873148 当某个程序映象开始运行时,可执行映象必须装入进程的虚拟地址空间.如果该程序用到了 ...
React中input框设置value报错解析
react input 不设置onChange的常见错误截图表单是前端非常重要的一块内容,并且往往包含了错误校验等逻辑. React对表单元素做了专门的优化处理,他对表单元素做了一些抽象,使得他们 ...
linux硬盘分区表为gpt
由于mbr最大支持2T不够用,给5T的新硬盘弄成GPT的 yum install -y parted#指定硬盘parted /dev/#p 查看分区#rm 1p 删除指定分区#改成gptmklabel ...
Flex与51单片机socket通信策略问题
直接把<cross-domain-policy> <allow-access-from domain="*" to-ports="*"/> ...
elasticsearch配置文件(elasticsearch.yml)详解
来自:http://www.searchtech.pro/articles/2013/02/18/1361194291548.html elasticsearch的config文件夹里面有两个配置文 ...

python调用jieba(结巴)分词 加入自定义词典和去停用词功能

python调用jieba(结巴)分词 加入自定义词典和去停用词功能的更多相关文章

随机推荐

热门专题

python调用jieba(结巴)分词加入自定义词典和去停用词功能

python调用jieba(结巴)分词加入自定义词典和去停用词功能的更多相关文章