结巴（jieba）中文分词及其应用实践

中文文本分类不像英文文本分类一样只需要将单词一个个分开就可以了，中文文本分类需要将文字组成的词语分出来构成一个个向量。所以，需要分词。
这里使用网上流行的开源分词工具结巴分词（jieba），它可以有效的将句子里的词语一个个的提取出来，关于结巴分词的原理此处不再赘述，关键是他的使用方法。
1、安装
结巴分词是一个Python的工具函数库，在python环境下安装，安装方式如下：
（1）python2.x下
全自动安装：easy_install jieba 或者 pip install jieba
半自动安装：先下载http://pypi.python.org/pypi/jieba/ ，解压后运行python setup.py install
手动安装：将jieba目录放置于当前目录或者site-packages目录
通过import jieba 来引用
（2）python3.x下
目前master分支是只支持Python2.x 的
Python3.x 版本的分支也已经基本可用： https://github.com/fxsjy/jieba/tree/jieba3k

git clone https://github.com/fxsjy/jieba.git
git checkout jieba3k
python setup.py install

2、使用
在使用它的时候首先要用import jieba代码导入jieba库，而由于中文文本中可能除了文本内容以外还有一些符号比如括号、等号或箭头等，还需要将这些通过正则表达式的方式匹配出来并删除，
由于使用到了正则表达式，所以还需要使用import re来导入相关函数库。
具体代码如下：

def textParse(sentence):
    import jieba
    import re
    #以下两行过滤出中文及字符串以外的其他符号
    r= re.compile("[\s+\.\!\/_,$%^*(+\"\']+|[+——！，。？、~@#￥%……&*（）]+")
    sentence=r.sub('',sentence)
    seg_list = jieba.cut(sentence)
    #print ("Default Mode:", ' '.join(seg_list))
    return [tok for tok in seg_list]

textParse函数接收一个句子（sentence)做为参数，返回结果是一个由句子词语构成的数组。
结巴分词中最关键的函数为jieba.cut该函数将接收到的句子分割成一个个词语并返回一个可供迭代的generator。代码的最后一行将这个结构转化为数组。

3、停用词
停用词是指一些中文中出现的语气词或连接词，这些词如果不进行踢出，会影响核心词与分类的明确关系。比如“的”，“之”，“与”，“和”等，也可以视情况增加适合本分类场景的停用词。中文停用词表涵盖了1598个停用词。可以从github上获取。
项目改进如下：
(1)在项目中新建停用词表stopkey.txt
将所有中文停用词进该文本文件中。
(2)中文分词时加入过滤停用词功能

4、自定义词典
针对分类场景，自定义一些常用词，当分词的时候遇到这些词就把他们作为单个词处理。如增加数据库中“多对多”到词典中可以避免分词的时候将上述词语分为“多”“对”“多”。这些词典的定义也与分类器应用场景有关。
项目改进如下：
(1)加入自定义词典文件userdict.txt
(2)中文分词中加入自定义词典分词功能

5、改进后的中文分词函数
代码如下（同时又增加了其它常见符号）：

#中文分词
def textParse(sentence):
    import jieba
    import re
    
    #以下两行过滤出中文及字符串以外的其他符号
    r= re.compile("[\s+\.\!\/_\?【】\-(?:\))(?:\()(?:\[)(?:\])(\:)：,$%^*(+\"\']+|[+——！，。？、~@#￥%……&*（）]+")
    
    sentence=r.sub('',sentence)
    jieba.load_userdict("userdict.txt");#加载自定义词典
    stoplist={}.fromkeys([line.strip() for line in open("stopkey.txt",'r',encoding= 'utf-8')])#停用词文件是utf8编码  
    seg_list = jieba.cut(sentence)
    seg_list=[word for word in list(seg_list) if word not in stoplist]
    #print ("Default Mode:", ' '.join(seg_list))
    return seg_list
来源：顶求网

结巴（jieba）中文分词及其应用实践的更多相关文章

jieba中文分词
jieba中文分词¶ 中文与拉丁语言不同,不是以空格分开每个有意义的词,在我们处理自然语言处理的时候,大部分情况下,词汇是对句子和文章的理解基础.因此需要一个工具去把完整的中文分解成词. ji ...
python安装Jieba中文分词组件并测试
python安装Jieba中文分词组件 1.下载http://pypi.python.org/pypi/jieba/ 2.解压到解压到python目录下: 3.“win+R”进入cmd:依次输入如下代 ...
模块 jieba结巴分词库中文分词
jieba结巴分词库 jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结. 安装jieba pip install jieba 简单用法结巴分词分为三种模式:精确 ...
jieba中文分词的.NET版本：jieba.NET
简介平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以 ...
jieba中文分词（python）
问题小结 1.安装需要用到python,根据python2.7选择适当的安装包.先下载http://pypi.python.org/pypi/jieba/ ,解压后运行python setup.py ...
.net 的一个分词系统（jieba中文分词的.NET版本：jieba.NET）
简介平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以 ...
Python分词模块推荐：jieba中文分词
一.结巴中文分词采用的算法基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词,采 ...
NLP自然语言处理 jieba中文分词,关键词提取,词性标注,并行分词,起止位置,文本挖掘,NLP WordEmbedding的概念和实现
1. NLP 走近自然语言处理概念 Natural Language Processing/Understanding,自然语言处理/理解日常对话.办公写作.上网浏览希望机器能像人一样去理解,以 ...
（转）jieba中文分词的.NET版本：jieba.NET
简介平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以 ...

随机推荐

OpenStack（企业私有云）万里长征第二步——使用Fuel部署
一.前言最近一直在使用DevStack来安装OpenStack,注意一直二字,部署了一遍又一遍,操作系统怕是安装了不下上百次,有时是为了验证新的方案,有时是安装出错,还有时是运行过程中出错.总之是碰 ...
【web前端开发】浏览器兼容性处理
1.居中问题div里的内容,IE默认为居中,而FF默认为左对齐,可以尝试增加代码margin: 0 auto;2.高度问题两上下排列或嵌套的div,上面的div设置高度(height),如果div里的 ...
Ant + Jenkies +Tomcat 自动构建部署Web项目
前言:博主资历尚浅,很多东西都还在刚起步学习的阶段,这几天开发任务比较轻,就在自己window系统下,模拟部署远程服务器,利用Jenkies + Ant + Tomcat 搭建了一个自动发布部署的环境 ...
禁止右键，禁止选中，禁止网页复制的Js代码
document.oncontextmenu=new Function('event.returnValue=false;'); document.onselectstart=new Function ...
官方 React 快速上手脚手架 create-react-app
此文简单讲解了官方 React 快速上手脚手架的安装与介绍. 1. React 快速上手脚手架 create-react-app 为了快速地进行构建使用 React 的项目,FaceBook 官方发布 ...
javaWEB之Servlet
Servlet 1. 什么是Servlet * Servlet是JavaWeb三大组件之一(Servlet.Filter.Listener) * Servlet是用来处理客户端请求的动态资源 * ...
eclipse 好用的插件总结
改变eclipse的背景色,各种关键词颜色的插件. color theme. 在mac下最好是通过手动复制粘贴jar文件到, eclipse的plugins下面. 通过Install new soft ...
Spring学习（24）--- AOP之 Aspect instantiation models(aspect实例模式)特别说明
重要: schema-defined aspects只支持singleton model,即基于配置文件的aspects只支持单例模式
关于Myeclipse不能加载已有项目的问题
如果缺少.project文件,你可以新建一个同名项目,把Use default location 去掉,选择要加载的项目,完成
Python： Pandas的DataFrame如何按指定list排序
本文首发于微信公众号“Python数据之道”(ID:PyDataRoad) 前言写这篇文章的起由是有一天微信上一位朋友问到一个问题,问题大体意思概述如下: 现在有一个pandas的Series和一个 ...

结巴（jieba）中文分词及其应用实践

结巴（jieba）中文分词及其应用实践的更多相关文章

随机推荐

热门专题