中文分词中的战斗机-jieba库

英文分词的第三方库NLTK不错，中文分词工具也有很多(盘古分词、Yaha分词、Jieba分词等)。但是从加载自定义字典、多线程、自动匹配新词等方面来看。

大jieba确实是中文分词中的战斗机。

请随意观看表演

安装
分词
自定义词典
延迟加载
关键词提取
词性标注
词语定位
内部算法

安装

使用pip包傻瓜安装：py -3 -m pip install jieba / pip install jiba（windows下推荐第一种，可以分别安装python2和3对应jieba）
pypi下载地址

分词

3种模式

精确模式：试图将句子最精确地切开，适合文本分析
全模式：把句子中所有的可以成词的词语都扫描出来（速度快）
搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词

实现方式

精确模式：jieba.cut(sen)
全模式：jieba.cut(sen,cut_all=True)
搜索引擎模式：jieba.cut_for_search(sen)

import jieba

sen = "我爱深圳大学"

sen_list = jieba.cut(sen)

sen_list_all = jieba.cut(sen,cut_all=True)

sen_list_search = jieba.cut_for_search(sen)

for i in sen_list:

    print(i,end=" ")

print()

for i in sen_list_all:

    print(i,end=" ")

print()

for i in sen_list_search:

    print(i,end=" ")

print()

结果：附截图

自定义词典

创建方式

后缀：txt
格式：词语( 权重词性 )
注意事项：
1. windows下txt不能用自带的编辑器，否则会乱码。可以用VSCODE，或者其他编辑器
2. 可以只有词语
3. 在没有权重的情况下，只有比默认词典长的词语才可以加载进去。附截图

加载字典

jieba.load_userdict(txtFile)

调整字典

添加词：jieba.add_word(word,freq=None,tag=None)

删除词：jieba.del_word(word)

import jieba

sen = "胶州市市长江大桥"

sen_list = jieba.cut(sen)

for i in sen_list:

    print(i,end=" ")

print()

胶州市 市 长江大桥

jieba.add_word('江大桥',freq=20000)

sen_list = jieba.cut(sen)

for i in sen_list:

    print(i,end=" ")

print()

结果附截图

改变主字典

占用内存较小的词典文件
支持繁体分词更好的词典文件
加载方法：jieba.set_dictionary('data/dict.txt.big')

延迟加载

之前发现，词典不是一次性加载的，说明它采用的是延迟加载。即：当遇到应用的时候才会加载。有点类似于python高级特性中的 yield （节省内存）

效果图如下：

手动加载的方法：jieba.initialize()

关键词提取

jieba.analyse.extract_tags(sentence,topK=20):返回topK个TF/IDF权重最大的词语

import jieba.analyse

sen_ana = jieba.analyse.extract_tags(sen,3)

for i in sen_ana:

    print(i)

江大桥

胶州市

市长

词性标注

jieba.posseg.cut(sen):返回的每个迭代对象有两个属性-> word 词语 + flag 词性

import jieba.posseg

words = jieba.posseg.cut(sen)

for word in words:

    print(word.flag," ",word.word)

ns   胶州市

n   市长

x   江大桥

词语定位

jieba.tokenize(sen,mode):mode可以设置为search，开启搜索模式

index= jieba.tokenize(sen)

for i in index:

    print(i[0],"from",i[1],"to",i[2])

胶州市 from 0 to 3

市长 from 3 to 5

江大桥 from 5 to 8

内部算法

基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法。

参考文献

中文分词中的战斗机-jieba库的更多相关文章

SCWS中文分词，向xdb词库添加新词
SCWS是个不错的中文分词解决方案,词库也是hightman个人制作,总不免有些不尽如人意的地方.有些词语可能不会及时被收入词库中. 幸好SCWS提供了词库XDB导出导入词库的工具(phptool_f ...
Hanlp在java中文分词中的使用介绍
项目结构该项目中,.jar和data文件夹和.properties需要从官网/github下载,data文件夹下载项目配置修改hanlp.properties: 1 #/Test/src/han ...
结巴（jieba）中文分词及其应用实践
中文文本分类不像英文文本分类一样只需要将单词一个个分开就可以了,中文文本分类需要将文字组成的词语分出来构成一个个向量.所以,需要分词. 这里使用网上流行的开源分词工具结巴分词(jieba),它可以有效 ...
如何运用jieba库分词
使用jieba库分词一.什么是jieba库 1.jieba库概述 jieba是优秀的中文分词第三方库,中文文本需要通过分词获得单个词语. 2.jieba库的使用:(jieba库支持3种分词模式) 通 ...
运用jieba库分词
代码: 统计出团队中文简介中词频 import jieba txt=open("C:\\Users\\Administrator\\Desktop\\介绍.txt","r ...
NLP舞动之中文分词浅析（一）
一.简介针对现有中文分词在垂直领域应用时,存在准确率不高的问题,本文对其进行了简要分析,对中文分词面临的分词歧义及未登录词等难点进行了介绍,最后对当前中文分词实现的算法原理(基于词表. ...
HMM（隐马尔科夫）用于中文分词
隐马尔可夫模型(Hidden Markov Model,HMM)是用来描述一个含有隐含未知参数的马尔可夫过程. 本文阅读了2篇blog,理解其中的意思,附上自己的代码,共同学习. 一.理解隐马尔科夫 ...
R语言中文分词包jiebaR
R语言中文分词包jiebaR R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大. R语言作为统计学一门语言,一直在小众领域闪耀着光芒.直到大数据 ...
开源中文分词工具探析（四）：THULAC
THULAC是一款相当不错的中文分词工具,准确率高.分词速度蛮快的:并且在工程上做了很多优化,比如:用DAT存储训练特征(压缩训练模型),加入了标点符号的特征(提高分词准确率)等. 1. 前言 THU ...

随机推荐

Linux必备 -- 如何在Mac OS 使用VMware 安装Linux
Linux简介 Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户.多任务.支持多线程和多CPU的操作系统.它能运行主要的UNIX工具软件.应用程序和网络协 ...
MySQL关于check约束无效的解决办法
首先看下面这段MySQL的操作,我新建了一个含有a和b的表,其中a用check约束必须大于0,然而我插入了一条(-2,1,1)的数据,其中a=-2,也是成功插入的. 所以MySQL只是check,但是 ...
Java中线程的yield(),sleep()以及wait()的区别
从操作系统的角度讲,os会维护一个ready queue(就绪的线程队列).并且在某一时刻cpu只为ready queue中位于队列头部的线程服务. 但是当前正在被服务的线程可能觉得cpu的服务质量不 ...
【iOS系列】-多图片多线程异步下载
多图片多线程异步下载开发中非常常用的就是就是图片下载,我们常用的就是SDWebImage,但是作为开发人员,不仅要能会用,还要知道其原理.本文就会介绍多图下载的实现. 本文中的示例Demno地址,下 ...
Objective-C 实用关键字详解1「面试、工作」看我就 🐒 了 ^_^.
在写项目或阅读别人的代码(一些优秀的源码)中,总能发现一些常见的关键字,随着编程经验的积累大部分还是知道是什么意思的. 相信很多开发者跟我当初一样,只是基本的常用关键字定义属性会使用,但在关键字 ...
跟Microsoft.AspNet.Identity学习哈希加盐法
什么是哈希加盐法? 废话少说:对于MD5这种加密算法,同样的密码每次加密后得到的密文是一样的,所以黑客可以利用已知的密码库(彩虹库)对目标数据库密文进行对比进行攻击. 怎样解决:哈希加盐法,以下是网上 ...
NodeJS 事件循环
Node.js 是单进程单线程应用程序,但是通过事件和回调支持并发,所以性能非常高. Node.js 的每一个 API 都是异步的,并作为一个独立线程运行,使用异步函数调用,并处理并发. Node.j ...
关于特殊文件权限：suid、sgid和sticky-bit
用 ls –l 命令时,能看到三个八进制数字,表示文件的权限.其实文件的权限应该用4个八进制文件来表示,没有显示的那个是第一位,用来设定一些特殊的权限,这个八进制数字的三个位是:SUID.SGID.s ...
Git操作指南
请访问以下网址,很详细,今天偷个懒记录一下,之后有时间再来补全吧! https://git-scm.com/book/zh/v2
ASP.NET Core开发之HttpContext
ASP.NET Core中的HttpContext开发,在ASP.NET开发中我们总是会经常用到HttpContext. 那么在ASP.NET Core中要如何使用HttpContext呢,下面就来具 ...