jieba中文分词
jieba中文分词¶
中文与拉丁语言不同,不是以空格分开每个有意义的词,在我们处理自然语言处理的时候,大部分情况下,词汇是对句子和文章的理解基础。因此需要一个工具去把完整的中文分解成词。
jieba是一个分词起家的中文工具。
基本分词函数与用法¶
安装:pip install jieba(全自动安装方式成功,其他安装方式未尝试)
函数:
jieba.cut()三个参数
:需要分词的字符串
:cut_all参数用来控制是否采用全模式,默认是精确模式
:HMM参数用来控制是否使用HMM模型
jieba.cut_for_search()两个参数
:需要分词的字符串
:是否使用HMM模型
都返回一个可迭代的generator,可用for循环来遍历
import jieba #全模式
jieba_list = jieba.cut("自然语言学习使我快乐",cut_all = True)
print(jieba_list)
print("Full Mode: " + "/".join(jieba_list))
#精确模式
jieba_list = jieba.cut("自然语言学习使我快乐",cut_all = False)
print("Default Mode: " + "/".join(jieba_list)) jieba_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在哈佛大学深造")
print(",".join(jieba_list))
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\12502\AppData\Local\Temp\jieba.cache
<generator object Tokenizer.cut at 0x0000023A5F7A73B8>
Loading model cost 1.282 seconds.
Prefix dict has been built succesfully.
Full Mode: 自然/自然语言/语言/语言学/学习/使/我/快乐
Default Mode: 自然语言/学习/使/我/快乐
小明,硕士,毕业,于,中国,科学,学院,科学院,中国科学院,计算,计算所,,,后,在,哈佛,大学,哈佛大学,深造
result_lcut = jieba.lcut("小明硕士毕业于中国科学院计算所,后在哈佛大学深造")
print(result_lcut)
#精确模式
print(" ".join(result_lcut))
#全模式
print(" ".join(jieba.lcut_for_search("小明硕士毕业于中国科学院计算所,后在哈佛大学深造")))
['小明', '硕士', '毕业', '于', '中国科学院', '计算所', ',', '后', '在', '哈佛大学', '深造']
小明 硕士 毕业 于 中国科学院 计算所 , 后 在 哈佛大学 深造
小明 硕士 毕业 于 中国 科学 学院 科学院 中国科学院 计算 计算所 , 后 在 哈佛 大学 哈佛大学 深造
添加用户自定义词典¶
很多时候我们需要针对特殊场景进行分词,会有一些领域内的专有词汇。
1.可以用jieba.load_userdict(file_name)加载用户字典
2.少量的词汇可以手动添加
用add_word(word,freq = None,tag = None)和del_word(word)在程序中动态修改词典;
用suggest_freq(segment,tune = True)可调节单个词语的词频,使其能或不能被分出来。
print('/'.join(jieba.cut('安妮我不能失去你。',HMM = False)))
安妮/我/不能/失去/你/。
jieba.suggest_freq(('不','能'),True)
558
print('/'.join(jieba.cut('安妮我不能失去你。',HMM=False)))
安妮/我/不/能/失去/你/。
关键词提取¶
基于TF-IDF算法的关键词抽取¶
import jieba.analyse
jieba.analyse.extract_tags(sentence,topK = 20,withWeight = False,allowPOS=())
sentence:为待提取的文本
topK:为返回几个TF/IDF权重最大的关键词,默认值为20
withWeight:为是否一并返回关键词权重值,默认为FALSE
allowPOS:仅包括指定词性的词,默认为空
import jieba.analyse as analyse
lines = open('校园女神.txt','rb').read()
print(" ".join(analyse.extract_tags(lines,topK=20,withWeight=False,allowPOS=())))
李子 花样滑冰 短道 女神 2016 吉林大学 滑冰 陪伴 锦标赛 夺得 体育 非常 心态 成绩 速滑队 阳光 赵宏博 学院 读研 如仙
lines = open('西游记.txt','rb').read()
print(' '.join(analyse.extract_tags(lines,topK = ,withWeight = False,allowPOS=())))
行者 八戒 师父 三藏 唐僧 大圣 沙僧 妖精 菩萨 和尚 那怪 那里 长老 呆子 徒弟 怎么 不知 老孙 国王 一个
基于TextRank算法的关键词抽取¶
jieba.anlayse.textrank(sentence,topK = 20,withWight = False,allowPOS = ('ns','n','vn','v'))直接使用,接口相同,注意默认过滤词性。
import jieba.analyse as analyse
lines = open('校园女神.txt',"rb").read()
print(" ".join(analyse.textrank(lines,topK=20,withWeight=False,allowPOS=('n','ns','vn','v'))))
print("~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~")
print(" ".join(analyse.textrank(lines,topK=20,withWeight=False,allowPOS=('n','ns'))))
花样滑冰 中国 女神 花滑 夺得 学院 陪伴 作为 称号 活出 女儿 天赋 锦标赛 世界 拥有 运动健将 物和人 考到 感谢 体育
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
花样滑冰 花滑 称号 女神 中国 锦标赛 世界 学院 研究生 硕士 陪伴 人生 学业 心态 物和人 体坛 内心 傲人 运动健将 身体
词性标注¶
jieba.posseg.POSTokenizer(tokenizer=None)新建自定义分词器,tokenizer参数可指定内部使用jieba.Tokenizer分词器。
jieba.posseg.dt为默认磁性标注分词器。 标注句子分词后每个词的词性,采用和ictclas兼容的标记法
import jieba.posseg as pseg
words = pseg.cut("一眼望不到边")
for word,flag in words:
print('%s%s'%(word,flag))
一眼 m
望 v
不到 v
边 d
Tokenize:返回词语在原文的起止位置¶
###输入参数只接受Unicode###
print("默认模式的tokenize")
result = jieba.tokenize(u'自然语言处理非常有用')
for tk in result:
print('%s\t\t start:%d\t\t end:%d'%(tk[],tk[],tk[]))
print("~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~")
print("搜索模式的tokenize")
result = jieba.tokenize(u'自然语言处理非常有用',mode='search')
for tk in result:
print('%s\t\t start:%d\t\t end:%d'%(tk[],tk[],tk[]))
默认模式的tokenize
自然语言 start:0 end:4
处理 start:4 end:6
非常 start:6 end:8
有用 start:8 end:10
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
搜索模式的tokenize
自然 start:0 end:2
语言 start:2 end:4
自然语言 start:0 end:4
处理 start:4 end:6
非常 start:6 end:8
有用 start:8 end:10
jieba中文分词的更多相关文章
- python安装Jieba中文分词组件并测试
python安装Jieba中文分词组件 1.下载http://pypi.python.org/pypi/jieba/ 2.解压到解压到python目录下: 3.“win+R”进入cmd:依次输入如下代 ...
- jieba中文分词的.NET版本:jieba.NET
简介 平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以 ...
- jieba中文分词(python)
问题小结 1.安装 需要用到python,根据python2.7选择适当的安装包.先下载http://pypi.python.org/pypi/jieba/ ,解压后运行python setup.py ...
- .net 的一个分词系统(jieba中文分词的.NET版本:jieba.NET)
简介 平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以 ...
- Python分词模块推荐:jieba中文分词
一.结巴中文分词采用的算法 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词,采 ...
- NLP自然语言处理 jieba中文分词,关键词提取,词性标注,并行分词,起止位置,文本挖掘,NLP WordEmbedding的概念和实现
1. NLP 走近自然语言处理 概念 Natural Language Processing/Understanding,自然语言处理/理解 日常对话.办公写作.上网浏览 希望机器能像人一样去理解,以 ...
- (转)jieba中文分词的.NET版本:jieba.NET
简介 平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以 ...
- 《机学一》特征工程1 ——文本处理:sklearn抽取、jieba中文分词、TF和IDF抽取
零.机器学习整个实现过程: 一.机器学习数据组成 特征值: 目标值: 二.特征工程和文本特征提取 1.概要: 1.特征工程是什么 2.特征工程的意义:直接影响预测结果 3.scikit-learn库 ...
- Python大数据:jieba 中文分词,词频统计
# -*- coding: UTF-8 -*- import sys import numpy as np import pandas as pd import jieba import jieba. ...
随机推荐
- python开发基础之语法基础
一.知识点 (一)python介绍 1.Python被设计成一种高可读性的语言,它大量地使用了英语单词作为关键字,不像其他语言使用标点符号构成复杂的语法结构. 2.Pyton是支持面向对象的,支持在对 ...
- React 轮播图实现
接到项目, 用react和material-ui实现轮播图. 搜索了一些方法参考, 不论语言/框架的使用,大体上分为两种思路 超宽列表实现法 在原生JS或者JQuery中,轮播图的实现一般是这样子的 ...
- ASP.NET MVC - Entity Framework
ASP.NET MVC - Entity Framework 实体关系 关系是某个实体(表)的一条记录对应于另一个实体(表)的一条或多条记录. 一对多关系 单方面的包含关系称为一对多,而一对多和一对一 ...
- 【linux终端操作】
1. ctr + alt + t 打开新的终端窗口2. ctr + shift + + 终端窗口字体放大3. ctr + - 终端窗口字体缩小4. ls : 查看目录下的文件信息5. pwd: 查看目 ...
- 无法为具有固定名称“System.Data.SqlClient”的 ADO.NET 提供程序加载在应用程序配置文件中注册的实体框架提供程序类型“System.Data.Entity.SqlServer.SqlProviderServices, EntityFramework.SqlServer”。请确保使用限定程序集的名称且该程序集对运行的应用程序可用。有关详细信息,请参阅 http://go.m
Windows服务中程序发布之后会如下错误: 无法为具有固定名称“System.Data.SqlClient”的 ADO.NET 提供程序加载在应用程序配置文件中注册的实体框架提供程序类型“Syste ...
- 对于JavaBean+Servlet+SqlServer的代码总结和打包调用
日期:2019.3.24 博客期:049 星期日 说起来我已经说过很多次前台的应用技术了呢!这一次我是要将这一部分打包,做成配套的制作工具: 当前我已经打包成功,想要下载的同学可以进入我的GitHub ...
- python2 使用pip安装psycopg2出现错误:Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-install-mvzdNj/psycopg2/
公司业务需求,开发语言python2,需要使用数据库:postgresql,需要安装模块psycopg2这个模块, 使用pip install psycopg2 报错: Command "p ...
- 算法工程师<机器学习基础>
<机器学习基础> 逻辑回归,SVM,决策树 1.逻辑回归和SVM的区别是什么?各适用于解决什么问题? https://www.zhihu.com/question/24904422 2.L ...
- SQLAlchemy使用介绍
SQLAlchemy is the Python SQL toolkit and Object Relational Mapper that gives application developers ...
- 函数式编程 - 函数缓存Memoization
函数式编程风格中有一个"纯函数"的概念,纯函数是一种无副作用的函数,除此之外纯函数还有一个显著的特点:对于同样的输入参数,总是返回同样的结果.在平时的开发过程中,我们也应该尽量把无 ...