一、jieba库基本介绍

1.1 jieba库概述

jieba是优秀的中文分词第三方库

中文文本需要通过分词获得单个的词语
jieba是优秀的中文分词第三方库，需要额外安装
jieba库提供三种分词模式，最简单只需掌握一个函数

1.2 jieba库的安装

pip install jieba(cmd命令行)

1.3 jieba分词的原理

Jieba分词依靠中文词库

利用一个中文词库，确定汉字之间的关联概率
汉字间概率大的组成词组，形成分词结果
除了分词，用户还可以添加自定义的词组

二、jieba库使用说明

2.1 jieba分词的三种模式

精确模式、全模式、搜索引擎模式

精确模式：把文本精确的切分开，不存在冗余单词
全模式：把文本中所有可能的词语都扫描出来，有冗余
搜索引擎模式：在精确模式基础上，对长词再次切分

2.2 jieba库常用函数

函数	描述
jieba.lcut(s)	精确模式，返回一个列表类型的分词结果
jieba.lcut(s, cut_all=True)	全模式，返回一个列表类型的分词结果，存在冗余
jieba.lcut_for_search(s)	搜索引擎模式，返回一个列表类型的分词结果，存在冗余
jieba.add_word(w)	向分词词典增加新词w

import jieba

jieba.lcut("中国是一个伟大的国家")

Building prefix dict from the default dictionary ...

Loading model from cache /var/folders/mh/krrg51957cqgl0rhgnwyylvc0000gn/T/jieba.cache

Loading model cost 0.979 seconds.

Prefix dict has been built succesfully.

['中国', '是', '一个', '伟大', '的', '国家']

jieba.lcut("中国是一个伟大的国家",cut_all=True)

['中国', '国是', '一个', '伟大', '的', '国家']

jieba.lcut("中华人民共和国是伟大的")

['中华人民共和国', '是', '伟大', '的']

jieba.lcut("中华人民共和国是伟大的",cut_all=True)

['中华', '中华人民', '中华人民共和国', '华人', '人民', '人民共和国', '共和', '共和国', '国是', '伟大', '的']

jieba.lcut_for_search("中华人民共和国是伟大的")

['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的']

jieba.add_word("蟒蛇语言")

2.3 分词要点

jieba.lcut(s)

041 模块5-jieba库的使用的更多相关文章

广师大学习笔记之文本统计(jieba库好玩的词云)
1.jieba库,介绍如下: (1) jieba 库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组:除此之外,jieba 库还提供了增加自定 ...
jieba库的使用和好玩的词云
1.jieba库基本介绍 (1).jieba库概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - ...
jieba库的使用与词云
一.准备在制作词云之前我们需要自行安装三个库,它们分别是:jieba, wordcloud, matplotlib 安装方法基本一致,下面我以安装wordcloud的过程为例. 第一步,按下Win+ ...
Python基础库之jieba库的使用（第三方中文词汇函数库）
各位学python的朋友,是否也曾遇到过这样的问题,举个例子如下: “I am proud of my motherland” 如果我们需要提取中间的单词要走如何做? 自然是调用string中的spl ...
python 学习jieba库遇到的问题及解决方法
昨天在课堂上学习了jieba库,跟着老师写了同样的代码时却遇到了问题: jieba分词报错AttributeError: module 'jieba' has no attribute 'cut' 文 ...
jieba库词频统计练习
在sypder上运行jieba库的代码: import matplotlib.pyplot as pltfracs = [2,2,1,1,1]labels = 'houqin', 'jiemian', ...
如何运用jieba库分词
使用jieba库分词一.什么是jieba库 1.jieba库概述 jieba是优秀的中文分词第三方库,中文文本需要通过分词获得单个词语. 2.jieba库的使用:(jieba库支持3种分词模式) 通 ...
jieba库
Note of Jieba ( 词云图实例 ) Note of Jieba jieba库是python 一个重要的第三方中文分词函数库,但需要用户自行安装. 一.jieba 库简介 (1) jieba ...
jieba库与好玩的词云的学习与应用实现
经过了一些学习与一些十分有意义的锻(zhe)炼(mo),我决定尝试一手新接触的python第三方库 ——jieba库! 这是一个极其优秀且强大的第三方库,可以对一个文本文件的所有内容进行识别,分词,甚 ...

随机推荐

转载 | Sublime text3 实用快捷键整理
实用快捷键 Ctrl+Shift+P:打开命令面板Ctrl+P:搜索项目中的文件Ctrl+G:跳转到第几行Ctrl+W:关闭当前打开文件Ctrl+Shift+W:关闭所有打开文件Ctrl+Shift+ ...
JavaWeb——Servlet开发3
1.使用初始化参数配置应用程序初始化参数的方式有两种在Web.xml文件中使用<context-param>标签声明上下文初始化参数 <context-param> < ...
使用ArrayPool池化大型数组（翻译）
原文链接:https://adamsitnik.com/Array-Pool/ 使用ArrayPool 简介 .NET的垃圾收集器(GC)实现了许多性能优化,其中之一就是,设定年轻的对象很快消亡,然而 ...
SAP Special Fields in FAGLL03 transaction
https://wiki.scn.sap.com/wiki/display/ERPFI/Special+Fields+in+FAGLL03+transaction https://wiki.scn.s ...
洛谷 P3203 [HNOI2010]弹飞绵羊
题意简述有n个点,第i个点有一个ki,表示到达i这个点后可以到i + ki这个点支持修改ki和询问一点走几次能走出所有点两个操作题解思路分块, 对于每个点,维护它走到下一块所经过的点数,它走到 ...
（二十三）c#Winform自定义控件-等待窗体
前提入行已经7,8年了,一直想做一套漂亮点的自定义控件,于是就有了本系列文章. 开源地址:https://gitee.com/kwwwvagaa/net_winform_custom_control ...
RuntimeError: one of the variables needed for gradient computation has been modified by an inplace
vgg里面的 ReLU默认的参数inplace=True 当我们调用vgg结构的时候注意要将inplace改成 False 不然会报错 RuntimeError: one of the variab ...
Linux系统@根目录下各目录作用归纳图
Liunx学习总结(九)--防火墙
防火墙的作用防火墙作为一个边界防御工具,其监控流量要么允许它.要么屏蔽它. 多年来,防火墙的功能不断增强,现在大多数防火墙不仅可以阻止已知的一些威胁.执行高级访问控制列表策略,还可以深入检查流量中的 ...
使用coding和hexo快速搭建博客
欢迎访问我的个人博客皮皮猪:http://www.zhsh666.xyz 今天教大家怎么用hexo快速搭建自己的博客.我不是专业人士,不懂前端知识,所以我十分讨厌那些专业术语,讲了一大堆,对于技术小白 ...

041 模块5-jieba库的使用

一、jieba库基本介绍

1.1 jieba库概述

1.2 jieba库的安装

1.3 jieba分词的原理

二、jieba库使用说明

2.1 jieba分词的三种模式

2.2 jieba库常用函数

2.3 分词要点

041 模块5-jieba库的使用的更多相关文章

随机推荐

热门专题