Python jieba 分词

环境

Anaconda3 Python 3.6, Window 64bit

目的

利用 jieba 进行分词，关键词提取

代码

# -*- coding: utf-8 -*-

import jieba

import jieba.posseg as jbpos

import jieba.analyse as jbal

'''

词性说明:

a:形容词

d:副词

i:成语

m:数词

n:名词

nr:人名

ns:地名

nt:机构团体

nz:其他专有名词

t:时间

v:动词

x:标点符号

f:方位词

un:未知

'''

string1 = "国内掀起了大数据、云计算的热潮。"

# 全模式

w1 = jieba.cut(string1, cut_all=True)

# for i in w1:

#     print(i)

# 精准模式，默认是精准模式

w2 = jieba.cut(string1)

# for i in w2:

#     print(i)

# print("<----------->")

# 搜索引擎模式

w3 = jieba.cut_for_search(string1)

# for i in w3:

#     print(i)

# print("<----------->")

# 词性标注

w4 = jbpos.cut(string1)

# for i in w4:

#     print(i.word + "--" + i.flag)

# print("<----------->")

# 词典加载

# jieba.load_userdict("dict2.txt")

string2 = "国内掀起了大数据、云计算的热潮。仙鹤门地区。"

#word 词语，flag 词性

w5 = jbpos.cut(string2)

for i in w5:

    print(i.word + "--" + i.flag)

print("<----------->\n")

# 更改词频-单个词

jieba.suggest_freq("大数据", True)

jieba.suggest_freq("云计算", True)

w6 = jbpos.cut(string2)

for i in w6:

    print(i.word + "--" + i.flag)

print("<----------->\n")

# 动态修改词典 删除词 del_word

jieba.add_word("仙鹤门")

w7 = jbpos.cut(string2)

for i in w7:

    print(i.word + "--" + i.flag)

print("<----------->\n")

# 提取关键词 第二个参数控制提取参数个数

w8 = jbal.extract_tags(string2, 5)

print(w8)

结果展示

Python jieba 分词的更多相关文章

$好玩的分词——python jieba分词模块的基本用法
jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结. 安装jieba pip install jieba 简单用法结巴分词分为三种模式:精确模式(默认).全模式和 ...
python jieba分词(结巴分词)、提取词，加载词，修改词频，定义词库 -转载
转载请注明出处 “结巴”中文分词:做最好的 Python 中文分词组件,分词模块jieba,它是python比较好用的分词模块, 支持中文简体,繁体分词,还支持自定义词库. jieba的分词,提取关 ...
python jieba分词（添加停用词，用户字典取词频
中文分词一般使用jieba分词 1.安装 pip install jieba 2.大致了解jieba分词包括jieba分词的3种模式全模式 import jieba seg_list = jieb ...
python jieba分词工具
源码地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ 特点 1,支持三种分词模式: a,精确模式,试图将句 ...
python——jieba分词过程
import jieba """函数2:分词函数""" def fenci(training_data): ""&quo ...
python jieba 分词进阶
https://www.cnblogs.com/jiayongji/p/7119072.html 文本准备到网上随便一搜"三体全集",就很容易下载到三体三部曲的全集文本(txt文 ...
python jieba分词小说与词频统计
1.知识点 """ 1)cut() a) codecs.open() 解决编码问题 b) f.readline() 读取一行,也可以使用f.readlines()读取多行 ...
python结巴(jieba)分词
python结巴(jieba)分词一.特点 1.支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析. (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解 ...
Python自然语言处理学习——jieba分词
jieba——“结巴”中文分词是sunjunyi开发的一款Python中文分词组件,可以在Github上查看jieba项目. 要使用jieba中文分词,首先需要安装jieba中文分词,作者给出了如下的 ...

随机推荐

jquery slibings选取同级其他元素
jquery选取同级其他元素可以使用slibings方法,end方法可以清除之前的链式操作,相当于重新开始. <script type="text/javascript"&g ...
Pandas 通过追加方式合并多个csv
常用合并通常用pandas进行数据拼接.合并的方法有: pandas.merge() pandas.concat() pandas.append() 还有一种方式就是通过 pd.to_csv() 中 ...
我的Android进阶之旅------>关于android:layout_weight属性的详细解析
关于androidlayout_weight属性的详细解析效果一效果二图3的布局代码图4的布局代码效果三图7代码图8代码效果四效果五版权声明:本文为[欧阳鹏]原创文章,欢迎转载,转 ...
SSD(Single Shot MultiBox Detector)二读paper
SSD KeyWords:Real-time Object Detection; Convolutional Neural Network Introduction 目前最尖端(State-of-ar ...
C++11中的array
stl中的vector功能相比普通数据而言是要强大很多的,代价是需要动态的内存管理机制(分配,再分配,释放). 而有时候我们只需要普通的数组而已,这就带来了效率上的浪费. array就是用来代替普通的 ...
转:探索C++0x: 1. 静态断言(static_assert)
转自:http://www.cppblog.com/thesys/articles/116985.html 简介 C++0x中引入了static_assert这个关键字,用来做编译期间的断言,因此叫做 ...
Tornado的基本知识
Tornado是FriendReed使用的可扩展的非阻塞式的web服务器及其相关工具的开源版本. 这个框架看起来有些像web.py或者Google的webapp,不过为了能有效利用非阻塞服务器环境,这 ...
Django之查询总结
models.Book.objects.filter(**kwargs): querySet [obj1,obj2]models.Book.objects.filter(**kwargs).value ...
r.js打包注意事项 r.js打包这个是配合require.js打包的
这个./代表的是当前文件的父目录....打包的资源一定要在这个父目录中下面才行,,,,一定一定,要放在这个目录一下才能被正确找到. 不然只是copy了一份一模一样的文件夹和文件过去,并不会处理压缩啥的 ...
$用python-docx模块读写word文档
工作中会遇到需要读取一个有几百页的word文档并从中整理出一些信息的需求,比如产品的API文档一般是word格式的.几百页的文档,如果手工一个个去处理,几乎是不可能的事情.这时就要找一个库写脚本去实现 ...

Python jieba 分词

Python jieba 分词的更多相关文章

随机推荐

热门专题