jieba,很有意思的一个模块,专门用来分词。

import jieba

# sentence:分割的中文字符串
# cut_all:是否采用全模式,默认为False表示精确模式
# HMM:表示是否使用HMM模型,默认为True
seg_list1 = jieba.cut(sentence="争取在二零一九年从面相对象编程到面向对象亲亲",
                      cut_all=True,
                      HMM=True)
# 得到的是一个生成器,我们来转化成列表
print(list(seg_list1))
'''
['争取', '在', '二', '零', '一九', '九年', '从', '面相', '相对',
'对象', '编程', '到', '面向', '面向对象', '对象', '亲亲']
可以看到全匹配就是这个样子,会有重复的
'''

seg_list2 = jieba.cut(sentence="争取在二零一九年从面相对象编程到面向对象亲亲",
                      cut_all=False,
                      HMM=True)
# 改成精确模式打印一下
print(list(seg_list2))
'''
['争取', '在', '二零一', '九年', '从', '面相', '对象', '编程', '到', '面向对象', '亲亲']
可以看到整体还是比较让人满意的,除了那个二零一九年,jieba分成了"二零一"和"九年"
不过整体影响不大,毕竟二零一和九年组合起来都是比较符合常理的
'''

# 搜索引擎模式
seg_list3 = jieba.cut_for_search("争取在二零一九年从面相对象编程到面向对象亲亲")
print(list(seg_list3))  # ['争取', '在', '二零一', '九年', '从', '面相', '对象', '编程', '到', '面向', '对象', '面向对象', '亲亲']

  

# 关键词提取

import jieba
import jieba.analyse

sentence = "给我听到了你们这群蠢货" \
           "你们一直渴望得到的时间机器已经不在这里了" \
           "在这个时代已经不存在了" \
           "给我好好地后悔吧" \
           "然后感到恐惧吧" \
           "我一定会将命运石之门找出来" \
           "这就是本大爷的选择"

# sentence: 待提取的文本
# topK: 权重最大的关键词数量,默认为20个
# withWeight: 是否返回权重值,默认值为False
# allowPOS: 仅包括指定的词性的词,默认值为空,即全包括
            # n: 名词  ns: 地名  vn: 名动词  v: 动词  nr: 人名,不在这里面的会被过滤掉

keywords = jieba.analyse.extract_tags(sentence=sentence,
                                      topK=5,
                                      withWeight=True,
                                      allowPOS=("n", "nr", "ns")
                                      )

for item in keywords:
    print(item[0], item[1])

'''
时间机器 2.2012550785666667
石之门 1.9924612504833332
蠢货 1.8892880490833335
大爷 1.3061487405483334
命运 1.1011633218949999
'''

# 查看词性
import jieba.posseg as pos

words = pos.cut("我的太太叫新垣结衣")
for word, category in words:
    print(word, category)

'''
我 r
的 uj
太太 n
叫 v
新垣 ns
结衣 n

'''

  

Python之jieba分词的更多相关文章

  1. python结巴(jieba)分词

    python结巴(jieba)分词 一.特点 1.支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析. (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解 ...

  2. python环境jieba分词的安装

    我的python环境是Anaconda3安装的,由于项目需要用到分词,使用jieba分词库,在此总结一下安装方法. 安装说明======= 代码对 Python 2/3 均兼容 * 全自动安装:`ea ...

  3. Python使用jieba分词

    # -*- coding: utf-8 -*- # Spyder (python 3.7) import pandas as pd import jieba import jieba.analyse ...

  4. python bottle + jieba分词服务

    2019-12-16 19:46:34 星期一 最近接触到结巴分词项目, 就试试 用python的bottle库来当服务器监听localhost:8080 把请求的数据转给jieba来分词, 并返回分 ...

  5. python的jieba分词

    # 官方例程 # encoding=utf-8 import jieba seg_list = jieba.cut("我来到北京清华大学", cut_all=True) print ...

  6. python安装Jieba中文分词组件并测试

    python安装Jieba中文分词组件 1.下载http://pypi.python.org/pypi/jieba/ 2.解压到解压到python目录下: 3.“win+R”进入cmd:依次输入如下代 ...

  7. [python] 使用Jieba工具中文分词及文本聚类概念

    声明:由于担心CSDN博客丢失,在博客园简单对其进行备份,以后两个地方都会写文章的~感谢CSDN和博客园提供的平台.        前面讲述了很多关于Python爬取本体Ontology.消息盒Inf ...

  8. Python自然语言处理学习——jieba分词

    jieba——“结巴”中文分词是sunjunyi开发的一款Python中文分词组件,可以在Github上查看jieba项目. 要使用jieba中文分词,首先需要安装jieba中文分词,作者给出了如下的 ...

  9. $好玩的分词——python jieba分词模块的基本用法

    jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结. 安装jieba pip install jieba 简单用法 结巴分词分为三种模式:精确模式(默认).全模式和 ...

随机推荐

  1. laravel5.5服务提供器

    目录 1. 编写服务提供器 1.1 注册方法 register 1.1.1 简单绑定 1.1.2 绑定单例 1.1.3 绑定实例 1.1.4 绑定初始数据 1.2 引导方法 boot 2. 注册服务提 ...

  2. Python 自学 Day1

    作业二:编写登陆接口 输入用户名密码 认证成功后显示欢迎信息 输错三次后锁定 #!/usr/bin/env python import getpass def log(): uname = input ...

  3. win10系统安装之GHOST还原(转+编辑)

    注意*:在以下操作中,你可能需要分区你的原来系统盘,如果是重装的话.现在我们使用SSD固态做系统盘盘,这个分区的话,点选mbr重新引导,以及对齐复选框. 如果前面过程都没问题,在安装过程中出现    ...

  4. Python全栈工程师(装饰器、模块)

    ParisGabriel                每天坚持手写  一天一篇  决定坚持几年 全栈工程师     Python人工智能从入门到精通 装饰器 decorators(专业提高篇) 装饰 ...

  5. (原)Unreal 渲染模块引言Temp

            @author:白袍小道     引言 本文只在对Unreal渲染模块做一些详细的理解,务求能分析出个大概. 其中框架的思想和实现的过程,是非常值得学习和推敲一二的. 涉及资源系统,材 ...

  6. Ubuntu系列问题

    一.Ubuntu16.04 intel_rapl : no valid rapl domains found in packge0 echo 'blacklist intel_rapl' >&g ...

  7. Ubuntu16.04 问题汇总

    Ubuntu16.04安装wps并解决系统缺失字体问题 http://www.cnblogs.com/liutongqing/p/6388160.html

  8. django的聚合函数和aggregate、annotate方法使用

    支持聚合函数的方法: 提到聚合函数,首先我们要知道的就是这些聚合函数是不能在django中单独使用的,要想在django中使用这些聚合函数,就必须把这些聚合函数放到支持他们的方法内去执行.支持聚合函数 ...

  9. [译]在python中如何有效的比较两个无序的列表是否包含完全同样的元素(不是set)?

    原文来源: https://stackoverflow.com/questions/7828867/how-to-efficiently-compare-two-unordered-lists-not ...

  10. [转]Shell dev-null详解

    转自: https://blog.csdn.net/wenwenxiong/article/details/46882733 1,可以将/dev/null看作"黑洞". 它非常等价 ...