jieba,很有意思的一个模块,专门用来分词。

import jieba

# sentence:分割的中文字符串
# cut_all:是否采用全模式,默认为False表示精确模式
# HMM:表示是否使用HMM模型,默认为True
seg_list1 = jieba.cut(sentence="争取在二零一九年从面相对象编程到面向对象亲亲",
                      cut_all=True,
                      HMM=True)
# 得到的是一个生成器,我们来转化成列表
print(list(seg_list1))
'''
['争取', '在', '二', '零', '一九', '九年', '从', '面相', '相对',
'对象', '编程', '到', '面向', '面向对象', '对象', '亲亲']
可以看到全匹配就是这个样子,会有重复的
'''

seg_list2 = jieba.cut(sentence="争取在二零一九年从面相对象编程到面向对象亲亲",
                      cut_all=False,
                      HMM=True)
# 改成精确模式打印一下
print(list(seg_list2))
'''
['争取', '在', '二零一', '九年', '从', '面相', '对象', '编程', '到', '面向对象', '亲亲']
可以看到整体还是比较让人满意的,除了那个二零一九年,jieba分成了"二零一"和"九年"
不过整体影响不大,毕竟二零一和九年组合起来都是比较符合常理的
'''

# 搜索引擎模式
seg_list3 = jieba.cut_for_search("争取在二零一九年从面相对象编程到面向对象亲亲")
print(list(seg_list3))  # ['争取', '在', '二零一', '九年', '从', '面相', '对象', '编程', '到', '面向', '对象', '面向对象', '亲亲']

  

# 关键词提取

import jieba
import jieba.analyse

sentence = "给我听到了你们这群蠢货" \
           "你们一直渴望得到的时间机器已经不在这里了" \
           "在这个时代已经不存在了" \
           "给我好好地后悔吧" \
           "然后感到恐惧吧" \
           "我一定会将命运石之门找出来" \
           "这就是本大爷的选择"

# sentence: 待提取的文本
# topK: 权重最大的关键词数量,默认为20个
# withWeight: 是否返回权重值,默认值为False
# allowPOS: 仅包括指定的词性的词,默认值为空,即全包括
            # n: 名词  ns: 地名  vn: 名动词  v: 动词  nr: 人名,不在这里面的会被过滤掉

keywords = jieba.analyse.extract_tags(sentence=sentence,
                                      topK=5,
                                      withWeight=True,
                                      allowPOS=("n", "nr", "ns")
                                      )

for item in keywords:
    print(item[0], item[1])

'''
时间机器 2.2012550785666667
石之门 1.9924612504833332
蠢货 1.8892880490833335
大爷 1.3061487405483334
命运 1.1011633218949999
'''

# 查看词性
import jieba.posseg as pos

words = pos.cut("我的太太叫新垣结衣")
for word, category in words:
    print(word, category)

'''
我 r
的 uj
太太 n
叫 v
新垣 ns
结衣 n

'''

  

Python之jieba分词的更多相关文章

  1. python结巴(jieba)分词

    python结巴(jieba)分词 一.特点 1.支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析. (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解 ...

  2. python环境jieba分词的安装

    我的python环境是Anaconda3安装的,由于项目需要用到分词,使用jieba分词库,在此总结一下安装方法. 安装说明======= 代码对 Python 2/3 均兼容 * 全自动安装:`ea ...

  3. Python使用jieba分词

    # -*- coding: utf-8 -*- # Spyder (python 3.7) import pandas as pd import jieba import jieba.analyse ...

  4. python bottle + jieba分词服务

    2019-12-16 19:46:34 星期一 最近接触到结巴分词项目, 就试试 用python的bottle库来当服务器监听localhost:8080 把请求的数据转给jieba来分词, 并返回分 ...

  5. python的jieba分词

    # 官方例程 # encoding=utf-8 import jieba seg_list = jieba.cut("我来到北京清华大学", cut_all=True) print ...

  6. python安装Jieba中文分词组件并测试

    python安装Jieba中文分词组件 1.下载http://pypi.python.org/pypi/jieba/ 2.解压到解压到python目录下: 3.“win+R”进入cmd:依次输入如下代 ...

  7. [python] 使用Jieba工具中文分词及文本聚类概念

    声明:由于担心CSDN博客丢失,在博客园简单对其进行备份,以后两个地方都会写文章的~感谢CSDN和博客园提供的平台.        前面讲述了很多关于Python爬取本体Ontology.消息盒Inf ...

  8. Python自然语言处理学习——jieba分词

    jieba——“结巴”中文分词是sunjunyi开发的一款Python中文分词组件,可以在Github上查看jieba项目. 要使用jieba中文分词,首先需要安装jieba中文分词,作者给出了如下的 ...

  9. $好玩的分词——python jieba分词模块的基本用法

    jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结. 安装jieba pip install jieba 简单用法 结巴分词分为三种模式:精确模式(默认).全模式和 ...

随机推荐

  1. 20145202 《信息安全系统设计基础》git安装

    git的安装 直接输入指令将其安装就可以了. 安装的时候要设置公钥,我不知道以前在windows上设置过的公钥是否还能用所以我就还是从新搞了一个. 验证可以连通 遇到的问题

  2. RSA 加解密算法详解

    RSA 为"非对称加密算法".也就是加密和解密用的密钥不同. (1)乙方生成两把密钥(公钥和私钥).公钥是公开的,任何人都可以获得,私钥则是保密的. (2)甲方获取乙方的公钥,然后 ...

  3. 线性表(List)

    1.什么是线性表(List)? 零个或多个数据元素的有限序列. (1)元素之间是有序的. (2)线性表强调是有限的. 2.线性表有哪些操作? (1)线性表的创建和初始化,InitList (2)判空, ...

  4. Hadoop 原理总结

    Hadoop 原理总结   一.Hadoop技术原理 Hdfs主要模块:NameNode.DataNode Yarn主要模块:ResourceManager.NodeManager 常用命令: 1)用 ...

  5. hadoop进阶

    Java 多线程安全机制 1.操作系统有两个容易混淆的概念,进程和线程. 进程:一个计算机程序的运行实例,包含了需要执行的指令:有自己的独立地址空间,包含程序内容和数据:不同进程的地址空间是互相隔离的 ...

  6. ScrollView中ViewPager无法正常滑动问题

    本文主要介绍如何解决ViewPager在ScrollView中滑动经常失效.无法正常滑动问题. 解决方法只需要在接近水平滚动时ScrollView不处理事件而交由其子View(即这里的ViewPage ...

  7. oschina添加ssh公钥一记

    生成SSH公钥 --------------------------------------------------------- 打开Windows Shell 或 GIT Bash ssh-key ...

  8. Python利器一之requests

    Python利器一之requests 一.教程涉及开发语言.脚本.框架.数据库等内容 Python + requests 通过 pip 安装: pip install requests 通过 easy ...

  9. Jmeter获取Cookie并传递到下一个线程---跨线程后cookie找不到了

    网上找了一堆文章没有一个是实际操作的,自己边试边查边摸索终于找到了一个全套的办法. 原创文章,转载请说明出处. 1.取得cookie 直接这样写就可以了${COOKIE_JSESSIONID},当然具 ...

  10. GBDT(梯度提升树)scikit-klearn中的参数说明及简汇

    1.GBDT(梯度提升树)概述: GBDT是集成学习Boosting家族的成员,区别于Adaboosting.adaboosting是利用前一次迭代弱学习器的误差率来更新训练集的权重,在对更新权重后的 ...