jieba：统计一篇文章中词语数

1、jieba分词的四种模式

精确模式、全模式、搜索引擎模式、paddle模式

精确模式：把文本精确的切分开，不存在冗余单词，适合文本分析；

全模式：把文本中所有可能的词语都扫描出来，不能解决歧义，有冗余

搜索引擎模式：在精确模式的基础上，对长单词再次切分，提高召回率，适用于搜索引擎分词

paddle模式：利用PaddlePaddle深度学习框架，训练序列标注（双向GRU）网络模型实现分词。同时支持词性标注。paddle模式需要安装paddlepaddle-tiny

pip install paddlepaddle-tiny==1.6.1

2、jieba库常用函数

函数	参数
jieba.cut(s,cut_all=False,HMM=False,use_paddle=False)	s:为需要分词的字符串 cut_all：是否采用全模式(False情况下为精确模式) HMM：是否使用HMM模型 use_paddle：是否使用paddle模式下的分词模式返回Generator类型
jieba.cut_for_search(s,HMM=False)	搜索引擎模式，参数含义同上，返回Generator类型
jieba.lcut(s,cut_all=False,HMM=False,use_paddle=False)	返回一个List类型
jieba.lcut_for_search(s,HMM=False)	搜索引擎模式，返回List
jieba.add_word(w)	向分词词典中增加新词w
jieba.Tokenizer(dictionary=DEFAULT_DICT)	新建自定义分类器，可用于同时使用不同词典。 jieba.dt为默认分类器，所有全局分词相关函数都是该分类器的映射

3、载入字典

开发者可以指定自己自定义的词典，以便包含jieba词库没有的词。虽然jieba有新词识别能力，但是自行添加新词可以保证更高的正确率。

用法：jieba.load_userdict(file_name) #file_name为文件类对象或者自定义词典的路径

词典格式和dict.txt一样，一个词占一行；每一行分为三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。file_name如果为路径或者二进制方式打开的文件，则文件必须为UTF-8编码。

词频省略时使用自动计算能保证分出改词的词频。

例如：

3.1、调整词典

使用add_word(word , freq=None , tag=None)和del_word(word)可以在程序中动态修改词典。

使用suggest_freq(segment ， true=True)可以自动调节单个词语的词频，使其能（或者不能）被分出来。

注意：自动计算的词频在使用HMM新词发现功能时可能无效。

>>>jieba.suggest_freq(('中' , '将') , True)

494

#这样“中将”同时出现时，将不会作为一个词语，而是两个词“中”和“将”

>>>jieba.suggest_freq('台中' , True)

69

#"台"和"中"同时出现时，将作为一个词语“台中”出现

4、词性标注

jieba.posseg.POSTokenizer(tokenizer=None)新建自定义分类器，tokenizer参数可指定内部使用的jieba.Tokenizer分词器。jieba.posseg.dt为默认词性标注分类器。

标注句子分词后每个词的词性，采用和ictclas兼容的标记法。

除了jieba默认的分词模式，提供paddle模式下的词性标注功能。paddle模式采用延迟加载模式，通过提前安装的paddlepaddle-tiny，并且import该部分代码：

用法示例：

import jieba

import jieba.posseg as pseg

words = pseg.cut('我爱北京天安门') #默认精确模式

jieba.enable_paddle() #启用paddle模式

words = pseg.cut( '我爱北京天安门' , use_paddle=True ) #paddle模式

for word,flag in words:

    print('%s %s'%(word,flag))

结果：

注意：这里pseg.cut的结果是pair对象，而不是普通的List，访问时，比如上文的words，是4个pair对象，一个一个访问时，访问方式为words[i].word与words[i].flag，分别是词与词性。

paddle模式的词性标注对应表如下，其中词性标签24个（小写字母），专名类别标签4个（大写字母）。

5、并行分词

原理：将目标文本按行分隔之后，把各行文本分配到多个Python进程并行分词，然后归并结果，从而获得分词速度的可观提升

基于Python自带的multiprocessing模块，目前暂不支持Windows

用法：

jieba.enable_parallel(4) #开启并行分词模式，参数为并行进程数

jieba.disable_parallel() #关闭并行分词模式

结果：与单进程相比提高了3、4倍

6、Tokenize：词语在原文中的起止位置

输入参数只接受unicode，即字符串为u'xxxx'的形式

result = jieba.tokenize(u'永和服装饰品有限公司')

for tk in result:

    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))

搜索引擎模式

result = jieba.tokenize(u'永和服装饰品有限公司', mode='search')

for tk in result:

    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))

7、例子

①、统计《边城》中词语的词频

from collections import Counter

import jieba

import re

def clean(s):

    pattern=re.compile(r'[^\u4e00-\u9fa5]')

    return re.sub(pattern,'',s)

if __name__=='__main__':

    with open('《边城》.txt','r',encoding='utf-8') as f:

        article=f.read()

        article=clean(article)

        words = jieba.lcut(article)

    #停用词表

    stoplists=[line.strip() for line in open('stop_words.txt','r',encoding='utf-8').readlines()]

    wordlist=[]

    for word in words:

        if word not in stoplists:

            wordlist.append(word)

    result_dict=Counter(wordlist)

    result_list = sorted(result_dict.items(), key=lambda item: item[1], reverse=True)

    for i in range(15):

        word ,  count =result_list[i]

        print('{}\t\t{}'.format(word,count))

②、去除停用词

停用词：停用词大致分为两类。一类是人类语言中包含的功能词，这些功能词极其普遍，与其他词相比，功能词没有什么实际含义，比如'the'、'is'、'at'、'which'、'on'等。但是对于搜索引擎来说，当所要搜索的短语包含功能词，特别是像'The Who'、'The The'或'Take The'等复合名词时，停用词的使用就会导致问题。

另一类词包括词汇词，比如'want'等，这些词应用十分广泛，但是对这样的词搜索引擎无法保证能够给出真正相关的搜索结果，难以帮助缩小搜索范围，同时还会降低搜索的效率，所以通常会把这些词从问题中移去，从而提高搜索性能。

停用词表：https://github.com/goto456/stopwords

import jieba

#创建停用词列表

def stopwordslist():

        stopwords = [line.strip() for line in open('stop_words.txt',encoding='utf-8').readlines()]

        return stopwords

#对句子进行中文分词

def seg_depart(sentence):

    #对文档中的每一行进行中文分词

    print('正在分词')

    sentence_depart = jieba.cut(sentence.strip())

    #创建一个停用词列表

    stopwords = stopwordslist()

    #输出结果为outstr

    outstr=''

    #去除停用词

    for word in sentence_depart:

        if word not in stopwords:

            outstr + = word

            outstr + = ' '

    return outstr

#输出

filename = 'Init.txt'

outfilename = 'out.txt'

inputs = open(filename)

outputs = open(outfilename,'w')

for line in inputs:

        line_seg=seg_depart(line)

        outputs.write(line_seg + '\n')

        print( '———————正在进行名词筛选——————' )

outputs.close()

inputs.close()

print('分词成功！！！')

注意上文中的红字：最好不要用read()，因为会把词分开读入

学习自：Python jieba库的使用说明

其他：词频统计

jieba：统计一篇文章中词语数的更多相关文章

N个任务掌握java系列之统计一篇文章中单词出现的次数
问题:统计一篇文章中单词出现的次数思路: (1)将文章(一个字符串存储)按空格进行拆分(split)后,存储到一个字符串(单词)数组中. (2)定义一个Map,key是字符串类型,保存单词:valu ...
Java统计一篇文章中每个字符出现的个数
大家可以参考下面代码,有什么疑问请留言... import java.io.BufferedReader; import java.io.FileInputStream; import java.io ...
一篇文章有若干行，以空行作为输入结束的条件。统计一篇文章中单词the(不管大小写，单词the是由空格隔开的)的个数。
#include <iostream>using namespace std; int k = 0;int n = 0;int main() { char c; char a[1000]; ...
Python - 统计一篇文章中单词的频率
def frenquence_statistic(file_name): frequence = {} for line in open(file_name,'r').readlines(): wor ...
js将一篇文章中多个连续的<br>标签替换成两个连续的<br>标签
写本文的目的是今天恰好有一个之前做SEO的同事问我怎样把一篇文章中多个连续的br标签替换成两个连续的br标签,这里就牵涉到SEO层面的问题了. 在做SEO优化的时候,其中有一个需要注意的地方就是尽量减 ...
解决前面有一篇文章中'flashplayer.so为什么要设置777权限的'问题的思考了
列出某个目录下的所有内容? ls -A, -A等同于-a, 即是-all, 只是-A 不显示.和.. ll ls 某个目录, 如果它下面没有任何东西, 那么就没有输出! 同时, ll某个目录, 不会 ...
针对上一篇文章中的代码，想出的重构方案（python实现）
#!/usr/bin/env python class Processor: def __init__(self, processor): self.processor = processor def ...
python 找出一篇文章中出现次数最多的10个单词
#!/usr/bin/python #Filename: readlinepy.py import sys,re urldir=r"C:\python27\a.txt" disto ...
[C#]统计文本文件txt中的行数(快速读取)
快速统计文本文件中的行数( StreamReader.ReadLine() ): 测试代码如下: //读取txt文件中总行数的方法 public static int requestMethod(St ...

随机推荐

沁恒CH32F103C8T6的开发和烧录配置说明
概述 CH32F1系列是沁恒生产的32位Cortex-M3 MCU, 片上集成了时钟安全机制.多级电源管理. 通用DMA控制器等. 此系列具有 2 路 USB2.0接口.多通道 TouchKey. 1 ...
裸k8s搭建中遇到的两个坑
在装docker的时候报错了,需要先安装selinux版本.才能安装容器. 需要按照提示安装这个包. 采用强制安装.rpm -ivh 包名字 --force --nodeps 在k8s的master上 ...
Android开发-记账本-实现记账功能选择
制作GridView适配器,实现页面数据的变化制作类型存储数据库,存储的主要是图片类型,类型被选中时的图片,类型未被选中时的图片. 数据库代码如下 package com.example.Utils ...
[USACO18DEC]Sort It Out P
初看本题毫无思路,只能从特殊的 \(K = 1\) 出发. 但是直接考虑构造一组字典序最小的方案还是不好构造,可以考虑先手玩一下样例.通过自己手玩的样例可以发现,貌似没有被选出来的数在原排列中都是递增 ...
Java高级特性——反射
感谢原文作者:peter_RD_nj 原文链接:https://www.jianshu.com/p/9be58ee20dee 注意:同一个类在JVM中只存在一份字节码对象概述定义 JAVA反射机制 ...
mac版mysql初次密码不知道或以后忘记密码重设密码步骤
我自己装完MySQL 不知道怎么回事,初始密码就是登陆不了,幸好找到了这个,严格按照步骤就行了, 完全可以复制粘贴这个是在百度贴吧看到的作者贴吧id叁寸日光_1987 苹果->系统偏好设置- ...
iOS 小技巧总结
1.获取准确的app启动所需时间应用启动时间长短对用户第一次体验至关重要,同时系统对应用的启动.恢复等状态的运行时间也有严格要求,在应用超时的情况下系统会直接关闭应用.以下是几个常见场景下系统对Ap ...
2022寒假集训day5
day5 五道栈的题加上字符串. 单调队列. T1 表达式括号匹配洛谷P1739 题目描述假设一个表达式有英文字母(小写).运算符(+,-,*,/)和左右小(圆)括号构成,以"@&q ...
ssh一段时间无操作后自动断开连接（假死）问题
平时使用ssh远程服务器的时候(注:远程虚拟机一般不会有这个问题),一段时间没有操作,ssh连接就会处于假死状态,以至于需要重新进行ssh连接,不管你用的什么远程工具都会出现这个问题,那么通过心跳检测 ...
小程序"errcode":41002错误问题如何解决？
我的问题是:小程序在本地测试的时候是没有问题的,但是当我扫开发者中的项目中的二维码手机浏览测试的时候发现是没有数据的,然后调试工具中出现: {"errcode":41002,&qu ...

jieba：统计一篇文章中词语数

jieba：统计一篇文章中词语数的更多相关文章

随机推荐

热门专题