jieba库的使用与词频统计

1、词频统计

（1）词频分析是对文章中重要词汇出现的次数进行统计与分析，是文本

挖掘的重要手段。它是文献计量学中传统的和具有代表性的一种内容分析方法，基本原理是通过词出现频次多少的变化，来确定热点及其变化趋势。

（2）安装jieba库

安装说明
代码对 Python 2/3 均兼容

全自动安装：easy_install jieba 或者 pip install jieba / pip3 install jieba
半自动安装：先下载 http://pypi.python.org/pypi/jieba/ ，解压后运行 python setup.py install
手动安装：将 jieba 目录放置于当前目录或者 site-packages 目录
通过 import jieba 来引用

示例、全自动安装

在命令行下输入指令：

pip install jieba

(2) 安装进程：

2、调用库函数

1、输入import jieba与使用其中函数

3、python代码

#! python3

# -*- coding: utf- -*-

import os, codecs

import jieba

from collections import Counter

def get_words(txt):

    seg_list = jieba.cut(txt)   #对文本进行分词

    c = Counter()

    for x in seg_list:          #进行词频统计

        if len(x)> and x != '\r\n':

            c[x] +=

    print('常用词频度统计结果')

    for (k,v) in c.most_common():      #遍历输出高频词

        print('%s%s %s  %d' % ('  '*(-len(k)), k, '*'*int(v/2), v))

if __name__ == '__main__':

    with codecs.open('梦里花落知多少.txt', 'r', 'utf8') as f:

        txt = f.read()

    get_words(txt)

• •显示效果

4、词云

import jieba

import wordcloud

f = open("梦里花落知多少.txt","r",encoding = "utf-8")  #打开文件

t = f.read()        #读取文件，并存好

f.close()

ls = jieba.lcut(t)        #对文本分词

txt = " ".join(ls)        #对文本进行标点空格化

w = wordcloud.WordCloud(font_path = "msyh.ttc",width = ,height = ,background_color = "white")      #设置词云背景，找到字体路径（否则会乱码）

w.generate(txt)     #生成词云

w.to_file("govermentwordcloud.png")    #保存词云图

• 词云显示

jieba库的使用与词频统计的更多相关文章

jieba库及wordcloud库的使用
知识内容: 1.jieba库的使用 2.wordcloud库的使用参考资料: https://github.com/fxsjy/jieba https://blog.csdn.net/fontthr ...
用jieba库统计文本词频及云词图的生成
一.安装jieba库 :\>pip install jieba #或者 pip3 install jieba 二.jieba库解析 jieba库主要提供提供分词功能,可以辅助自定义分词词典. j ...
jieba库词频统计
一.jieba 库简介 (1) jieba 库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组:除此之外,jieba 库还提供了增加自定义中文 ...
py库： jieba （中文词频统计）、collections （字频统计）、WordCloud （词云）
先来个最简单的: # 查找列表中出现次数最多的值 ls = [1, 2, 3, 4, 5, 6, 1, 2, 1, 2, 1, 1] ls = ["呵呵", "呵呵&qu ...
利用python jieba库统计政府工作报告词频
1.安装jieba库舍友帮装的,我也不会( ╯□╰ ) 2.上网寻找政府工作报告 3.参照课本三国演义词频统计代码编写 import jieba txt = open("D:\政府工作报告 ...
Python之利用jieba库做词频统计且制作词云图
一.环境以及注意事项 1.windows10家庭版 python 3.7.1 2.需要使用到的库 wordcloud(词云),jieba(中文分词库),安装过程不展示 3.注意事项:由于wordclo ...
jieba库词频统计练习
在sypder上运行jieba库的代码: import matplotlib.pyplot as pltfracs = [2,2,1,1,1]labels = 'houqin', 'jiemian', ...
jieba库分词词频统计
代码已发至github上的python文件词频统计结果如下(词频为1的词组数量已省略): {'是': 5, '风格': 4, '擅长': 4, '的': 4, '兴趣': 4, '宣言': 4, ' ...
使用jieba库与wordcloud库第三方库进行词频统计
一.jieba库与wordcloud库的使用 1.jieba库与wordcloud库的介绍 jieba 库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最 ...

随机推荐

leveldb(ssdb)性能、使用场景评估
最近有个业务场景存储压力很大,写远远大于读,读也集中在最近写入,想想这不很适合采用leveldb存储么.leveldb的话好像用ssdb比较多,花了两天时间就ssdb简单做下测试,以下总结. ssdb ...
图文详解之ZSH美化你的终端CLI
在这个博客中,我将介绍安装ITerm2,ZSH shell,“我的ZSH”,主题,ITerm2配色方案,“我的ZSH”插件,并启用“连线”支持,以帮助创建一个美丽而强大的终端. 如果你想让你的常规Ba ...
hdu 1241 Oil Deposits （简单搜索）
题目: The GeoSurvComp geologic survey company is responsible for detecting underground oil deposits. ...
jQuery-委托事件和on方法注册事件
delegate注册委托事件 delegate--代理.委托事件代理----事件最终不是由$("#first")执行,它只是代理元素第一个参数:最终发生事件的元素第二个参数: ...
企业SVN版本控制服务器搭建
服务器端配置 svn安装部署查看系统环境 cat /etc/redhat-release uname -a 安装svn yum install -y subversion 配置并启动svn 建立sv ...
Paxos协议超级详细解释+简单实例
转载自: https://blog.csdn.net/cnh294141800/article/details/53768464 Paxos协议超级详细解释+简单实例 Basic-Paxos算法 ...
notes for python简明学习教程（2）
方法是只能被该类调用的函数 print函数通常以换行作为输出结尾字典的items方法返回的是元组列表即列表中的每个元素都是元组切片左闭右开即开始位置包含在切片中结束位置不在每一个对象都能 ...
手写数字识别 ----在已经训练好的数据上根据28*28的图片获取识别概率（基于Tensorflow,Python）
通过: 手写数字识别 ----卷积神经网络模型官方案例详解(基于Tensorflow,Python) 手写数字识别 ----Softmax回归模型官方案例详解(基于Tensorflow,Pytho ...
解释器、环境变量、如何运行python程序、变量先定义后引用
python解释器的介绍.解释器的安装.环境变量的添加为什么加环境变量.如何调取不同的解释器版本实现多版本共存.python程序如何运行的.python的变量定义一.python解释器: 用来翻译语 ...
30分钟，让你彻底明白Promise原理
前言前一阵子记录了promise的一些常规用法,这篇文章再深入一个层次,来分析分析promise的这种规则机制是如何实现的.ps:本文适合已经对promise的用法有所了解的人阅读,如果对其用法还不 ...

jieba库的使用与词频统计

jieba库的使用与词频统计的更多相关文章

随机推荐

热门专题