作业练习P194，jieba应用，读取，分词，存储，生成词云，排序，保存

import jieba

#第一题

txt='Python是最有意思的编程语言'

words=jieba.lcut(txt) #精确分词

words_all=jieba.lcut(txt,cut_all=True)  #全分词

words_sh=jieba.lcut_for_search(txt) #搜索分词

print(words)

print(words_all)

print(words_sh)

#第二题

txt1="今天晚上我吃了意大利面"

jieba.add_word("意大利面") #增加分词

words=jieba.lcut(txt1)

print(words)

#第三题

filepath=r'D:/python/test-py/水浒传.txt'

f=open(filepath,'r',encoding='utf-8')

txt=f.read()

f.close()

words=jieba.lcut(txt)

counts={}

keylist=[]

for word in words:

    if len(word)==1:

        continue

    else:

        counts[word]=counts.get(word,0)+1

items=list(counts.items())

items.sort(key=lambda x:x[1],reverse=True)

for i in range(35):

    word,count=items[i]

    keylist.append(word)

    print("{0:^15}--{1:>5}".format(word,count))

print('\n排名前15个词为：',keylist)

#对统计结果进行保存

f=open(r'D:/python/test-py/shuihuzhuang.txt','w')

for i in range(35):

    f.write(str(items[i]))

##for i in str(items):

##    f.write(i)

##f.write(str(keylist))

f.close()

#接上面程序，使用wordcloud输出

def pt(ls):

    print(ls)

from wordcloud import WordCloud

#前15个生成新的列表

##pt('\n新的列表为：')

##for a,b in items[1:16]:  #取15个元素

##    keylist.append(a)

##pt(keylist)

newtxt=' '.join(keylist) #空格替换

print('\n空格替换后生成：',newtxt)

excludes={'一个'}

wordcloud=WordCloud(background_color='white',\

                    width=800,\

                    height=600,\

                    font_path='msyhbd.ttf',\

                    max_words=200,\

                    max_font_size=80,\

                    stopwords=excludes,\

                    ).generate(newtxt)   #生成词云

wordcloud.to_file(r'D:/python/test-py/水浒传.png')

###z最后执行打包合作，在cmd.exe命令行程序 切换到py存放文件夹输入：PyInstaller -F p194zuoye.py

##newlist=[a[i] for a in items]

##pt(newlist)

作业练习P194，jieba应用，读取，分词，存储，生成词云，排序，保存的更多相关文章

python爬虫——京东评论、jieba分词、wordcloud词云统计
接上一章,动态页面抓取——抓取京东评论区内容. url=‘https://club.jd.com/comment/productPageComments.action?callback=fetchJS ...
Python3+pdfminer+jieba+wordcloud+matplotlib生成词云（以深圳十三五规划纲要为例）
一.各库功能说明 pdfminer----用于读取pdf文件的内容,python3安装pdfminer3k jieba----用于中文分词 wordcloud----用于生成词云 matplotlib ...
python 基于 wordcloud + jieba + matplotlib 生成词云
词云词云是啥?词云突出一个数据可视化,酷炫.以前以为很复杂,不想python已经有成熟的工具来做词云.而我们要做的就是准备关键词数据,挑一款字体,挑一张模板图片,非常非常无脑.准备好了吗,快跟我一起 ...
wordcloud + jieba 生成词云
利用jieba库和wordcloud生成中文词云. jieba库:中文分词第三方库分词原理: 利用中文词库,确定汉字之间的关联概率,关联概率大的生成词组三种分词模式: 1.精确模式:把文本精确的切 ...
Jieba库使用和好玩的词云
jieba库的使用: (1) jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式.全模式和搜索引擎模式,下面是三种模式的特点. 精确模式:试图将语句最精 ...
python jieba 库分词结合Wordcloud词云统计
import jieba jieba.add_word("福军") jieba.add_word("少安") excludes={"一个", ...
使用jieba和wordcloud进行中文分词并生成《悲伤逆流成河》词云
因为词云有利于体现文本信息,所以我就将那天无聊时爬取的<悲伤逆流成河>的评论处理了一下,生成了词云. 关于爬取影评的爬虫大概长这个样子(实际上是没有爬完的): #!/usr/bin/env ...
python使用matplotlib画图,jieba分词、词云、selenuium、图片、音频、视频、文字识别、人脸识别
一.使用matplotlib画图关注公众号"轻松学编程"了解更多. 使用matplotlib画柱形图 import matplotlib from matplotlib impo ...
python jieba 词云
#!/usr/bin/python # coding:utf-8 # 绘制一个<三体>全集词云 # pip install jieba # pip install matplotlib # ...

随机推荐

Scikit-Learn 机器学习笔记 -- 线性回归、逻辑回归、softma
import numpy as np from matplotlib import pyplot as plt # 创建线性回归数据集 def create_dataset(): X = 2 * ...
【json/regex】将简单对象生成的json文进行内部排序后再输出
有这样一个实体类: package com.hy; public class Emp { private int id; private int age; private String name; p ...
vue-router 利用url传递参数
vue-router 利用url传递参数 :冒号的形式传递参数在路由配置文件里以:冒号的形式传递参数,这就是对参数的绑定. 1. 在配置文件里以冒号的形式设置参数.我们在/src/router/i ...
高性能计算 —— 中国金融服务业创新发展的助推剂 & 微软
“高性能计算 —— 中国金融服务业创新发展的助推剂“六大盘点 - 微软 - 博客园https://www.cnblogs.com/stbchina/archive/2011/12/02/HPC-in- ...
centos下安装ffmpeg加上fdk-aac的支持
本文参考自:https://blog.csdn.net/jklinux/article/details/72367829 安装包可以从这里下载https://download.csdn.net/dow ...
mysql起容器的最精简命令
亲测有效的 mysql 容器命令: #pull mysql:5.6 docker pull mysql:5.6 #起容器,映射3306端口,配置root用户密码 docker run -di --na ...
无法调用到appcode下的类
解决方法: 右键 appp_code下的类, 点击 “属性”, 里面 [生成操作] 一项由内容改为编译即可
JS 数字相加出现多个小数的问题
今天在页面上用到了js进行小数相加119.01+0.01,结果大家都知道应该是:119.02的,然而结果是119..0200000…. ,莫名其妙的,还以为是我写的程序有问题,后来查了下才知道这是ja ...
test20190904
ios开发注意事项小总结
一.LaunchScreen LaunchScreen产生原因:代替之前的启动图片好处: 1.可以展示更多的东西 2.可以只需要出一个尺寸的图片. 启动图片的优先级启动图片 < Launch ...

作业练习P194，jieba应用，读取，分词，存储，生成词云，排序，保存

作业练习P194，jieba应用，读取，分词，存储，生成词云，排序，保存的更多相关文章

随机推荐

热门专题