菜鸟学IT之python词云初体验

作业来源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822

1. 下载一长篇中文小说。

2. 从文件读取待分析文本。

 txt = open(r'G:\aa\三体.txt', 'r', encoding='utf8').read()  # 打开三体小说文件

 jieba.load_userdict(r'G:\aa\three.txt')  # 读取三体小说词库

 Filess= open(r'G:\aa\stops_chinese.txt', 'r', encoding='utf8')  # 打开中文停用词表

 stops = Filess.read().split('\n')  # 以回车键作为标识符把停用词表放到stops列表中

3. 安装并使用jieba进行中文分词。

4. 更新词库，加入所分析对象的专业词汇。

首先下载你要搜索的txt文本
进入词库下载专业词库，参考词库下载地址：https://pinyin.sogou.com/dict/

 # -*- coding: utf-8 -*-

 import struct

 import os

 # 拼音表偏移，

 startPy = 0x1540;

 # 汉语词组表偏移

 startChinese = 0x2628;

 # 全局拼音表

 GPy_Table = {}

 # 解析结果

 # 元组(词频,拼音,中文词组)的列表

 # 原始字节码转为字符串

 def byte2str(data):

     pos = 0

     str = ''

     while pos < len(data):

         c = chr(struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0])

         if c != chr(0):

             str += c

         pos += 2

     return str

 # 获取拼音表

 def getPyTable(data):

     data = data[4:]

     pos = 0

     while pos < len(data):

         index = struct.unpack('H', bytes([data[pos],data[pos + 1]]))[0]

         pos += 2

         lenPy = struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0]

         pos += 2

         py = byte2str(data[pos:pos + lenPy])

         GPy_Table[index] = py

         pos += lenPy

 # 获取一个词组的拼音

 def getWordPy(data):

     pos = 0

     ret = ''

     while pos < len(data):

         index = struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0]

         ret += GPy_Table[index]

         pos += 2

     return ret

 # 读取中文表

 def getChinese(data):

     GTable = []

     pos = 0

     while pos < len(data):

         # 同音词数量

         same = struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0]

         # 拼音索引表长度

         pos += 2

         py_table_len = struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0]

         # 拼音索引表

         pos += 2

         py = getWordPy(data[pos: pos + py_table_len])

         # 中文词组

         pos += py_table_len

         for i in range(same):

             # 中文词组长度

             c_len = struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0]

             # 中文词组

             pos += 2

             word = byte2str(data[pos: pos + c_len])

             # 扩展数据长度

             pos += c_len

             ext_len = struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0]

             # 词频

             pos += 2

             count = struct.unpack('H', bytes([data[pos], data[pos + 1]]))[0]

             # 保存

             GTable.append((count, py, word))

             # 到下个词的偏移位置

             pos += ext_len

     return GTable

 def scel2txt(file_name):

     print('-' * 60)

     with open(file_name, 'rb') as f:

         data = f.read()

     print("词库名：", byte2str(data[0x130:0x338])) # .encode('GB18030')

     print("词库类型：", byte2str(data[0x338:0x540]))

     print("描述信息：", byte2str(data[0x540:0xd40]))

     print("词库示例：", byte2str(data[0xd40:startPy]))

     getPyTable(data[startPy:startChinese])

     getChinese(data[startChinese:])

     return getChinese(data[startChinese:])

 if __name__ == '__main__':

     # scel所在文件夹路径

     in_path = r"C:\Users\Administrator\Downloads"   #修改为你的词库文件存放文件夹

     # 输出词典所在文件夹路径

     out_path = r"C:\Users\Administrator\Downloads\text"  # 转换之后文件存放文件夹

     fin = [fname for fname in os.listdir(in_path) if fname[-5:] == ".scel"]

     for f in fin:

         try:

             for word in scel2txt(os.path.join(in_path, f)):

                 file_path=(os.path.join(out_path, str(f).split('.')[0] + '.txt'))

                 # 保存结果

                 with open(file_path,'a+',encoding='utf-8')as file:

                     file.write(word[2] + '\n')

             os.remove(os.path.join(in_path, f))

         except Exception as e:

             print(e)

             pass

5. 生成词频统计

 # 统计词频次数

 for word in tokens:

     if len(word) == 1:

         continue

     else:

         wcdict[word] = wcdict.get(word, 0) + 1

6. 排序

 # 词频排序

 wcls = list(wcdict.items())

 wcls.sort(key=lambda x: x[1], reverse=True)

7. 排除语法型词汇，代词、冠词、连词等停用词。

 Filess= open(r'G:\aa\stops_chinese.txt', 'r', encoding='utf8')  # 打开中文停用词表

 stops = Filess.read().split('\n')  # 以回车键作为标识符把停用词表放到stops列表中

 tokens=[token for token in wordsls if token not in stops]

 print("过滤后中文内容对比:",len(tokens), len(wordsls))

8. 输出词频最大TOP20，把结果存放到文件里

 # 打印前25词频最高的中文

 for i in range(25):

     print(wcls[i])

 # 存储过滤后的文本

 pd.DataFrame(wcls).to_csv('three.csv', encoding='utf-8')

 # 读取csv词云

 txt = open('three.csv', 'r', encoding='utf-8').read()

9. 生成词云。

 # 读取csv词云

 txt = open('three.csv', 'r', encoding='utf-8').read()

 # 用空格键隔开文本并把它弄进列表中

 cut_text = "".join(jieba.lcut(txt))

 mywc = WordCloud().generate(cut_text)

 plt.imshow(mywc)

 plt.axis("off")

 plt.show()

默认形状：

修改背景：

源码：https://github.com/JGaoLin/python_chinese_word

菜鸟学IT之python词云初体验的更多相关文章

菜鸟学IT之豆瓣爬取初体验
作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 可以用pandas读出之前保存的数据: newsdf = pd.re ...
python词云生成-wordcloud库
python词云生成-wordcloud库全文转载于'https://www.cnblogs.com/nickchen121/p/11208274.html#autoid-0-0-0' 一.word ...
Python 词云可视化
最近看到不少公众号都有一些词云图,于是想学习一下使用Python生成可视化的词云,上B站搜索教程的时候,发现了一位UP讲的很不错,UP也给出了GitHub上的源码,是一个很不错的教程,这篇博客主要就是 ...
Python 词云分析周杰伦《晴天》
一.前言满天星辰的夜晚,他们相遇了...夏天的时候,她慢慢的接近他,关心他,为他付出一切:秋天的时候,两个人终於如愿的在一起,分享一切快乐的时光但终究是快乐时光短暂,因为杰伦必须出国深造,两人面临了要 ...
python词云的制作方法
第一次接触到词云主要是觉得很好看,就研究了一下,官方给出了代码的,但是新手看的话还是有点不容易,我们来尝试下吧. 环境:python2.7 python库:PIL(pillow),numpy,matp ...
python 词云小demo
词云小demo jiebawordcloud 一什么是词云? 由词汇组成类似云的彩色图形.“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过 ...
Python词云生成
一.目的 1. 熟悉jieba库和wordcloud库的使用方法: 2. 熟悉文本词频统计和词云生成的基本方法. 二.内容 1. 从网上自行下载一个长篇英文小说,统计并输出该小说中词频最大的TOP 2 ...
python 词云学习
词云入门三步曲数据获取:使用爬虫在相关网站上获取文本内容数据清洗:按一定格式对文本数据进行清洗和提取(文本分类,贴标签) 数据呈现:多维度呈现和解读数据(计算,做表,画图) 一模块的安装 pi ...
python词云
词云图 from os import path from PIL import Image import numpy as np import matplotlib.pyplot as plt fro ...

随机推荐

【Git之旅】2.Git对象
1.块(blob)对象 (1)文件的每一个版本表示为一个块 (2)二进制大对象(binary large object)的缩写,是计算机领域的常用术语,用来指代某些可以包含任意数据的变量或文件,同时其 ...
Exceptionless邮箱设置
在web.config中配置邮箱: <system.net> <mailSettings> <smtp from="xxx@163.com"> ...
初探Parcel
昨天趁有点时间看了前不久很火的构建工具Parcel,这里说下初步使用的感受,尤其是将其放到实际项目中和Webpack进行比较. 一.前言首先说下笔者目前的技术栈.最近的前端项目主要以管理后台为主,技 ...
一套代码小程序&Web&Native运行的探索04——数据更新
接上文:一套代码小程序&Web&Native运行的探索03 对应Git代码地址请见:https://github.com/yexiaochai/wxdemo/tree/master/m ...
10分钟明白对偶建模法 / +Leampms的“主模型建模”和“对偶模型建模” 之 —— 三类最短路径问题
摘要对偶模型建模是非常有独特的一种建模方式 —— 当问题本身要求指标极小的情况下,对偶模型表现为求极大.本文给出三种最短路径问题的线性规划/混合整数规划模型,其中的第三类最短路径问题采用对偶建模方法 ...
python学习第八讲,python中的数据类型,列表,元祖,字典,之字典使用与介绍
目录 python学习第八讲,python中的数据类型,列表,元祖,字典,之字典使用与介绍.md 一丶字典 1.字典的定义 2.字典的使用. 3.字典的常用方法. python学习第八讲,python ...
利用SHA-1算法和RSA秘钥进行签名验签(带注释)
背景介绍 1.SHA 安全散列算法SHA (Secure Hash Algorithm)是美国国家标准和技术局发布的国家标准FIPS PUB 180-1,一般称为SHA-1.其对长度不超过264二进制 ...
sql的查询语句的总结
一:基本的查询sql 1:基本常用查询 select * from student; --select select all sex from student; --all 查询所有 select d ...
点击菜单选项，右侧主体区新增子界面（Tab）的实现
今天是2019年小年后一天,还有三天回家过年. 今天记录一下一种前端页面的效果的实现,这种效果很常见,一般用于网站后台系统的前端页面.一般后台系统会分为顶部导航栏,左边的菜单栏和右边的主体区.有一种效 ...
AOP面向切面编程C#实例
原创: eleven 原文:https://mp.weixin.qq.com/s/8klfhCkagOxlF1R0qfZsgg [前言] AOP(Aspect-Oriented Programming ...

菜鸟学IT之python词云初体验

菜鸟学IT之python词云初体验的更多相关文章

随机推荐

热门专题