Python中文词频统计

以下是关于小说的中文词频统计

这里有三个文件，分别为novel.txt、punctuation.txt、meaningless.txt。

这三个是小说文本、特殊符号和无意义词

Python代码统计词频如下：

import jieba # jieba中文分词库

# 从文件读入小说

with open('novel.txt', 'r', encoding='UTF-8') as novelFile:

    novel = novelFile.read()

# 将小说中的特殊符号过滤

with open('punctuation.txt', 'r', encoding='UTF-8') as punctuationFile:

    for punctuation in punctuationFile.readlines():

        novel = novel.replace(punctuation[0], ' ')

# 添加特定词到词库

jieba.add_word('凤十')

jieba.add_word('林胖子')

jieba.add_word('黑道')

jieba.add_word('饿狼帮')

# 从文件独处无意义词

with open('meaningless.txt', 'r', encoding='UTF-8') as meaninglessFile:

    mLessSet = set(meaninglessFile.read().split('\n'))

mLessSet.add(' ')

novelList = list(jieba.cut(novel))

novelSet = set(novelList) - mLessSet # 将无意义词从词语集合中删除

novelDict = {}

# 统计出词频字典

for word in novelSet:

    novelDict[word] = novelList.count(word)

# 对词频进行排序

novelListSorted = list(novelDict.items())

novelListSorted.sort(key=lambda e: e[1], reverse=True)

# 打印前20词频

topWordNum = 0

for topWordTup in novelListSorted:

    if topWordNum == 20:

        break

    print(topWordTup)

    topWordNum += 1

# 打印记录：

# ('杨易', 906)

# ('说道', 392)

# ('一个', 349)

# ('林胖子', 338)

# ('知道', 295)

# ('和', 218)

# ('心里', 217)

# ('已经', 217)

# ('没有', 217)

# ('这个', 206)

# ('有点', 198)

# ('道', 195)

# ('徐明', 194)

# ('就是', 192)

# ('看', 191)

# ('走', 185)

# ('有', 178)

# ('上', 176)

# ('好', 176)

# ('来', 170)

Python中文词频统计的更多相关文章

jieba （中文词频统计）、collections （字频统计）、WordCloud （词云）
py库: jieba (中文词频统计) .collections (字频统计).WordCloud (词云) 先来个最简单的: # 查找列表中出现次数最多的值 ls = [1, 2, 3, 4, 5, ...
如何用java完成一个中文词频统计程序
要想完成一个中文词频统计功能,首先必须使用一个中文分词器,这里使用的是中科院的.下载地址是http://ictclas.nlpir.org/downloads,由于本人电脑系统是win32位的,因此下 ...
初学Hadoop之中文词频统计
1.安装eclipse 准备 eclipse-dsl-luna-SR2-linux-gtk-x86_64.tar.gz 安装 1.解压文件. 2.创建图标. ln -s /opt/eclipse/ec ...
Java实现中文词频统计
昨日有个中文词频统计的需求, 百度一番后, 发现一大堆标题党文章, 讲的与内容严重不符, 这里就简单记录下自己实现的流程吧! 与英文单词的词频统计不同, 中文的难点在于如何分词, 不过好在有许多优秀的 ...
Python 中文文件统计词频 + 中文词云
1. 词频统计: import jieba txt = open("threekingdoms3.txt", "r", encoding='utf-8').re ...
py库： jieba （中文词频统计）、collections （字频统计）、WordCloud （词云）
先来个最简单的: # 查找列表中出现次数最多的值 ls = [1, 2, 3, 4, 5, 6, 1, 2, 1, 2, 1, 1] ls = ["呵呵", "呵呵&qu ...
爬取腾讯网的热点新闻文章并进行词频统计(Python爬虫+词频统计)
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:一棵程序树 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
Python实现简单中文词频统计示例
简单统计一个小说中哪些个汉字出现的频率最高: import codecs import matplotlib.pyplot as plt from pylab import mpl mpl.rcPar ...
python 中文字数统计/分词
因为想把一段文字分词,所以,需要明确一定的词语关系. 在网上随便下载了一篇中文小说.随便的txt小说,就1mb多.要数数这1mb多的中文到底有多少字,多少分词,这些分词的词性是什么样的. 这里是思路 ...

随机推荐

NeuChar 平台使用及开发教程索引
什么是 NeuChar? NeuChar 是由盛派(Senparc)团队发布的新一代跨平台服务系统,其中包含了开放的跨平台通讯标准及核心计算模块(Senparc.NeuChar.dll)以及配套的云管 ...
Druid的简介
Druid的简介 Druid首先是一个数据库连接池.Druid是目前最好的数据库连接池,在功能.性能.扩展性方面,都超过其他数据库连接池,包括DBCP.C3P0.BoneCP.Proxool.JBos ...
如何在Linux下查看版本信息
Linux下如何查看版本信息, 包括位数.版本信息以及CPU内核信息.CPU具体型号等等,整个CPU信息一目了然. 1.# uname -a (Linux查看版本当前操作系统内核信息) L ...
Python爬虫实践 -- 记录我的第一只爬虫
一.环境配置 1. 下载安装 python3 .(或者安装 Anaconda) 2. 安装requests和lxml 进入到 pip 目录,CMD --> C:\Python\Scripts,输 ...
[Swift]LeetCode90. 子集 II | Subsets II
Given a collection of integers that might contain duplicates, nums, return all possible subsets (the ...
[Swift]LeetCode854. 相似度为 K 的字符串 | K-Similar Strings
Strings A and B are K-similar (for some non-negative integer K) if we can swap the positions of two ...
[Swift]LeetCode873. 最长的斐波那契子序列的长度 | Length of Longest Fibonacci Subsequence
A sequence X_1, X_2, ..., X_n is fibonacci-like if: n >= 3 X_i + X_{i+1} = X_{i+2} for all i + 2 ...
C#版 - Leetcode 201. 数字范围按位与(bitwise AND) - 题解
C#版 - Leetcode 201. 数字范围按位与(bitwise AND) - 题解在线提交: https://leetcode.com/problems/bitwise-and-of-num ...
华为oj之等差数列前n项和
题目: 等差数列热度指数:1010 时间限制:1秒空间限制:32768K 题目描述功能: 对于等差数列 2,5,8,11,14- 输入: 正整数N >0 输出: 求等差数列前N项和返回: ...
【朝花夕拾】Handler篇
如果您的app中没有使用过Handler,那您一定是写了个假app:如果您笔试题中没有遇到Handler相关的题目,那您可能做了份假笔试题:如果您面试中没被技术官问到Handler的问题,那您也许碰到 ...

Python中文词频统计

Python中文词频统计的更多相关文章

随机推荐

热门专题