利用Python做一个词频统计

GitHub地址：FightingBob 【Give me a star , thanks.】

词频统计

　　对纯英语的文本文件【Eg: 瓦尔登湖(英文版).txt】的英文单词出现的次数进行统计，并记录起来

代码实现

 import string

 from os import path

 with open('瓦尔登湖(英文版).txt','rb') as text1:

     words = [word.strip(string.punctuation).lower() for word in str(text1.read()).split()]

     words_index = set(words)

     count_dict = {index:words.count(index) for index in words_index}

     with open(path.dirname(__file__) + '/file1.txt','a+') as text2:

         text2.writelines('以下是词频统计的结果：' + '\n')

         for word in sorted(count_dict,key=lambda x:count_dict[x],reverse=True):

             text2.writelines('{}--{} times'.format(word,count_dict[word]) + '\n')

         text1.close()

         text2.close()

代码解析　　
- 获取文件，以二进制格式打开文件，用于读取内容
  - 　　1 with open('瓦尔登湖(英文版).txt','rb') as text1:
- 获取单词列表
  - 先读取内容
    - 　　content = text1.read()
  - 再获取单词列表（使用split() 通过指定分隔符对字符串进行切片）
    - 　　words = content.split()
  - 单词大写改小写，去掉单词前后符号
    - 　　word,strip(string.punctuation).lower()
  - 去除重复的单词
    - 　　words_index = set(words)
- 设置单词：单词次数的字典　　　　　　
- 写入词频统计
  - 先创建文件，获取当前目录，并以追加写入的方式写入
    - 　　with open(path.dirname(__file__) + '/file1.txt','a+') as text2:
  - 换行写入
    - 　　text2.writelines('以下是词频统计的结果：' + '\n')
  - 对单词进行排序，根据次数从大到小【key=lambda x:count_dict[x]以值排序】
    - 　　sorted(count_dict,key=lambda x:count_dict[x],reverse=True)
  - 换行写入词频
    - 　　text2.writelines('{}--{} times'.format(word,count_dict[word]) + '\n')
  - 关闭资源
    - 　　text1.close()
    - 　　text2.close()

GitHub地址：FightingBob 【Give me a star , thanks.】　　　　　　　　　　

Python 词频统计的更多相关文章

python词频统计及其效能分析
1) 博客开头给出自己的基本信息,格式建议如下: 学号2017****7128 姓名:肖文秀词频统计及其效能分析仓库:https://gitee.com/aichenxi/word_frequenc ...
大数据python词频统计之本地分发-file
统计某几个词在文章出现的次数 -file参数分发,是从客户端分发到各个执行mapreduce端的机器上 1.找一篇文章The_Man_of_Property.txt如下: He was proud o ...
大数据python词频统计之hdfs分发-cacheArchive
-cacheArchive也是从hdfs上进分发,但是分发文件是一个压缩包,压缩包内可能会包含多层目录多个文件 1.The_Man_of_Property.txt文件如下(将其上传至hdfs上) ha ...
大数据python词频统计之hdfs分发-cacheFile
-cacheFile 分发,文件事先上传至Hdfs上,分发的是一个文件 1.找一篇文章The_Man_of_Property.txt: He was proud of him! He could no ...
python词频统计
1.jieba 库 -中文分词库 words = jieba.lcut(str) --->列表,词语 count = {} for word in words: if len(word)==1 ...
python瓦登尔湖词频统计
#瓦登尔湖词频统计: import string path = 'D:/python3/Walden.txt' with open(path,'r',encoding= 'utf-8') as tex ...
Python中文词频统计
以下是关于小说的中文词频统计这里有三个文件,分别为novel.txt.punctuation.txt.meaningless.txt. 这三个是小说文本.特殊符号和无意义词 Python代码统计词频 ...
用Python实现一个词频统计(词云+图）
第一步:首先需要安装工具python 第二步:在电脑cmd后台下载安装如下工具: (有一些是安装好python电脑自带有哦) 有一些会出现一种情况就是安装不了词云展示库有下面解决方法,需看请复制链接 ...
Python——字符串、文件操作，英文词频统计预处理
一.字符串操作: 解析身份证号:生日.性别.出生地等. 凯撒密码编码与解码网址观察与批量生成 2.凯撒密码编码与解码凯撒加密法的替换方法是通过排列明文和密文字母表,密文字母表示通过将明文字母表向左 ...

随机推荐

Java 并发编程——Executor框架和线程池原理
Java 并发编程系列文章 Java 并发基础——线程安全性 Java 并发编程——Callable+Future+FutureTask java 并发编程——Thread 源码重新学习 java并发 ...
深度学习（十六） ReLU为什么比Sigmoid效果好
sigmoid: Relu: 为什么通常Relu比sigmoid和tanh强,有什么不同?主要是因为它们gradient特性不同. 1.sigmoid和tanh的gradient在饱和区域非常平缓,接 ...
Flume初始
一.Flume是什么 Flume是一个数据,日志收集的一个组件,可以用于对程序,nginx等日志的收集,而且非常简单,省时的做完收集的工作.Flume是一个分布式.可靠.和高可用的海量日志采集聚合和传 ...
concurrency基础
Runnable 一个执行任务,没有返回值,也不能抛出受检查异常 Callable 一个执行任务有返回值,也能抛出受检查异常 Future 表示执行任务的生命周期,任务的生命周期为:创建,提交,开始, ...
Maven报错：maven-archetype-webapp:RELEASE from any of the configured repositories
今天学习maven,在控制台下新建maven项目没有问题,但是在STS(eclipse)下创建maven项目老是报错,郁闷死了: ----------------------------------- ...
Java Reflect
Method method=demo.getMethod("sayChina"); method.invoke(demo.newInstance()); ...
redis数据类型（六）Sorted set类型
一.sorted set类型 sorted set是有序集合,它在set的基础上增加了一个顺序属性,这一属性在添加修改元素的时候可以指定,每次指定后,会自动重新按新的值调整顺序.可以理解了有两列的 m ...
jquery validate（转）
转自:http://blog.sina.com.cn/s/blog_608475eb0100h3h1.html 官网地址:http://bassistance.de/jquery-plugins/jq ...
【转】Emgu CV on C# （五） —— Emgu CV on 局部自适应阈值二值化
局部自适应阈值二值化相对全局阈值二值化,自然就有局部自适应阈值二值化,本文利用Emgu CV实现局部自适应阈值二值化算法,并通过调节block大小,实现图像的边缘检测. 一.理论概述(转载自< ...
转：不用安装Oracle客户端，远程连接Oracle数据库
转摘自: http://blog.sina.com.cn/s/blog_90b20fe70101az2z.html Oracle数据库安装过程较为繁琐,而且卸载更加麻烦,如果卸载不干净,下次安装Ora ...

Python 词频统计

利用Python做一个词频统计

词频统计

对纯英语的文本文件【Eg: 瓦尔登湖(英文版).txt】的英文单词出现的次数进行统计，并记录起来

代码实现

代码解析

获取文件，以二进制格式打开文件，用于读取内容

获取单词列表

先读取内容

再获取单词列表（使用split() 通过指定分隔符对字符串进行切片）

单词大写改小写，去掉单词前后符号

去除重复的单词

设置单词：单词次数的字典

写入词频统计

先创建文件，获取当前目录，并以追加写入的方式写入

换行写入

对单词进行排序，根据次数从大到小【key=lambda x:count_dict[x]以值排序】

换行写入词频

关闭资源

Python 词频统计的更多相关文章

随机推荐

热门专题

　　对纯英语的文本文件【Eg: 瓦尔登湖(英文版).txt】的英文单词出现的次数进行统计，并记录起来

代码解析　　

设置单词：单词次数的字典