Python3求英文文档中每个单词出现的次数并排序

[本文出自天外归云的博客园]

题目要求：

1、统计英文文档中每个单词出现的次数。

2、统计结果先按次数降序排序，再按单词首字母降序排序。

3、需要考虑大文件的读取。

我的解法如下：

import chardet

import re

# 大文件读取生成器

def read_big_file(f_path, chunk_size=100):

    f = open(f_path, 'rb')

    while True:

        # 每次读取指定内存大小的内容

        chunk_data = f.read(chunk_size)

        if not chunk_data:

            break

        # 获取文件编码并返回解码后的字符串

        detect = chardet.detect(chunk_data)

        # print(f'文件编码：{detect["encoding"]}')

        yield chunk_data.decode(detect["encoding"])

# Pythonic大文件读取生成器

def read_big_file_pythonic(f_path):

    with open(f_path, "rb") as f:

        for line in f.readlines():

            yield line.decode()

# 设定分词符并用字典统计单词出现次数

def words_freq(data, freq={}):

    for word in re.split('[,. ]', data):

        if word in freq:

            freq[word] += 1

        elif word != "":

            freq[word] = 1

    return freq

if __name__ == '__main__':

    f_path = "en_text.txt"

    freq = {}

    for i in read_big_file_pythonic(f_path):

        freq = words_freq(i, freq)

    print(sorted(freq.items(), key=lambda x: (x[1], x[0]), reverse=True))

其中read_big_file方法存在的问题：按大小进行文件读取可能会在边界处将一个单词拆分为两个单词，目前没找到什么好办法解决。

其中read_big_file_pythonic方法存在的问题：按行迭代读取，如果大文件只有一行就不好了。

所以要看实际情况合理选择两种方法的使用。

Python3求英文文档中每个单词出现的次数并排序的更多相关文章

利用python处理文档中各字段出现的次数并排序
import string path = 'waldnn' with open(path,'r') as text: words = [raw_word.strip(string.punctuatio ...
py爬取英文文档学习单词
最近开始看一些整本整本的英文典籍,虽然能看个大概,但是作为四级都没过的我来说还是有些吃力,总还有一部分很关键的单词影响我对句子的理解,因为看的是纸质的,所以查询也很不方便,于是想来个突击,我想把程序单 ...
python3 怎么统计英文文档常用词？（附解释）
# coding: utf-8 # In[32]: #import requests #from bs4 import BeautifulSoup #res = requests.get(" ...
英文文档帮查&翻译计划
以CSDN为首,知乎其次,cnblog带路的一大批博客上充斥着大量低质量的编程入门教程,代码粗制滥造,毫无缩进,没有高亮,东抄西抄.初学者如果长期参照这种垃圾博客来解决问题,将会适得其反,走入歧途. ...
教你阅读MSDN英文文档，迅速提升编程能力
在教大家阅读英文文档之前,首先给大家明确一个概念.C#和.NET的区别? 有一定编程经验的同学应该多多少少知道这方面的概念,但是可能模糊,理解的不一定深刻.我在这里简单给出两者的基本定义: C#:仅仅 ...
利用谷歌翻译网站和Adobe Acrobat翻译英文文档，且鼠标放置后显示英文原文（无字数限制）（18/12/11更新）
软件:Adobe Acrobat 网页:https://translate.google.cn/?tr=f&hl=zh-CN 方法: 第一步:用Adobe Acrobat 打开英文 ...
教你查阅Java API 英文文档（JDK 11）
JAVA Document:https://docs.oracle.com/en/java/javase/11/ 然后找到“Specifications”并点击 API Documentation 比 ...
[转]Postgres-XL 10r1英文文档
Postgres-XL 是一个完全满足ACID的.开源的.可方便进行水平扩展的.多租户安全的.基于PostgreSQL的数据库解决方案. Postgres-XL 可非常灵活的应用在各类场景中,比如: ...
openstack【Kilo】汇总：包括20英文文档、各个组件新增功能及Kilo版部署
OpenStack Kilo版本发布 20英文文档OpenStack Kilo版本文档汇总:各个操作系统安装部署.配置文档.用户指南等文档 Kilo版部署 openstack[Kilo]入门 [准备篇 ...

随机推荐

Gedit 有用插件介绍
刚刚接触Ubuntu,对于高手们用的Vim,本人只能望尘莫及.但是,Ubuntu自带的Gedit让我找到了windows的感觉,而且在添加一些插件后更加喜欢这个工具了. gedit本身带有一些常用插件 ...
HDU 1710 Binary Tree Traversals （二叉树遍历）
Binary Tree Traversals Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/O ...
Converting REF CURSOR to PIPE for Performance in PHP OCI8 and PDO_OCI
原文地址:https://blogs.oracle.com/opal/entry/converting_ref_cursor_to_pipe REF CURSORs are common in Ora ...
AI 高等数学、概率论基础
一.概论基础引入: 原理一:[两边夹定理] 原理二:[极限] X为角度x对应的圆弧的点长: 原理三[单调性]: 引入: 二.导数常见函数的导数: 四.应用: 求解: 泰勒展式和麦克劳林展式: 泰勒 ...
【Windows】DOS的常用命令
cmd[[{/c|/k}][/s][/q][/d][{/a|/u}][/t:fg][/e:{on|off}][/f:{on|off}][/v:{on|off}]string] 参数 /c 执行stri ...
easyUI设置textbox的值
我们知道<input type="text" class="easyui-validatebox" id="txtrName" nam ...
Android Viewpager加Fragment做界面切换时数据消失的解决方式
今天遇到多个Fragment切换,回来后页面空白的情况,找到这个博客方法设置了一下,就可以了 vpAdapter = new VpAdapter(getSupportFragmentManager() ...
ext2文件系统 - mke2fs
上一遍博文的重点其实将ext2整体的组织框架,我们知道了ext2文件系统由块组组成,每个块组里面的组织形式.我们甚至直接把超级块和组描述符里面的内容,用十六进制形式展现了出来.这篇博文主要讲述如何 ...
ARGB和PARGB
原文链接: http://blog.csdn.net/lnwaycool/article/details/8610313 ARGB和PARGB是针对32位图像而言的,Windows下图像可以是1位.4 ...
第2章 Python基础-字符编码&数据类型字符编码&字符串练习题
1.简述位.字节的关系位(bit)是计算机中最小的表示单元,数据传输是以“位”为单位的,1bit缩写为1b 字节(Byte)是计算机中最小的存储单位,1Byte缩写为1B 8bit = 1Byte ...

Python3求英文文档中每个单词出现的次数并排序

Python3求英文文档中每个单词出现的次数并排序的更多相关文章

随机推荐

热门专题