python英文与中文的词频统计

1、统计英文单词，

# 1.准备utf-8编码的文本文件file（已在文件夹中定义了 一个名叫“head.txt.rtf”文本文件，详情请见截图）

def getTxt(): #3对文本预处理（包括）

    txt = open('head.txt.rtf').read()  #2.通过文件读取字符串 str

    txt = txt.lower()#将所有的单词全部转化成小写

    for ch in ",.!、!@#$%^'": #将所有除了单词以外的符号换成空格

        txt.replace(ch, ' ')

    return txt

#4、分析提取单词

txtArr = getTxt().split()

#5、单词计数字典

counts = {}

for word in txtArr:

    counts[word] = counts.get(word, 0) + 1

#6、将字典转换为列表

countsList = list(counts.items())

countsList.sort(key=lambda x:x[1], reverse=True)

#8.输出TOP(20)

for i in range(20):

    word, count = countsList[i]

    print('{0:<20}{1:>10}'.format(word,count))

用到的知识点， split

str.split(str="", num=string.count(str)).

str -- 分隔符，默认为所有的空字符，包括空格、换行(\n)、制表符(\t)等。
num -- 分割次数。

实例：

#!/usr/bin/python

str = "Line1-abcdef \nLine2-abc \nLine4-abcd";

print str.split( );

print str.split(' ', 1 );

输出：

['Line1-abcdef', 'Line2-abc', 'Line4-abcd']

['Line1-abcdef', '\nLine2-abc \nLine4-abcd']

counts.get(word, 0) + 1：这个表达式代表的意思是，统计counts中的单词数，如果有word，就+1，没有word就返回0;这是一个统计单词数的方法，虽然统计完后，没有直接方法放到字典中，但它确实存在。

counts.items()：以列表返回可遍历的(键, 值) 元组数组

实例：

#!/usr/bin/python

# coding=utf-8

dict = {'Google': 'www.google.com', 'Runoob': 'www.runoob.com', 'taobao': 'www.taobao.com'}

print "字典值 : %s" %  dict.items()

# 遍历字典列表

for key,values in  dict.items():

    print key,values

结果：字典值 : [('Google', 'www.google.com'), ('taobao', 'www.taobao.com'), ('Runoob', 'www.runoob.com')]

Google www.google.com

taobao www.taobao.com

Runoob www.runoob.com

countsList.sort(key=lambda x:x[1], reverse=True)：在这道题中，显然是排序，以从大到小的顺序排列，但有了lambda x:x[1]以后，就是以元组中的第二个元素来进行排序，显然第二个元素也会带动第一个元素。这样就可以，将列表中每个元组也排序了。后面的reverse = true是从大到小排列，false则反之。

range(start, stop[, step])：

start: 计数从 start 开始。默认是从 0 开始。例如range（5）等价于range（0， 5）;
stop: 计数到 stop 结束，但不包括 stop。例如：range（0， 5）是[0, 1, 2, 3, 4]没有5
step：步长，默认为1。例如：range（0， 5）等价于 range(0, 5, 1)

>>>range(10)        # 从 0 开始到 10

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

>>> range(1, 11)     # 从 1 开始到 11

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

>>> range(0, 30, 5)  # 步长为 5

[0, 5, 10, 15, 20, 25]

>>> range(0, 10, 3)  # 步长为 3

[0, 3, 6, 9]

>>> range(0, -10, -1) # 负数

[0, -1, -2, -3, -4, -5, -6, -7, -8, -9]

>>> range(0)

[]

>>> range(1, 0)

[]

print('{0:<20}{1:>10}'.format(word,count))：这个语法的意思是，将word空出20个占位符，count占10个占位符；而大于号与小于号决定word与count是居左还是剧右。

-------------------------------------------------------------------------------------------------------------------

python英文与中文的词频统计的更多相关文章

Hadoop的改进实验（中文分词词频统计及英文词频统计）（4/4）
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...
python瓦登尔湖词频统计
#瓦登尔湖词频统计: import string path = 'D:/python3/Walden.txt' with open(path,'r',encoding= 'utf-8') as tex ...
python jieba分词小说与词频统计
1.知识点 """ 1)cut() a) codecs.open() 解决编码问题 b) f.readline() 读取一行,也可以使用f.readlines()读取多行 ...
Python数据分析之文本处理词频统计
1.项目背景: 原本计划着爬某房产网站的数据做点分析, 结果数据太烂了,链家网的数据干净点, 但都是新开楼盘,没有时间维度,分析意义不大. 学习的步伐不能ting,自然语言处理还的go on 2.分析 ...
spark ---词频统计(二)
利用python来操作spark的词频统计,现将过程分享如下: 1.新建项目:(这里是在已有的项目中创建的,可单独创建wordcount项目) ①新建txt文件: wordcount.txt (文件内 ...
Python中文词频统计
以下是关于小说的中文词频统计这里有三个文件,分别为novel.txt.punctuation.txt.meaningless.txt. 这三个是小说文本.特殊符号和无意义词 Python代码统计词频 ...
Python——字符串、文件操作，英文词频统计预处理
一.字符串操作: 解析身份证号:生日.性别.出生地等. 凯撒密码编码与解码网址观察与批量生成 2.凯撒密码编码与解码凯撒加密法的替换方法是通过排列明文和密文字母表,密文字母表示通过将明文字母表向左 ...
组合数据类型，英文词频统计 python
练习: 总结列表,元组,字典,集合的联系与区别.列表,元组,字典,集合的遍历. 区别: 一.列表:列表给大家的印象是索引,有了索引就是有序,想要存储有序的项目,用列表是再好不过的选择了.在python ...
python复合数据类型以及英文词频统计
这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753. 1.列表,元组,字典,集合分别如何增删改查及遍历. 列 ...

随机推荐

object遍历删除空值
export function deleteObjEmpty(search = {}) { for (let i in search) { search[i] == undef ...
window有哪些属性？
self:self代表自己,相当于window. parent:返回父窗口. top:返回顶层窗口,和parent作用一样. opener:窗口开启者. status:设置窗口状态栏的文本.
Resharper插件安装和破解
1.首先在最下面的地址,下载Resharper安装包,进行解压安装,安装界面如下: a 2.安装后解压下载好的文件会得到如下: 3.打开序列号会看到如下所示: 4.然后复制 %LocalA ...
深度学习caffe测试代码c++
#include <caffe/caffe.hpp> #include <opencv2/core/core.hpp> #include <opencv2/highgui ...
TCP拥塞控制和流量控制
TCP 的流量控制与拥塞控制可以说是一体的.流量控制是通过滑动窗口实现的,拥塞避免主要包含以下2个内容: (1)慢开始,拥塞避免 (2)快重传,快恢复 1.流量控制——滑动窗口 TCP采用大小可变 ...
协程(Coroutine)与多线程，多进程
执行多个任务可以使用多线程或多进程. 多进程中,同一个变量,各自有一份拷贝存在于每个进程中,互不影响多线程中,所有变量都由所有线程共享.而线程间的切换是系统进行调度,无法控制,所以可能一个进程中的 ...
自旋锁（Spin Lock）
转载请您注明出处: http://www.cnblogs.com/lsh123/p/7400625.html 0x01 自旋锁简介自旋锁也是一种同步机制,它能保证某个资源只能被一个线程所拥有, ...
mysql 转义字符问题
首先我们要知道,数据库都是由表构成的,当你把数据插入到其中的一个表中的时候,比如是数字呀.文字呀等等的插入的时候能正常插入,但是一旦你要插入特殊的字符,比如说插入下面这个括号里面的内容(“ABC”)到 ...
Delphi 10.3终于来了
http://altd.embarcadero.com/download/radstudio/10.3/delphicbuilder10_3_0_94364.iso 安装工具: http://ww ...
java学习笔记19（Arrays类）
Arrays类: 此类包含用来操作数组的各种方法(比如升序和搜索): import java.util.Arrays; public class Demo { public static void m ...

python英文与中文的词频统计

python英文与中文的词频统计的更多相关文章

随机推荐

热门专题