Python 统计文本中单词的个数

1.读文件，通过正则匹配

 def statisticWord():

     line_number = 0

     words_dict = {}

     with open (r'D:\test\test.txt',encoding='utf-8') as a_file:

         for line in a_file:

             words = re.findall(r'&#\d+;|&amp;#\d+;|&\w+;',line)

             for word in words:

                 words_dict[word] = words_dict.get(word,0) + 1 #get the value of word, default is 0

         sort_words_dict = OrderedDict(sorted(words_dict.items(),key = lambda x : x[1], reverse = True))

 #        sort_words_dict = sorted(words_dict, key = operator.itemgetter(1))

         with open(r'D:\test\output.txt',encoding = 'utf-8', mode='w') as b_file:

             for k,v in sort_words_dict.items():

                 b_file.write("%-15s:%15s" % (k,v))

                 b_file.write('\n')

2. 通过命令行参数

def statisticWord2():

    if len(sys.argv) == 1 or sys.argv[1] in {"-h", "--help"}:

        print("usage: filename_1 filename_2 ... filename_n")

        sys.exit()

    else:

        words = {}

        strip = string.whitespace + string.punctuation + string.digits + "\"'"

        for filename in sys.argv[1:]:

            for line in open(filename):

                for word in line.split():

                    word = word.strip(strip) # remove all the combination of strip in prefix or suffix

                    if len(word) >= 2:

                        words[word] = words.get(word, 0) + 1

        for word in sorted(words):

            print("'{0}' occurs {1} times".format(word,words[word]))

Python 统计文本中单词的个数的更多相关文章

python统计文本中每个单词出现的次数
.python统计文本中每个单词出现的次数: #coding=utf-8 __author__ = 'zcg' import collections import os with open('abc. ...
java统计文本中单词出现的个数
package com.java_Test; import java.io.File; import java.util.HashMap; import java.util.Iterator; imp ...
统计文件中单词的个数---Shell及python版
最近在看shell中有个题目为统计单词的个数,使用了awk功能,代码如下 #!/bin/bash ];then echo "Usage:basename $0 filename" ...
shell统计文本中单词的出现次数
Ubuntu14.04 给定一个文本,统计其中单词出现的次数方法1 # solution 1 grep与awk配合使用,写成一个sh脚本 fre.sh sh fre.sh wordfretest.t ...
HDU_2030——统计文本中汉字的个数
Problem Description 统计给定文本文件中汉字的个数. Input 输入文件首先包含一个整数n,表示测试实例的个数,然后是n段文本. Output 对于每一段文本,输出其中的汉 ...
JAVA实验--统计文章中单词的个数并排序
分析: 1)要统计单词的个数,就自己的对文章中单词出现的判断的理解来说是:当出现一个非字母的字符的时候,对前面的一部分字符串归结为单词 2)对于最后要判断字母出现的个数这个问题,我认为应该是要用到ma ...
使用xargs同步文本中单词出现个数
#!/bin/bash # 分析一个文本文件中单词出现的频率. # 使用 'xargs' 将文本行分解为单词. # 检查命令行上输入的文件. ARGS= E_BADARGS= E_NOFILE= if ...
C语言算法--统计字符串中单词的个数
#include <stdio.h> #include <string.h> #include <stdlib.h> int main(void) { int le ...
Python 基础 - 统计文本里单词的个数以及出现的次数
# -*- coding:utf-8 -*- #author:V def tol (file1,gui): #写一个方法,定义文件,or 匹配规则 import re patt = re.compil ...

随机推荐

USACO Section 3.2: Sweet Butter
这题我自己是用邻接矩阵+dijskstra方法来求的,第九个例子TLE.网上看了别人的代码,是用邻接表+BFS来完成. 这里可以学到两个小技巧,邻接表的表示方法和INT_MAX的表示方法. /* ID ...
HDU 4634 Swipe Bo 状态压缩+BFS最短路
将起始点.终点和钥匙统一编号,预处理: 1.起始点到所有钥匙+终点的最短路 2.所有钥匙之间两两的最短路 3.所有钥匙到终点的最短路将起始点和所有钥匙四方向出发设为起点BFS一遍,求出它到任意点任意 ...
git忽略文件【转】
转自: http://cwind.iteye.com/blog/1666646 有很多文件不必使用git管理.例如Eclipse或其他IDE生成的项目文件,编译生成的各种目标或临时文件等.使用git ...
Getting Started Synchronizing Files
https://msdn.microsoft.com/en-US/library/bb902813(v=sql.110).aspx Sync Framework includes a file syn ...
Codeforces 475 B Strongly Connected City【DFS】
题意:给出n行m列的十字路口,<代表从东向西,>从西向东,v从北向南,^从南向北,问在任意一个十字路口是否都能走到其他任意的十字路口四个方向搜,搜完之后,判断每个点能够访问的点的数目是否 ...
ASP.NET 时间方法大全
DateTime dt = DateTime.Now; //当前时间 DateTime startWeek = dt.AddDays(- Convert.ToInt32(dt.DayOfWeek.To ...
微信开发小结-PHP
功能点: 1. 网页授权获得微信用户信息用户在微信客户端中访问第三方网页,公众号可以通过微信网页授权机制,来获取用户基本信息,进而实现业务逻辑. 注意点:Scope为snsapi_base 只能获 ...
'String' does not conform to protocol 'CollectionType' Error in Swift 2.0
如下是报错需要修改的源码: // if count(currentPassword) < 6 || count(newPassword) < 6 || count(confirmPassw ...
【同行说技术】Android图片处理技术资料汇总（一）
对于Android开发的童鞋们来说,图片处理时或多或少都会遇到令人头疼和不满意的问题,今天小编收集了5篇Android图片处理的干货文章,一起来看看吧! 一.Android 高清加载巨图方案拒绝压缩 ...
How to begin with the webpage making
1.网页制作三剑客必须要会使用.(dreamweaver /fireworks/flash)2.学习些最基层的html语言的知识,3.在学习一些基本的html标签(要多加练习哦)4.先试着用表格进行 ...

Python 统计文本中单词的个数

Python 统计文本中单词的个数的更多相关文章

随机推荐

热门专题