统计文件中单词的个数---Shell及python版

最近在看shell中有个题目为统计单词的个数，使用了awk功能，代码如下

#!/bin/bash

if [ $# -ne  ];then

echo "Usage:basename $0 filename"

exit

fi

filename=$

egrep -o "[a-zA-Z]+" $filename |

awk '{count[$0]++}

END{printf "%-14s %s\n","Word","Count"

for(i in count)printf "%-14s %s\n",i,count[i]|"sort -nrk 2"}'

使用正则来匹配，+表示1个多个

结果如下：

[root@localhost shellcookbook]# sh word_freq.sh item.txt

Word           Count

Tennis

Sports

Racket

Printer

Office

Laser

Video

Refrigerator

Player

MP

HD

Camcorder

Audio

Appliance

正好在学习python，顺便拿python实现一下吧，代码如下：

#!/usr/bin/env python

import sys,re

if len(sys.argv[0:]) != 2:

    print "Usage:%s file" % sys.argv[0]

    sys.exit(0)

try:

    filename=sys.argv[1]

    with open(filename) as f:

        data=f.read()

except IOError:

    print "Please check %s is Exised!" % filename

    exit(0)

except Exception,e:

    print e

    sys.exit()

patten=r'[a-zA-Z]+'

words=re.findall(patten,data)

#print sorted([(i,words.count(i)) for i in set(words)],cmp=lambda x,y:cmp(x[1],y[1]),reverse=True)

wordcounts=sorted([(i,words.count(i)) for i in set(words)],key=lambda x:x[1],reverse=True)

print "%-14s %s" % ("Word","Counts")

for word,counts in wordcounts:

    print "%-14s %s" % (word,counts)

使用的也是正则先匹配出来后，再用sorted进行排序并计算出来个数，结果如下：

[root@localhost shellcookbook]# python word_freq_py.py item.txt

Word           Counts

Printer        2

Laser          2

Office         2

Tennis         2

Sports         2

Racket         2

Appliance      1

Player         1

Video          1

HD             1

Audio          1

Camcorder      1

Refrigerator   1

MP             1

我们来看看这二个对比，程序效率如何：

# time sh word_freq.sh item.txt 

real    0m0.007s

user    0m0.003s

sys     0m0.005s

time python word_freq_py.py item.txt 

real    0m0.035s

user    0m0.031s

sys     0m0.004s

对比来看，shell程序更快，主要是使用了awk提高了效率。所以在linux下写的小程序时，shell能实现，还是使用shell实现，python辅助。

统计文件中单词的个数---Shell及python版的更多相关文章

使用tuple统计文件中单词的个数
name = input("Enter file:") if len(name) < 1 : name = "input.txt" fhand = ope ...
学c语言做练习之统计文件中字符的个数
统计文件中字符的个数(采用命令行参数) #include<stdio.h> #include<stdlib.h> int main(int argc, char *argv[] ...
JAVA实验--统计文章中单词的个数并排序
分析: 1)要统计单词的个数,就自己的对文章中单词出现的判断的理解来说是:当出现一个非字母的字符的时候,对前面的一部分字符串归结为单词 2)对于最后要判断字母出现的个数这个问题,我认为应该是要用到ma ...
C语言算法--统计字符串中单词的个数
#include <stdio.h> #include <string.h> #include <stdlib.h> int main(void) { int le ...
Python 统计文本中单词的个数
1.读文件,通过正则匹配 def statisticWord(): line_number = 0 words_dict = {} with open (r'D:\test\test.txt',enc ...
Linux统计文件中单词出现的次数
grep -E "\b[[:alpha:]]+\b" /etc/fstab -o | sort | uniq -c 或 awk '{for(i=1;i<NF;i++){c ...
Scala快速统计文件中特定单词，字符的个数
val fileContent=Source.fromFile("/home/soyo/桌面/ss5.txt").getLines.mkString(",") ...
sort +awk+uniq 统计文件中出现次数最多的前10个单词
实例cat logt.log|sort -s -t '-' -k1n |awk '{print $1;}'|uniq -c|sort -k1nr|head -100 统计文件中出现次数最多的前10个单 ...
java统计文本中单词出现的个数
package com.java_Test; import java.io.File; import java.util.HashMap; import java.util.Iterator; imp ...

随机推荐

MongoDB（四）：MongoDB连接和创建数据库
在连接MongoDB前确保启动MongoDB服务,只需要在MongoDB安装目录的bin目录下执行mongo.exe即可. 执行启动操作后,mongodb在输出一些必要信息后不会输出任何信息,之后就等 ...
HTML5之IndexedDB使用详解
随着firefox4正式版的推出,IndexedDB正式进入我们的视线.IndexedDB是HTML5-WebStorage的重要一环,是一种轻量级NOSQL数据库.相较之下,WebDataBase标 ...
ROS 教程之 navigation ：在 catkin 环境下创建costmap layer plugin
在做机器人导航的时候,肯定见到过global_costmap和local_costmap.global_costmap是为了全局路径规划服务的,如从这个房间到那个房间该怎么走.local_costma ...
wex5中集成的mysql数据库打开时一闪而过报错
在进程中kill mysql.exe 重新启动即可
matlab中常用见的小知识点
矩阵相关: 在matlab中,矩阵或向量是 column-major 表示形式.用 [] 来构建向量或矩阵, 用()来引用向量或矩阵中的元素:用:表示矩阵中的该index下的所以元素: matlab中 ...
图像边缘检測--OpenCV之cvCanny函数
图像边缘检測--OpenCV之cvCanny函数分类: C/C++ void cvCanny( const CvArr* image, CvArr* edges, double threshold1 ...
学习：erlang开源项目。
一.RabbitMQ:AMQP消息服务器 . 二.ejabberd是的Jabber / XMPP协议的即时通讯服务器. 三.cowboy/mochiweb.
【复杂】CentOS 6.4下PXE+Kickstart无人值守安装操作系统
一.简介 1.1 什么是PXE PXE(Pre-boot Execution Environment,预启动执行环境)是由Intel公司开发的最新技术,工作于Client/Server的网络模式,支持 ...
Unity3D-光照贴图技术
概念 Lightmapping光照贴图技术是一种增强静态场景光照效果的技术,其优点是可以通过较少的性能消耗使静态场景看上去更加真实,丰富,更加具有立体感:缺点是不能用来实时地处理动态光照.当游戏场景包 ...
iotop详解
有时我们希望知道到底哪个进程产生了IO,这个时候就需要iotop这个工具了.它的输出和top命令类似,简单直观.官网:http://guichaz.free.fr/iotop/需要Python 2.5 ...

统计文件中单词的个数---Shell及python版

统计文件中单词的个数---Shell及python版的更多相关文章

随机推荐

热门专题