shell统计文本中单词的出现次数
Ubuntu14.04
给定一个文本,统计其中单词出现的次数
方法1
# solution 1
grep与awk配合使用,写成一个sh脚本 fre.sh
sh fre.sh wordfretest.txt
#! /bin/bash# solution 1
 ]
then
echo "Usage:$0 args error"
exit
fi
 ]
then
echo "analyse the first file $1"
fi
#get the first file
filename=$
grep -E -o "\b[[:alpha:]]+\b" $filename | awk ' { count[$0]++ }
END{printf("%-20s%s\n","Word","Count");
for(word in count)
{printf("%-20s%s\n",word,count[word])}
}'
###########################
# 先判断输入是否正确,如果输入大于1个文件,用第一个文件
# 用grep把单词提取出来,用awk来统计这些单词;最后打印出来
###########################
补充说明:
| 
 参数说明: -eq:等于 \b backspace printf参数  | 
 awk说明 awk由内容和动作组成;awk pattern {action} pattern可以是 BEGIN; END; expression; expression , expression; 可以执行 for ( var in array ) statement  | 
| 
 1.BEGIN模块:这个模块包括了一个操作块(也就是"{ }"内的内容)。该操作块是在文件输入之前执行的, 也就是不需要输入任何文件数据,也能执行该模块。 BEGIN模块常用于设置修改内置变量如(OFS,RS,FS等),为用户自定义的变量赋初始值或者打印标题信息等。 BEGIN模块中的语句操作以“;”标志或者分行隔开。 eg: awk 'BEGIN{print "Hello World! Begin doing!"}' #输出字符串 2. END模块:与BEGIN模块相反,是处理完文件后的操作。不匹配任何输入行,常用于输出一些总结信息。  | 
|
匹配表达式:
[[:alpha:]]  代表 字母
[[:alnum:]] 代表 字母与数字字符
[a-zA-Z0-9]代表单个字母和数字字符
grep -E "\b[[:alpha:]]+\b" move.sh 
匹配到 move.sh 中所有的单词
 grep -E -o "\b[[:alpha:]]+\b" move.sh 
把匹配到的单词每行1个打印出来
 "\b[[:alpha:]]+\b" 
能匹配到整个单词
方法2
假设 words.txt 是目标文件,只用一行代码
# solution 2
awk -F' ' '{for(i=1;i<=NF;i=i+1){print $i}}' words.txt |sort|uniq -c|sort -nr|awk -F' ' '{printf("%s %s\n",$2,$1)}'
通常,awk逐行处理文本。awk每接收文件的一行,然后执行相应的命令来处理。
用legal文件来做示例
$ cat /etc/legal The programs included with the Ubuntu system are free software; the exact distribution terms for each program are described in the individual files in /usr/share/doc/*/copyright. Ubuntu comes with ABSOLUTELY NO WARRANTY, to the extent permitted by applicable law.
# 搜索统计单词“law”的个数
$ awk -F : '/law/{count++} END{print "the count is ",count}' /etc/legal
the count is
# 统计单词“the”的个数
$ awk -F : '/the/{count++} END{print "the count is ",count}' /etc/legal
the count is 
找到指定单词,自定义变量count自增,最后输出语句和count值
命令sort,把各行按首字母排列顺序重新排列起来
sort -nr,每行都以数字开头,按数字从达到小,排列各行
uniq -c,统计各行出现的次数,并把次数打印在每行前端
awk参数 NF - 浏览记录的域的个数
综合起来,命令就是
awk -F' ' '{for(i=1;i<=NF;i=i+1){print $i}}' /etc/legal |
sort|uniq -c|sort -nr|awk -F' ' '{printf("%s %s\n",$2,$1)}'
最后的awk调换了单词和数字的位置
统计 /etc/legal 中单词出现次数,并以“单词 次数”格式输出结果
shell统计文本中单词的出现次数的更多相关文章
- Spark——统计文本中单词出现的次数
		
示例一:统计所有单词出现的次数 1.在本地创建文件并上传到hdfs中 #vin data.txt //将文件上传到hadoop的根目录下 #hdfs dfs -put data.txt / 2.在sp ...
 - java统计文本中单词出现的个数
		
package com.java_Test; import java.io.File; import java.util.HashMap; import java.util.Iterator; imp ...
 - Linux统计文件中单词出现的次数
		
grep -E "\b[[:alpha:]]+\b" /etc/fstab -o | sort | uniq -c 或 awk '{for(i=1;i<NF;i++){c ...
 - Python 统计文本中单词的个数
		
1.读文件,通过正则匹配 def statisticWord(): line_number = 0 words_dict = {} with open (r'D:\test\test.txt',enc ...
 - python统计文本中每个单词出现的次数
		
.python统计文本中每个单词出现的次数: #coding=utf-8 __author__ = 'zcg' import collections import os with open('abc. ...
 - N个任务掌握java系列之统计一篇文章中单词出现的次数
		
问题:统计一篇文章中单词出现的次数 思路: (1)将文章(一个字符串存储)按空格进行拆分(split)后,存储到一个字符串(单词)数组中. (2)定义一个Map,key是字符串类型,保存单词:valu ...
 - C#统计给定的文本中字符出现的次数,使用循环和递归两种方法
		
前几天看了一个.net程序员面试题目,题目是”统计给定的文本中字符出现的次数,使用循环和递归两种方法“. 下面是我对这个题目的解法: 1.使用循环: /// <summary> /// 使 ...
 - Python的 counter内置函数,统计文本中的单词数量
		
counter是 colletions内的一个类 可以理解为一个简单的计数 import collections str1=['a','a','b','d'] m=collections.Counte ...
 - Linux统计文本中某个字符串出现的次数
		
常用的有如下两种方式: 1.VIM 用vim打开文件,然后输入: :%s/hello//gn 如下图: 图中的例子就是统计文本中"hello"字符串出现的次数 说明: %s/pat ...
 
随机推荐
- day_ha配置文件
			
流程图: 代码 #!/sur/bin/env python # -*- coding: utf-8 -*- #{"backend": "www.oldboy.org&qu ...
 - 做一枚精致的程序猿,Fighting!
			
这几天我和我们的团队正在做一个公司管理系统的项目,团队分工根据成员的水平高低来分工,这样看似公平,但其实不公平,如此这样一来,那些水平稍不如别人的成员就没有发展的机会?那么问题来了,对于水平稍逊色的程 ...
 - 50几个photoshop快捷键
			
一.常用的热键组合 1.图层混合模式快捷键:正常(Shift + Option + N),正片叠底(Shift + Option + M),滤色(Shift + Option + S),叠加(Shif ...
 - java封装FFmpeg命令,支持原生ffmpeg全部命令,实现FFmpeg多进程处理与多线程输出控制(开启、关闭、查询),rtsp/rtmp推流、拉流
			
前言: 之前已经对FFmpeg命令进行了封装http://blog.csdn.net/eguid_1/article/details/51787646,但是当时没有考虑到扩展性,所以总体设计不是太好, ...
 - Vue基础概念,学习环境等
			
前提: 你已有 HTML.CSS 和 JavaScript 中级前端知识. 概念: Vue.js(读音 /vjuː/,类似于 view) 是一套构建用户界面的渐进式框架.与其他重量级框架不同的是,Vu ...
 - map,zip,reduce函数
			
lt=range(5,10) lw=range(8,13) def mul(a,b): return a*b def mul_list(param1,param2): return_list=[] f ...
 - Chapter 9:Noise-Estimation Algorithms
			
作者:桂. 时间:2017-06-14 12:08:57 链接:http://www.cnblogs.com/xingshansi/p/6956556.html 主要是<Speech enha ...
 - python——根据电子表格的数据自动查找文件
			
最近刚接触python,找点小任务来练练手,希望自己在实践中不断的锻炼自己解决问题的能力. 经理最近又布置了一个很繁琐的任务给我:有一项很重大的项目做完了,但是要过审计(反正就是类似的审批之类的事情) ...
 - 深入浅出HTTP协议
			
超文本传输协议(HTTP,HyperText Transfer Protocol)是互联网上应用最为广泛的一种网络协议.所有的WWW文件都必须遵守这个标准.设计HTTP最初的目的是为了提供一种发布和接 ...
 - 如何在phpstorm中安装xdebug调试工具
			
用习惯了Visio Studio的调试工具,如果写个php用phpstorm没有调试工具,觉得还缺点什么.接下来就讲解一下如果安装xdebug,最好发现这个插件真好用! 1.下载xdebug.tar: ...