shell统计文本中单词的出现次数

Ubuntu14.04

给定一个文本，统计其中单词出现的次数

方法1

# solution 1

grep与awk配合使用，写成一个sh脚本 fre.sh

sh fre.sh wordfretest.txt

#! /bin/bash# solution 1
 ]
then
echo "Usage:$0 args error"
exit
fi
 ]
then
echo "analyse the first file $1"
fi

#get the first file
filename=$
grep -E -o "\b[[:alpha:]]+\b" $filename | awk ' { count[$0]++ }
END{printf("%-20s%s\n","Word","Count");
for(word in count)
{printf("%-20s%s\n",word,count[word])}
}'

###########################

# 先判断输入是否正确，如果输入大于1个文件，用第一个文件

# 用grep把单词提取出来，用awk来统计这些单词；最后打印出来

###########################

补充说明：

参数说明：

-eq:等于
-ne:不等于
-le:小于等于
-ge:大于等于
-lt:小于
-gt：大于

\b backspace printf参数

awk说明

awk由内容和动作组成；awk pattern {action}

pattern可以是

BEGIN; END; expression; expression , expression;

可以执行 for ( var in array ) statement

1.BEGIN模块：这个模块包括了一个操作块（也就是"{ }"内的内容）。该操作块是在文件输入之前执行的，

也就是不需要输入任何文件数据，也能执行该模块。

BEGIN模块常用于设置修改内置变量如（OFS，RS，FS等），为用户自定义的变量赋初始值或者打印标题信息等。

BEGIN模块中的语句操作以“；”标志或者分行隔开。

eg： awk 'BEGIN{print "Hello World! Begin doing!"}' #输出字符串

2. END模块：与BEGIN模块相反，是处理完文件后的操作。不匹配任何输入行，常用于输出一些总结信息。

匹配表达式：

[[:alpha:]] 代表字母
[[:alnum:]] 代表字母与数字字符
[a-zA-Z0-9]代表单个字母和数字字符

grep -E "\b[[:alpha:]]+\b" move.sh
匹配到 move.sh 中所有的单词
grep -E -o "\b[[:alpha:]]+\b" move.sh
把匹配到的单词每行1个打印出来
"\b[[:alpha:]]+\b"
能匹配到整个单词

方法2

假设 words.txt 是目标文件，只用一行代码

# solution 2

awk -F' ' '{for(i=1;i<=NF;i=i+1){print $i}}' words.txt |sort|uniq -c|sort -nr|awk -F' ' '{printf("%s %s\n",$2,$1)}'

通常，awk逐行处理文本。awk每接收文件的一行，然后执行相应的命令来处理。
用legal文件来做示例

$ cat /etc/legal
The programs included with the Ubuntu system are free software;
the exact distribution terms for each program are described in the
individual files in /usr/share/doc/*/copyright.
Ubuntu comes with ABSOLUTELY NO WARRANTY, to the extent permitted by
applicable law.

# 搜索统计单词“law”的个数
$ awk -F : '/law/{count++} END{print "the count is ",count}' /etc/legal
the count is
# 统计单词“the”的个数
$ awk -F : '/the/{count++} END{print "the count is ",count}' /etc/legal
the count is

找到指定单词，自定义变量count自增，最后输出语句和count值
命令sort，把各行按首字母排列顺序重新排列起来
sort -nr，每行都以数字开头，按数字从达到小，排列各行
uniq -c，统计各行出现的次数，并把次数打印在每行前端
awk参数 NF - 浏览记录的域的个数
综合起来，命令就是

awk -F' ' '{for(i=1;i<=NF;i=i+1){print $i}}' /etc/legal |
sort|uniq -c|sort -nr|awk -F' ' '{printf("%s %s\n",$2,$1)}'

最后的awk调换了单词和数字的位置
统计 /etc/legal 中单词出现次数，并以“单词次数”格式输出结果

shell统计文本中单词的出现次数的更多相关文章

Spark——统计文本中单词出现的次数
示例一:统计所有单词出现的次数 1.在本地创建文件并上传到hdfs中 #vin data.txt //将文件上传到hadoop的根目录下 #hdfs dfs -put data.txt / 2.在sp ...
java统计文本中单词出现的个数
package com.java_Test; import java.io.File; import java.util.HashMap; import java.util.Iterator; imp ...
Linux统计文件中单词出现的次数
grep -E "\b[[:alpha:]]+\b" /etc/fstab -o | sort | uniq -c 或 awk '{for(i=1;i<NF;i++){c ...
Python 统计文本中单词的个数
1.读文件,通过正则匹配 def statisticWord(): line_number = 0 words_dict = {} with open (r'D:\test\test.txt',enc ...
python统计文本中每个单词出现的次数
.python统计文本中每个单词出现的次数: #coding=utf-8 __author__ = 'zcg' import collections import os with open('abc. ...
N个任务掌握java系列之统计一篇文章中单词出现的次数
问题:统计一篇文章中单词出现的次数思路: (1)将文章(一个字符串存储)按空格进行拆分(split)后,存储到一个字符串(单词)数组中. (2)定义一个Map,key是字符串类型,保存单词:valu ...
C#统计给定的文本中字符出现的次数，使用循环和递归两种方法
前几天看了一个.net程序员面试题目,题目是”统计给定的文本中字符出现的次数,使用循环和递归两种方法“. 下面是我对这个题目的解法: 1.使用循环: /// <summary> /// 使 ...
Python的 counter内置函数，统计文本中的单词数量
counter是 colletions内的一个类可以理解为一个简单的计数 import collections str1=['a','a','b','d'] m=collections.Counte ...
Linux统计文本中某个字符串出现的次数
常用的有如下两种方式: 1.VIM 用vim打开文件,然后输入: :%s/hello//gn 如下图: 图中的例子就是统计文本中"hello"字符串出现的次数说明: %s/pat ...

随机推荐

手把手教你用Eclipse+TestNG搭建接口自动化测试框架
转载于:http://qa.blog.163.com/blog/static/190147002201510275306185/ 把群博里关于接口自动化的文章都看了一遍,都是关于测试过程中遇到的问题及 ...
《物联网框架ServerSuperIO教程》-20.网络通讯控制器分组，提高交互的负载平衡能力。v3.6.6 版本发布
20.1 概述 ServerSuperIO原来在网络通讯模式下,只有一个网络控制器,在自控模式.并发模式和单例模式下时都是异步处理返回的数据,并不会出现性能问题.但是在轮询模式下,一个网络控制 ...
SpringBoot学习helloworld
这几天开始学习springBoot记录一下(Hello World) pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0 ...
事件总线（Event Bus）知多少
源码路径:Github-EventBus 简书同步链接 1. 引言事件总线这个概念对你来说可能很陌生,但提到观察者(发布-订阅)模式,你也许就很熟悉.事件总线是对发布-订阅模式的一种实现.它是一种集 ...
java 1.8 动态代理源码分析
JDK8动态代理源码分析动态代理的基本使用就不详细介绍了: 例子: class proxyed implements pro{ @Override public void text() { Syst ...
放大镜原生js
<!DOCTYPE html><html><head> <title></title> <style type="text/ ...
Cordova各个插件使用介绍系列（一）—$cordovaSms发送短信
详情链接地址:http://www.ncloud.hk/%E6%8A%80%E6%9C%AF%E5%88%86%E4%BA%AB/cordova-1-cordovasms/ 这是调用手机发送短信的插件 ...
v9更换域名
网站在发展的过程中,很可能多次的修改域名.那么在PHPCMS V9中我们要怎么进行设置呢? 请进行以下步骤的修改: 修改/caches/configs/system.php里面所有和域名有关的,把以前 ...
ecshop循环计数
循环依次递增+1  {$smarty.foreach.comment. ...
Visual Studio 2017 for Mac 体验之Android.Form
微软官方说明: Visual Studio 2017 for Mac Last Update: 2017/6/16 我们非常荣幸地宣布 Visual Studio 2017 for Mac 现已推出. ...

shell统计文本中单词的出现次数

shell统计文本中单词的出现次数的更多相关文章

随机推荐

热门专题