shell 文本单词计数
words.txt中的内容如下:
the day is sunny the the
the sunny is is
统计每个单词出现的次数,并降序输出。
Unix Pipes脚本如下:
cat words.txt | tr -s ' ' '\n' | sort | uniq -c | sort -r | awk '{print $2, $1}'
脚本解释:
tr -s ' ' '\n' 表示:连续出现的空格只保留一个,并在空格处以换行符分割文本
sort 表示:对输出文本进行排序
uniq -c 表示:对连续出现的重复的行进行计数
sort -r 表示:对输出文本进行降序排序
awk '{print $2, $1}'
表示:打印出文本的第二列和第一列
最终输出结果如下:
the
is
sunny
day
shell 文本单词计数的更多相关文章
- MapReduce之单词计数
		
最近在看google那篇经典的MapReduce论文,中文版可以参考孟岩推荐的 mapreduce 中文版 中文翻译 论文中提到,MapReduce的编程模型就是: 计算利用一个输入key/value ...
 - 大数据【四】MapReduce(单词计数;二次排序;计数器;join;分布式缓存)
		
前言: 根据前面的几篇博客学习,现在可以进行MapReduce学习了.本篇博客首先阐述了MapReduce的概念及使用原理,其次直接从五个实验中实践学习(单词计数,二次排序,计数器,join,分 ...
 - Linux shell文本处理工具
		
搞定Linux Shell文本处理工具,看完这篇集锦就够了 Linux Shell是一种基本功,由于怪异的语法加之较差的可读性,通常被Python等脚本代替.既然是基本功,那就需要掌握,毕竟学习She ...
 - 【Storm】storm安装、配置、使用以及Storm单词计数程序的实例分析
		
前言:阅读笔记 storm和hadoop集群非常像.hadoop执行mr.storm执行topologies. mr和topologies最关键的不同点是:mr执行终于会结束,而topologies永 ...
 - 使用Scala实现Java项目的单词计数:串行及Actor版本
		
其实我想找一门“具有Python的简洁写法和融合Java平台的优势, 同时又足够有挑战性和灵活性”的编程语言. Scala 就是一个不错的选择. Scala 有很多语言特性, 建议先掌握基础常用的: ...
 - Linux - 常见Shell文本处理方法
		
Common Shell Text Processing 珠玉在前,不再赘言. Linux Shell 文本处理工具集锦:http://blog.jobbole.com/99063/ 数据工程师常用的 ...
 - [js开源组件开发]js文本框计数组件
		
js文本框计数组件 先上效果图: 样式可以自行调整 ,它的功能提供文本框的实时计数,并作出对应的操作,比如现在超出了,点击下面的按钮后,文本框会闪动两下,阻止提交.具体例子可以点击demo:http: ...
 - 自定义实现InputFormat、OutputFormat、输出到多个文件目录中去、hadoop1.x api写单词计数的例子、运行时接收命令行参数,代码例子
		
一:自定义实现InputFormat *数据源来自于内存 *1.InputFormat是用于处理各种数据源的,下面是实现InputFormat,数据源是来自于内存. *1.1 在程序的job.setI ...
 - Storm实现单词计数
		
package com.mengyao.storm; import java.io.File; import java.io.IOException; import java.util.Collect ...
 
随机推荐
- 使用Typescript重构axios(十五)——默认配置
			
0. 系列文章 1.使用Typescript重构axios(一)--写在最前面 2.使用Typescript重构axios(二)--项目起手,跑通流程 3.使用Typescript重构axios(三) ...
 - maven配置nexus私有仓库
			
<?xml version="1.0" encoding="UTF-8"?> <settings xmlns="http://mav ...
 - Python 基础 装饰器
			
今天把学过的装饰器的知识进行回顾一下,说到装饰器,第一反应就是这个东西呢就是用来装逼的,为啥这样说呢,是应为没有这个东西照样可以干活,大部分工作都是可以做的,不管咋样还是把学过的装逼器梳理一下吧. 一 ...
 - Groovy单元测试框架spock基础功能Demo
			
spock是一款全能型的单元测试框架. 最近在做单元测试框架的调研和尝试,目前确定的方案框架包括是:spock,Junit,Mockito以及powermock.由于本身使用Groovy的原因,比较钟 ...
 - T-SQL, Part II: IMAGE/TEXT Insert
			
To insert data to IMAGE/TEXT (both keywords are recommend to replace with nvarbinary(MAX)/nvarchar(M ...
 - Unity - Cinemachine实现相机抖动
			
普通相机抖动脚本较易实现,但在使用cinemachine相机下,其Transform组件不可被代码改变,那么Cinemachine的相机抖动如何实现呢?本文结合实际项目,对实现相机抖动的三大步骤进行系 ...
 - nyoj 97-兄弟郊游问题(数学)
			
97-兄弟郊游问题 内存限制:64MB 时间限制:3000ms 特判: No 通过数:18 提交数:32 难度:2 题目描述: 兄弟俩骑车郊游,弟弟先出发,每分钟X米,M分钟后,哥哥带一条狗出发.以每 ...
 - ubunit 16 安装pip
			
pip是一个用来安装和管理python包的工具.已经内置到python2.7.9和python3.4及其以上的版本里. python2.7执行: sudo apt-get install python ...
 - Excel的常用函数
			
1.查找重复内容=IF(COUNTIF(A:A,A2)>1,"重复","") 2.重复内容首次出现时不提示=IF(COUNTIF(A$2:A2,A2)&g ...
 - windows 10 上源码编译OpenCV并支持CUDA | compile opencv with CUDA support on windows 10
			
本文首发于个人博客https://kezunlin.me/post/6580691f/,欢迎阅读! compile opencv with CUDA support on windows 10 Ser ...