几个文本处理工具的简单使用(wc,cut,sort,uniq,diff和patch)
wc
wc命令用于报告文本文件的一些统计计数,例如行数、单词数、字节数等。
语法如下。
wc [OPTION]... [FILE]...
wc [OPTION]... --files0-from=F
--files0-from=F:这个选项几乎没见过有人使用,我也看不懂,因此就忽略掉了。
默认情况下显示3个计数,从左往右分别是行数、单词数和字节数。
[root@C7 ~]# wc /etc/passwd
/etc/passwd
如果被统计的文件数大于1,那么还会显示一行总计。
[root@C7 ~]# wc /etc/passwd /etc/init.d/functions
/etc/passwd
/etc/init.d/functions
total
可以通过选项控制,单独显示这3个计数。
-l, --lines:显示行数。
[root@C7 ~]# wc -l /etc/passwd
/etc/passwd
-w, --words:显示单词数。
[root@C7 ~]# wc -w /etc/passwd
/etc/passwd
-c, --bytes:显示字节数。
[root@C7 ~]# wc -c /etc/passwd
/etc/passwd
还可以显示一些另外的计数。
-m, --chars:显示字符数。
[root@C7 ~]# wc -m /etc/passwd
/etc/passwd
-L, --max-line-length:显示文件中最长的行的长度。
[root@C7 ~]# wc -L /etc/passwd
/etc/passwd
cut
从一个文本文件中,截取我们所需要的部分进行显示,一般是用于有固定的分隔符的文本文件,例如/etc/passwd这种以“:”作为分隔符的文件。
cut的默认分隔符是TAB。
语法如下。
cut OPTION... [FILE]...
我们创建一个测试文件cut.txt,第一行以TAB分隔,第二行以一个空格分隔,第三行分别以一个空格、两个空格和三个空格分隔。
[root@C7 ~]# cat -A cut.txt
a^Ilong^Idi^Idi$
a long di di$
a long di di$
在“cat -A”的输出中,“^I”表示TAB,“$”表示换行符。
-f, --fields=LIST:指定要截取每一行中第几个字段的数据。
这里的LIST,可以是单独的某个字段,也可以是连续的字段范围,也可以是离散的字段,如下所示。
# cut -f FILE
# cut -f ,, FILE
# cut -f - FILE
# cut -f ,-, FILE
# cut -f - FILE:从第2个字段到行尾。
# cut -f - FILE:从行首到第2个字段。
LIST也可用于后面的-b和-c选项。
然后我们尝试对cut.txt取第二个字段。
[root@C7 ~]# cut -f cut.txt
long
a long di di
a long di di
我们发现,第一行以TAB为分隔符的行取出的字段是正确的,另外2个字段是整行都取出来了。
这是因为默认情况下不包含分隔符的行会被整行打印,如果想避免这种情况可以使用-s选项。
-s, --only-delimited:只打印那些包含分隔符的行。
[root@C7 ~]# cut -sf cut.txt
long
这里有一点需要注意,使用短选项的时候,-f后面必须跟着数字,如果跟其他选项就会报错。
[root@C7 ~]# cut -fs cut.txt
cut: invalid byte, character or field list
-d, --delimiter=DELIM:指定分隔符,而不使用默认的TAB,这个选项很有用,许多文件的默认分隔符都不是TAB。
[root@C7 ~]# head -n /etc/passwd | cut -d : -f
/bin/bash
/sbin/nologin
/sbin/nologin
-b, --bytes=LIST:只取多少个字节数的数据。
-c, --characters=LIST:只取多少个字符数的数据。
当取的数据是数字和字母的时候,这两个选项的结果一般是相同的。
[root@C7 ~]# echo "alongdidi" | cut -b -
alon
[root@C7 ~]# echo "alongdidi" | cut -c -
alon
--output-delimiter=STRING:设置输出时候的分隔符,默认是采用和输入文件相同的分隔符。
[root@C7 ~]# grep -E "^(root|zwl)" /etc/passwd | cut -d : -f ,
root:/bin/bash
zwl:/bin/bash
[root@C7 ~]# grep -E "^(root|zwl)" /etc/passwd | cut -d : -f , --output-delimiter "'s shell ="
root's shell =/bin/bash
zwl's shell =/bin/bash
sort
sort用于将文件排序后显示。
语法如下。
sort [OPTION]... [FILE]...
sort [OPTION]... --files0-from=F
sort的排序可以针对多个文件,一起排序后显示。
[root@C7 ~]# cat sort1.txt
aaa
ccc
bbb
[root@C7 ~]# cat sort2.txt
eee
fff
ddd
[root@C7 ~]# sort sort1.txt
aaa
bbb
ccc
[root@C7 ~]# sort sort1.txt sort2.txt
aaa
bbb
ccc
ddd
eee
fff
sort的默认排序方式,是先比较第一个字符,如果一样,则再比较第二个字符。以此类推。
数字的排序方式是0~9,字母的排序方式是a~z。
如果字母相同只是大小写不同的话,那么小写排在大写的前面,例如a排在A的前面。
[root@C7 ~]# cat sort.txt
aaa
DDD
fff
AAA
bbb
BBB
eee
CCC [root@C7 ~]# sort sort.txt aaa
AAA
bbb
BBB
CCC
DDD
eee
fff
-r, --reverse:sort默认是有小到大排序,该选项则用于反向排序。
[root@C7 ~]# sort sort.txt [root@C7 ~]# sort -r sort.txt
-n, --numeric-sort:基于数值排序。由于sort默认的排序机制导致sort没办法将数字按照数值大小准确排序,需要加上该选项方可实现。
[root@C7 ~]# sort sort.txt [root@C7 ~]# sort -n sort.txt
-t, --field-separator=SEP:指定字段分隔符。
-k, --key=KEYDEF:指定排序依据的字段。
二者结合可以使得sort在排序某个文件的时候根据每行固定的字段来排序。例如根据UID排序/etc/passwd。
[root@C7 ~]# head -n /etc/passwd | sort -t : -k -n
root:x:::root:/root:/bin/bash
bin:x:::bin:/bin:/sbin/nologin
daemon:x:::daemon:/sbin:/sbin/nologin
adm:x:::adm:/var/adm:/sbin/nologin
lp:x:::lp:/var/spool/lpd:/sbin/nologin
-f, --ignore-case:忽略大小写排序,原理是sort内部会将小写字母转换成大写字母来排序。
-u, --unique:使得重复的行只出现一次,结合-f选项的话,只会保留一种大写/小写的情况。
[root@C7 ~]# sort sort.txt
aaa
aaa
AAA
bbb
bbb
BBB
ddd
jjj
ooo
[root@C7 ~]# sort -uf sort.txt
aaa
BBB
ddd
jjj
ooo
uniq
uniq用于报告或者忽略掉重复的行。但是只会将相邻的重复行移除掉,而不是将整个文本中重复的行移除掉。
[root@C7 ~]# cut -d : -f /etc/passwd
/bin/bash
/sbin/nologin
-- 多个重复 --
/sbin/nologin
/bin/sync
/sbin/shutdown
/sbin/halt
/sbin/nologin
-- 多个重复 --
/sbin/nologin
/bin/bash
-- 多个重复 --
/bin/bash
/sbin/nologin
[root@C7 ~]# cut -d : -f /etc/passwd | uniq
/bin/bash
/sbin/nologin
/bin/sync
/sbin/shutdown
/sbin/halt
/sbin/nologin
/bin/bash
/sbin/nologin
这可能不是我们所要的结果,一般我们会先使用sort排序一下,再使用uniq移除相邻的重复行。这样子就可以实现删除文本中重复的行的功能。
[root@C7 ~]# cut -d : -f /etc/passwd | sort | uniq
/bin/bash
/bin/sync
/sbin/halt
/sbin/nologin
/sbin/shutdown
-c, --count:uniq区别于“sort -u”的主要一点在于它还可以统计重复的行所出现的次数。
[root@C7 ~]# cut -d : -f /etc/passwd | sort | uniq -c
/bin/bash
/bin/sync
/sbin/halt
/sbin/nologin
/sbin/shutdown
-d, --repeated:只显示有重复的行。
[root@C7 ~]# cut -d : -f /etc/passwd | sort | uniq -cd
/bin/bash
/sbin/nologin
-u, --unique:也可以只打印不重复的行。
[root@C7 ~]# cut -d : -f /etc/passwd | sort | uniq -u
/bin/sync
/sbin/halt
/sbin/shutdown
diff和patch
diff用于对比两个文本文件的区别,对比的结果本质上是一个补丁文件,可以让patch用来对文件打补丁。
首先我们先看两个文本文件的内容。
[root@C7 ~]# cat -n old_file.txt
today
is
thursday
!!!
[root@C7 ~]# cat -n new_file.txt
today
is
not
thursday
!?!?
接下来看diff的默认比对结果。
[root@C7 ~]# diff old_file.txt new_file.txt
2a3
> not
4c5
< !!!
---
> !?!?
这个结果其实就是描述了被对比的两个文件之间的区别,只不过这个描述我们人类比较难以理解,将这个描述重定向至文本文件,那么该文件就成为一个补丁文件了。
[root@C7 ~]# diff old_file.txt new_file.txt > patch.txt
当我们拥有old_file.txt和补丁文件patch.txt的时候,我们就可以通过patch命令打补丁将old_file.txt变成(“升级”)new_file.txt。
[root@C7 ~]# patch -i patch.txt old_file.txt
patching file old_file.txt
[root@C7 ~]# cat old_file.txt
today
is
not
thursday
!?!?
如果想使得old_file.txt变回打补丁前的样子,可以在使用patch命令的时候,加上-R选项,打反向补丁。
[root@C7 ~]# patch -Ri patch.txt old_file.txt
patching file old_file.txt
[root@C7 ~]# cat old_file.txt
today
is
thursday
!!!
几个文本处理工具的简单使用(wc,cut,sort,uniq,diff和patch)的更多相关文章
- 文本分析工具awk简单示例
先创建一个文件:vim hi 取第2个字段和第3个字段: awk '{print $2,$3}' hi 注意{}中的,逗号会在输出的时候转变为空格 加入字符说明: 显示整行: 指定字段分隔符: ...
- cut sort uniq wc 一 文本处理工具
cut cut是一个选取命令,就是将一段数据经过分析,取出我们想要的. 一般来说,选取信息通常是针对"行"来进行分析的,并不是整篇信息分析的. -c : 以字符为单位进行分割. c ...
- 四、IO重定向和管道以及基本文本处理工具
一.三种IO设备 程序:数据+指令 或 数据结构+算法程序必须能够读入输入然后经过加工来产生结果,其接受的输入可以是变量.数组.列表.文件等等,生产出来的结果可以使变量.数组.列表.文件等等.即:程序 ...
- shell脚本基础和grep文本处理工具企业应用4
文本处理工具: egrep: 支持扩展的正则表达式实现类似于grep文本过滤功能:grep -E egrep [OPTIONS] PATTERN [FILE...] ...
- 【Linux】【Shell】【text】文本处理工具
文本查看及处理工具:wc, cut, sort, uniq, diff, patch wc:word count wc [OPTION]... [FILE]... -l: lines -w:words ...
- 文本处理工具(cut,sort,tr,grep等)
命令目录,查看某一个命令可点击直接跳转: 文件查看 cat tac rev more less 按行截取 head tail 转化内容 tr 按列操作 cut paste 分析文本 wc sort u ...
- Pyp 替代sed,awk的文本处理工具
Linux上文本处理工具虽不少,像cut,tr,join,split,paste,sort,uniq,sed,awk这些经典工具让人眼花缭乱,而且都太老了,使用方法都不太人性化,尤其awk,语法简直反 ...
- 三大文本处理工具grep、sed及awk的简单介绍
grep.sed和awk都是文本处理工具,虽然都是文本处理工具单却都有各自的优缺点,一种文本处理命令是不能被另一个完全替换的,否则也不会出现三个文本处理命令了.只不过,相比较而言,sed和awk功能更 ...
- 使用Linux的命令行工具做简单的文本分析
Basic Text Analysis with Command Line Tools in Linux | William J Turkel 这篇文章非常清楚的介绍了如何使用Linux的命令行工具进 ...
随机推荐
- A - The Water Bowls POJ - 3185 (bfs||高斯消元)
题目链接:https://vjudge.net/contest/276374#problem/A 题目大意:给你20个杯子,每一次操作,假设当前是对第i个位置进行操作,那么第i个位置,第i+1个位置, ...
- python 入门基础24 元类、单例模式
内容目录: 一.元类 二.单例模式 一.元类 1 什么是元类: 源自一句话:在python中,一切皆对象,而对象都是由类实例化得到的 class OldboyTeacher: def __init__ ...
- numpy 中 shape_base提供的tile方法
tile函数 来自于numpy.lib.shape_base 功能:重复某个数组. 比如说tile(A, n), 功能是将数组A重复n次,构成一个新的数组(行数只有1个) 比如说tile(A, n, ...
- 【转】Python之文件与目录操作(os、zipfile、tarfile、shutil)
[转]Python之文件与目录操作(os.zipfile.tarfile.shutil) Python中可以用于对文件和目录进行操作的内置模块包括: 模块/函数名称 功能描述 open()函数 文件读 ...
- python令牌桶算法
import time class TokenBucket(object): # rate是令牌发放速度,capacity是桶的大小 def __init__(self, rate, capacity ...
- Windows CreateFont:创建自己的字体
原文地址:http://blog.csdn.net/softn/article/details/51718347 前面无论是使用文本输出函数还是 static 控件,字体都是默认的,比较丑陋,我们完全 ...
- centos7 Firewalld操作集合
=============================================== 2019/4/15_第1次修改 ccb_warlock == ...
- python读取两个csv文件数据,进行查找匹配出现次数
现有需求 表1 表2 需要拿表1中的编码去表2中的门票编码列匹配,统计出现的次数,由于表2编码列是区域间,而且列不是固定的,代码如下 #encoding:utf-8 ##导入两个CSV进行比对 imp ...
- HTTP协议 (1)
HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议. HTT ...
- zoj3469 区间dp好题
/* 按坐标排序 以餐厅为起点向两边扩展区间 dp[i][j][0]表示送完区间[i,j]的饭后停留在左边的代价 dp[i][j][1]表示送完区间[i,j]的饭后停留在右边的代价 */ #inclu ...