BASH 正则表达式和文本处理工具

本节内容

1. 什么是正则

2. grep

3. sed

4. awk

5. 其他补充

一什么是正则

正则就是用一些具有特殊含义的符号组合到一起(称为正则表达式)来描述字符或者字符串的方法

或者说：

正则就是用来描述一类事物的规则

生活中处处都是正则：

比如我们描述：4条腿你可能会想到四条腿的动物或者桌子、椅子等

继续描述：4条腿，活的就剩下四条腿的动物这一类了

在Linux中，通配符是由shell解释的，而正则表达式则是由命令解释的

下面我们就为大家介绍三种文本处理工具/命令：

grep, sed, awk，它们三者均可以解释正则

二 grep

grep -选项

'''

-n  显示行号

-o  只显示匹配内容

-q  静默模式，没有任何输出，得用$?来判断成功没有，即有没有过滤到想要的内容

-l  如果匹配成功，则将文件名打印出来，失败则不打印，通常 -rl 一起用 grep -rl 'root /test

-A n  如果匹配成功，则将匹配行及其后n行一起打印出来

-B n  如果匹配成功，则将匹配行及其前n行一起打印出来

-A n  如果匹配成功，则将匹配行及其前后n行一起打印出来

日志分析时会用到

-c  如果匹配成功，则将匹配到的行数打印出来

-E  等于egrep，扩展

-i  忽略大小写

-v  取反，不匹配

-w  匹配单词

'''

grep -n 'root' /etc/passwd

grep -o 'root' /etc/passwd

grep -q 'root' /etc/passwd  && echo $?

grep -l 'root' /etc/passwd

grep -A n  'root' /etc/passwd

grep -B n  'root' /etc/passwd

grep -C n  'root' /etc/passwd

grep -c n  'root' /etc/passwd

grep -i  'ROOT' /etc/passwd

grep -v  'ROOT' /etc/passwd

实例

[root@localhost ~]# cat a.txt

root123

root

123root

root

root_123

[root@localhost ~]# grep -w 'root' a.txt

root

root

[root@localhost ~]#

正则介绍

^ 行首

[root@localhost ~]# grep '^root' test # 匹配以root开始的行
root:x:0:0:root:/root:/bin/bash

$ 行尾

[root@localhost ~]# grep 'bash$' test # 过滤出能登录shell的用户
root:x:0:0:root:/root:/bin/bash

. 除了换行符以外的任意单个字符

[root@localhost ~]# grep '^b.n' test # 以b开头，第二个任意字符，第三个n，开头的行
bin:x:1:1:bin:/bin:/sbin/nologin

* 前导字符的零个或多个

[root@localhost ~]# grep 'ab*' a.txt # 筛选以a开头，b重复零次或多次的行

a
ab
abb
abnb # 包含ab了，所以abnb也输出了

.* 表示所有字符

扩展 egrep

? 前导字符零个或一个

+ 前导字符一个或多个

[root@myname ~]# egrep 'ab+' a.txt
ab
abb
abnb

{n} 前导字符 n个

[root@myname ~]# egrep 'ab{1}' a.txt
ab
abb
abnb

[] 组内的任一字符， . 除了换行符以外的任意单个字符

[^] 对字符组内的每个字符取反(不匹配字符组内的每个字符)

^[^] 非字符组内的字符开头的行

[a-z] 小写字母

[A-Z] 大写字母

[a-Z] 小写和大写字母

[0-9] 数字

注意的一点：如果想要匹配的字符是 - 本身，必须放到最后去[123123\-]

egrep 'compan(y|ies)' a.txt 或

egrep -e 'company' -e 'companies' a.txt 指定多个规则

注意：grep 是匹配到那一行，与匹配到的字符含义不同

例子 ssh有效配置

grep -v '^#' /etc/ssh/sshd_config | grep -v '^# *$'

小结

"""

单个

.除了换行符以外的任意单个字符

[] 组内的任意单个字符

可多个

*     左边的那一个字符有0个到无穷个

+     左边的那一个字符有1个到无穷个

?     左边的那一个字符有0个到1个

{n}   左边的那一个字符有n个

{n,m} 左边的那一个字符有n个到m个

{n,}  左边的那一个字符有n个到无穷个

"""

三 sed

流编辑器 stream editor，是以行为单位的处理程序

语法：

sed [options] 'command' in_file(s)

-n not 静默模式，默认不打印到屏幕上

-e 多个选项

-i insert 直接修改源文件

-f 如，-f pattern.sed 匹配规则从文件读取

command部分

定位执行命令，分为行号定位和正则定位/ /

行号定位：

[root@myname ~]# sed '3d' test # 删除第三行

[root@myname ~]# sed -n '3p' test # 打印第三行
daemon:x:2:2:daemon:/sbin:/sbin/nologin

[root@myname ~]# sed '2c 123' test # 更改第二行为 123
root:x:0:0:root:/root:/bin/bash
123

[root@myname ~]# sed '2i 123' test # 第二行前插入一行

[root@myname ~]# sed '2a 123' test # 第二行后附加一行
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
123

[root@myname ~]# sed '1,3d' test # 删一到三行

[root@myname ~]# sed '1d;3d' test # 删第一和第三行

正则定位 / / ：

[root@myname ~]# sed '/^root/d' test # 删除以root开始的行

常用替换：

s 三个/ / /原则，格式 's/匹配条件/更改后内容/g'

sed 's/sb/SB/' test 匹配到的行只改第一个

sed 's/sb/SB/g' test 匹配到的行都修改

sed '/alex/s/sb/SB/g' test 匹配到alex的行，把所有sb改为SB

扩展sed 必加-r，就相当于只用egrep

sed -r 's/^[0-9]([a-A]{3})/sb/SB/g' test

sed -r 's/(^[a-Z]+)([^a-Z])/\1\2/g' 不指定具体某行时，代表所有行， \1 取第一个()值，\2取第二个()值

实例：

需求第一个单词和第二个单词换换位置，关键是找非单词

sed -r 's/^()()()()/\3\2\1\4/g' test

sed -r 's/^([a-Z]+)([^a-Z]+)([a-Z]+)([^a-Z]+)/\3\2\1\4/g' test

Sed作业：以/etc/passwd文件为模板

1，删除文件每行的第一个字符。

2，删除文件每行的第二个字符。

3，删除文件每行的最后一个字符。

4，删除文件每行的倒数第二个字符。

5，删除文件每行的第二个单词。

6，删除文件每行的倒数第二个单词。

7，删除文件每行的最后一个单词。

8，交换每行的第一个字符和第二个字符。

9，交换每行的第一个字符和第二个单词。

10，交换每行的第一个单词和最后一个单词。

11，删除一个文件中所有的数字。

12，删除每行开头的所有空格。

13，用制表符替换文件中出现的所有空格。

14，把所有大写字母用括号（）括起来。

15，打印每行3次。

16，隔行删除。

17，把文件从第2行到第5行复制到第7行后面。(选做题)

18，把文件从第2行到第5行移动到第7行后面。（选做题）

19，只显示每行的第一个单词。

20，打印每行的第一个单词和第三个单词。

21，将格式为    mm/yy/dd    的日期格式换成   mm；yy；dd

22, a.txt内容

    ABC

    DEF

    XYZ

    通过SED实现tac命令

    tac a.txt

    XYZ

    DEF

    ABC

1. sed -r 's/^(.)(.*)/\2/' /etc/passwd

2. sed -r 's/^(.)(.)(.*)/\1\3/' /etc/passwd

3. sed -r 's/(.*)(.)$/\1/' /etc/passwd

4. sed -r 's/(.*)(.)(.)$/\1\3/' /etc/passwd

5. sed -r 's/^([a-Z]+)([^a-Z]+)([a-Z]+)([^a-Z]+)/\1\2\4/' /etc/passwd

6. sed -r 's/([^a-Z]+)([a-Z]+)([^a-Z]+)([a-Z]+)$/\1\3\4/' /etc/passwd

7. sed -r 's/([^a-Z]+)([a-Z]+)([^a-Z]+)([a-Z]+)$/\1\2\3/' /etc/passwd

8. sed -r 's/^(.)(.*)(.)$/\3\2\1/' /etc/passwd

9. sed -r 's/^(.)([a-Z]+)([^a-Z]+)([a-Z]+)([^a-Z]+)/\4\2\3\1\5/' /etc/passwd

10. sed -r 's/^([a-Z]+)([^a-Z]+)(.*)([^a-Z]+)([a-Z]+)$/\5\2\3\4\1/' /etc/passwd

11. sed -r 's/[0-9]//g' /etc/passwd

12. sed -r 's/^ *//g' /etc/passwd

13. sed -r 's/ /\t/g' /etc/passwd

14. sed -r 's/[A-Z]/(&)/g' /etc/passwd

15. sed 'p;p' /etc/passwd

16. sed '1~2d' /etc/passwd

选做题17-18：文件内容

[root@MiWiFi-R3-srv ~]# cat test

2222222222

4444444444

6666666666

888888888888

17.sed '2h;3,5H;7G' test 

18. sed '2h;3,5H;2,5d;7G' test 

19. sed -r 's/^([a-Z]+)([^a-Z]+)(.*)/\1/' /etc/passwd

20. sed -r 's/^([a-Z]+)([^a-Z]+)([a-Z]+)([^a-Z]+)([a-Z]+)([^a-Z]+)/\5\2\3\4\1\6/' /etc/passwd

21.

22. sed -r '{1h;1d;2G;2h;2d;3G;3h}'

23.

echo "2012/12/11" |sed -r 's/\//:/g'

echo "2012/12/11" |sed -r 's#\/#:#g'

echo "2012/12/11" |sed -r 's@\/@:@g'

sed作业

sed作业

小结：

sed 流编辑器，以行为单位处理文档，可完成匹配条件的行操作，如查找相应行，替换相应字符

四 awk

当文本的结构化特别清晰的时候，可以awk -F切分字符，进行切分，如 awk -F: 'commands' files

awk -F: '$1 == "root"{print $1,NR,NF}' /etc/passwd
awk -F: 'NR>20 || NR<3{print $1,$3,$NF}' /etc/passwd
awk -F: 'NR>1 && NR<3{print $1,NR,NF}' /etc/passwd
awk -F: 'NR>1 && NR<4{print $1,NR,NF}' /etc/passwd
awk -F: '$1~/^r/{print $1,NR,NF}' /etc/passwd
awk -F: '/^root/{print $1,NR,NF}' /etc/passwd

username=root
awk -v var=$username -F: '$1 == var{print $1,NR,NF}' /etc/passwd

语法：

awk [options] 'commands' files

-F 定义分割字符，默认的分割字符是连续的空格或制表符
使用$1, $2, $3等顺序表示files中每行以间隔符号分隔的各列不同域
NF变量表示当前记录的字段数，number of fields
-v 定义变量并赋值也可以借用次方式从shell变量中引入
commands 执行部分用 {}，如awk '{print NR, $1}' test

NR变量定址 NR表示awk读入的行号，number of row

[root@myname ~]# ip_addr=`ifconfig | awk 'NR==2{print $2}'`
[root@myname ~]# echo $ip_addr
192.168.254.141

正则定址/ / '/正则表达式/{print $1}'

[root@myname ~]# awk -F: '/nologin$/{print $1}' test
bin
daemon
adm

五其他补充

[root@myname ~]# cat test | sort | uniq # 排序去重
1111111111111111
2222222222222222
3333333333333333
4444444444444444

[root@myname ~]# cat /etc/passwd |cut -d: -f1 # cut 轻量级切割
root
bin
daemon

[root@myname ~]# find / -size +2M -type f -name \*.txt # 查找

更多信息参考

http://www.cnblogs.com/linhaifeng/p/6596660.html

BASH 正则表达式和文本处理工具的更多相关文章

Shell第二篇：正则表达式和文本处理工具
一什么是正则正则就是用一些具有特殊含义的符号组合到一起(称为正则表达式)来描述字符或者字符串的方法.或者说:正则就是用来描述一类事物的规则. 生活中处处都是正则: 比如我们描述:4条腿 ...
Shell正则表达式和文本处理工具
作业一:整理正则表达式博客一.什么是正则正则就是用一些具有特殊含义的符号组合而成(称为正则表达式)来描述字符或者字符串的方法.或者说:正则就是用来描述一类事物的规则. 通配符是由shell解释得. ...
bash 正则表达式匹配，一行文本中 “包含 ABC” 并且 “不包含 XYZ”
bash 正则表达式匹配,一行文本中 “包含 ABC” 并且 “不包含 XYZ” A文件: XXXX ABC XXX4444444444444444XXXX ABC XXX XYZ6666666 ...
轻松学会文本处理工具之二 linux sed命令
sed命令的语法格式: sed的命令格式: sed [option] 'sed command'filename sed的脚本格式:sed [option] -f 'sed script'fil ...
Linux--shell脚本之文本处理工具
文本处理工具--grep.sed.awk Bash Shell提供了功能强大的文件处理工具:sed(流编辑器stream editor)和awk,都可使用正则表达式进行模式匹配. 而grep又有助于理 ...
文本处理工具（grep）
文本处理工具: Linux上文本处理三剑客: 文本过滤工具(模式:pattern)工具: 1.grep:支持基本正则表达式; 2.egrep: ...
shell：正则表达式和文本处理器
1.什么是正则正则就是用一些具有特殊含义的符号组合到一起(称为正则表达式)来描述字符或者字符串的方法.或者说:正则就是用来描述一类事物的规则. 生活中处处都是正则: 比如我们描述:4条腿你可能会想 ...
Linux的文本处理工具浅谈-awk sed grep
Linux的文本处理工具浅谈 awk 老大 [功能说明] 用于文本处理的语言(取行,过滤),支持正则 NR代表行数,$n取某一列,$NF最后一列 NR==20,NR==30 从20行到30行 FS ...
Linux正则与文本处理工具(10)
正则表达式 (Regular Expression, RE, 或称为常规表达式)是通过一些特殊字符的排列,用于『查找/替换/删除』一行或多行文字或字符串,简单的说,正则表达式就是用在字串的处理上面的一 ...

随机推荐

Permanent Space 和 Heap Space
JVM堆内存 JVM堆内存分为2块:Permanent Space 和 Heap Space. Permanent 即持久代(Permanent Generation),主要存放的是Java类定 ...
Visual Studio资源汇总
Visual Studio 2015:http://tieba.baidu.com/p/3442930798Visual Studio 2013:http://tieba.baidu.com/p/34 ...
Web缓存机制
Web 缓存的出现主要是为了弥补cookie带来的一些局限,当数据严格控制在客户端时,可以不用通过HTTP来持续得将数据发给服务器. 主要使用比较多的就是sessionStorage和localSto ...
pytho学习笔记---编码
编解码 ASCII:1字节,0-255 GBK2313:常用的汉字,2万多个 GBK:对GBK2313的补充,支持藏文,2个字节表示一个汉字 big5:台湾,繁体字 unicode:万国码,2-4字节 ...
lambda group by 的用法
foreach (DynamicObject lstKSItem in lstKSItems) { var entity = lstKSItem["FEntity"] as Dyn ...
Selenium + Chrome headless 报ERROR:gpu_process_transport_factory.cc(1007)] Lost UI shared context 可忽略并配置不输出日志
Selenium不再推荐使用PhantomJS,会报如下警告 UserWarning: Selenium support for PhantomJS has been deprecated, plea ...
Intersect交集Except差集Union并集实例
int[] oldArray = { 1, 2, 3, 4, 5 };int[] newArray = { 2, 4, 5, 7, 8, 9 };var jiaoJi = oldArray.Inter ...
BM递推
从别的大佬处看到的模板 #include<bits/stdc++.h> #define fi first #define se second #define INF 0x3f3f3f3f ...
etcd集群部署与遇到的坑
在k8s集群中使用了etcd作为数据中心,在实际操作中遇到了一些坑.今天记录一下,为了以后更好操作. ETCD参数说明 —data-dir 指定节点的数据存储目录,这些数据包括节点ID,集群ID,集群 ...
m文件转换c代码
parametet.mclc; clear; load('src.mat') CZT_N = ; CZT_M = ; CZT_W = exp(-j*(*pi/)); CZT_A = exp(j**pi ...

BASH 正则表达式和文本处理工具

BASH 正则表达式和文本处理工具的更多相关文章

随机推荐

热门专题