grep、cut、awk、sed 常常应用在查找日志、数据、输出结果等等,并对我们想要的数据进行提取。
通常grep,sed命令是对行进行提取,cut跟awk是对列进行提取

处理海量数据之grep命令

grep应用场景:

通常对数据进行 行的提取

语法:

grep [选项]...[内容]...[file]

-v #对内容进行取反提取

-n #对提取的内容显示行号(原文件中对应行号)

-w #精确匹配

-i #忽略大小写

^ #匹配开头行首

-E #正则匹配

系统文件进行实例演示:

1. 提取是区分大小写的提取

2. -v 提取上述以外的内容

-w  全字符匹配

-i

^ 开头

-E  正则

处理海量数据之cut命令

cut应用场景:

通常对数据进行列的提取

语法:

cut [选项]...[file]

-d #指定分割符
-f #指定截取区域
-c #以字符为单位进行分割

注意:不加-d选项,默认为制表符,不是空格

仍然以系统文件为实例

-d与-f:
eg:

以':'为分隔符,截取出/etc/passwd的第一列跟第三列
cut -d ':' -f 1,3 /etc/passwd

eg:

以':'为分隔符,截取出/etc/passwd的第一列到第三列
cut -d ':' -f 1-3 /etc/passwd

eg:

以':'为分隔符,截取出/etc/passwd的第二列到最后一列
cut -d ':' -f 2- /etc/passwd

-c:
eg:

截取/etc/passwd文件从第二个字符到第九个字符

cut -c 2-9 /etc/passwd

eg:

截取linux上面所有可登陆普通用户

/bin/bash #代表可以登录的用户
        /sbin/nologin #代表不可以登录的用户

grep '/bin/bash' /etc/passwd | cut -d ':' -f 1 | grep -v root

cut -d ':' -f 1--------第一列代表所有用户

-v #对内容进行取反提取

处理海量数据之awk命令

awk的简介:

其实一门编程语言,支持条件判断,数组,循环等功能,与grep,sed被称为  linux三剑客

awk的应用场景:

通常对数据进行  列的提取           先执行条件再执行动作

语法:
awk '条件 {执行动作}'文件名

awk '条件1 {执行动作} 条件2 {执行动作} ...' 文件名

或awk [选项] '条件1 {执行动作} 条件2 {执行动作} ...' 文件名

特殊要点与举例说明:
printf #格式化输出,不会自动换行。
( %ns:字符串型,n代表有多少个字符;
     %ni:整型,n代表输出几个数字;
     %.nf:浮点型,n代表的是小数点后有多少个小数)

print #打印出内容,默认会自动换行

\t #制表符(tab键 )
\n #换行符

eg:

注意:%s 是字符串  %i 是整形

df -h  磁盘空间分区使用率

df -h |grep /dev/vda1 | awk '{printf "/dev/vda1的使用率是:"} {print $5 }'

与之前传参不同: $1 #代表第一列   $2 #代表第二列   $0 #代表一整行

%.nf:浮点型,n代表的是小数点后有多少个小数    \n换行

小数:echo "scale=2; 0.13 + 0.1" | bc | awk '{printf "%.2f\n", $0}'

-F #指定分割符
eg:cat /etc/passwd | awk -F":" '{print $1}'

以:为分隔符打印出第一列

另一种方式

BEGIN     #在读取所有行内容前就开始执行,常常被用于修改内置变量的值
FS           #BEGIN时定义分割符

eg:cat /etc/passwd | awk 'BEGIN {FS=":"} {print $1}'

END #结束的时候 执行   (在最后的时刻才会执行)

NR #行号

eg:df -h | awk 'NR==2 {print $5}'

打印多行:

打印行数

处理海量数据之sed命令

sed的应用场景:(只更改输出  不会对源文件进行操作)

主要对数据进行处理(选取,新增,替换,删除,搜索)

sed语法:

sed [选项] [动作] 文件名

常见的选项与参数:

-n   #把匹配到的行输出打印到屏幕
p    #以行为单位进行查询,通常与-n一起使用

eg:

df -h | sed -n '2p'

d #删除  (只是打印的内容看不见  并不是对原文件删除)
eg:

sed '2d' df.txt

源文件保留

a #在行的下面插入新的内容
eg: sed '2a 1234567890' df.txt

i #在行的上面插入新的内容
eg: sed '2i 1234567890' df.txt

c #替换
eg: sed '2c 1234567890' df.txt

s/要被取代的内容/新的字符串/g #指定内容进行替换

-i #对源文件进行修改(高危操作,慎用,用之前需要备份源文件)

修改 不打印

搜索:(同grep)

在文件中搜索内容   '/100%/p'
eg:

cat -n df.txt | sed -n '/100%/p'

-e #表示可以执行多条动作    (注意)
eg:

cat -n df.txt | sed -n -e 's/100%/100%-----100%/g' -e '/100%-----100%/p'

处理海量数据的grep、cut、awk、sed 命令的更多相关文章

  1. 无法绕开的cut, awk, sed命令

    linux命令的选项和选项后面的值的方式: 如果用 短选项, 选项值就放在短选项的后面, 如果用长选项, 值就用等于的方式. 最重要的是, 短选项后面的值, 跟短选项之间, 可以用空格, 也可以紧接着 ...

  2. awk sed 命令

    awk awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大. 简单来说awk就是把文件逐行的读入,以 空格或TAB 为默认分隔符 将每行 ...

  3. Linux进阶命令-sort、uniq、 cut、sed、grep、find、awk

    命令难度总体来说有简入难,参数都是工作中常常用到的.如果涉及到一些生僻的参数还请百度或man一下. sort(参考学习网站:http://www.cnblogs.com/dong008259/arch ...

  4. Linux高级命令-sort、uniq、 cut、sed、grep、find、awk

    sort(参考学习网站:http://www.cnblogs.com/dong008259/archive/2011/12/08/2281214.html) 功能:根据不同的数据类型进行排序 格式:s ...

  5. 获取文本中你须要的字段的 几个命令 grep awk cut tr sed

    1,grep 2,awk 3,cut 4,tr 5,sed 实例1 获取本地IP地址 /sbin/ifconfig -a|grep inet|grep -v 127.0.0.1|grep -v ine ...

  6. Linux查找命令:grep,awk,sed

    grep grep (global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具 ...

  7. [Shell]字符截取命令:cut, printf, awk, sed

    ------------------------------------------------------------------------------------------- [cut命令] ...

  8. Linux中的高级文本处理命令,cut命令,sed命令,awk命令

    1.2.1 cut命令 cut命令可以从一个文本文件或者文本流中提取文本列. cut语法 [root@www ~]# cut -d'分隔字符' -f fields    ## 用于有特定分隔字符 [r ...

  9. Linux进阶之正则,shell三剑客(grep,awk,sed),cut,sort,uniq

    一.正则表达式:Regular Expression 正则表达式:正则表达式使用单个字符串来描述.匹配一系列符合某个句法规则的字符串.在很多文本编辑器里,正则表达式通常被用来检索.替换那些符合某个模式 ...

随机推荐

  1. K-消亡的质数-(简单数学)

    https://ac.nowcoder.com/acm/contest/3346/K 题意:判断一个素数p是不是某两个数的立方差. 刚看到这道题一时半会都没有什么思路,看了题解恍然大悟,太久没碰数学或 ...

  2. 突然看到原来除了jar包还有war包啊?????

    先来说说区别: 首先,jar包呢,是一个压缩文件,可以由很多文件压缩而成,,简单来说就是,jar包是别人写好的一些类,然后对这些类 进行打包,这就是jar包,你可以直接用这些  jar包,使用里面的类 ...

  3. Codeforces Round #596 (Div. 2, based on Technocup 2020 Elimination Round 2) C. p-binary 水题

    C. p-binary Vasya will fancy any number as long as it is an integer power of two. Petya, on the othe ...

  4. MySQL实战45讲学习笔记:第三十五讲

    一.本节概述 在上一篇文章中,我和你介绍了 join 语句的两种算法,分别是 Index Nested-LoopJoin(NLJ) 和 Block Nested-Loop Join(BNL). 我们发 ...

  5. Paper | Residual Dense Network for Image Super-Resolution

    目录 Residual dense block & network 和DenseNet的不同 摘要和结论 发表在2018年CVPR. 摘要和结论都在强调方法的优势.我们还是先从RDN的结构看起 ...

  6. Sharding-JDBC:查询量大如何优化?

    主人公小王入职了一家刚起步的创业公司,公司正在研发一款App.为了快速开发出能够投入市场进行宣传的版本,小王可是天天加班到很晚,忙了一段时间后终于把第一个版本赶出来了. 初期功能不多,表也不多,用的M ...

  7. Asp.Net Core AsyncLocal 异步上下文

    引子 阅读以下代码,并尝试分析 代码解析 在主线程中,线程Id为1,为线程变量赋值 变量==d6ff 开启一个新的task,此时线程Id为4,变量==d6ff,并调用Task1 开启一个同步Task3 ...

  8. checkbox如何判断是否选中

    checkbox在项目中使用的比较多,好多时候需要判断,或者作为某些逻辑的依据. 总结一下,拿到checkbox状态的方法. <label for="checkbox"> ...

  9. [开源]OSharpNS 步步为营系列 - 4. 添加业务对外API

    什么是OSharp OSharpNS全称OSharp Framework with .NetStandard2.0,是一个基于.NetStandard2.0开发的一个.NetCore快速开发框架.这个 ...

  10. ​LeetCode 26:删除排序数组中的重复项 Remove Duplicates from Sorted Array

    给定一个排序数组,你需要在原地删除重复出现的元素,使得每个元素只出现一次,返回移除后数组的新长度. 不要使用额外的数组空间,你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成. Give ...