1 cut是以每一行为一个处理对象的,这种机制和sed是一样的。(关于sed的入门文章将在近期发布)

2 cut一般以什么为依据呢? 也就是说,我怎么告诉cut我想定位到的剪切内容呢?

cut命令主要是接受三个定位方法:

第一,字节(bytes),用选项-b

第二,字符(characters),用选项-c

第三,域(fields),用选项-f

3 以“字节”定位,给个最简单的例子?

举个例子吧,当你执行ps命令时,会输出类似如下的内容:

[rocrocket@rocrocket programming]$ who

rocrocket :0 2009-01-08 11:07

rocrocket pts/0 2009-01-08 11:23 (:0.0)

rocrocket pts/1 2009-01-08 14:15 (:0.0)

如果我们想提取每一行的第3个字节,就这样:

[rocrocket@rocrocket programming]$ who|cut -b 3

c

c

c

看明白了吧,-b后面可以设定要提取哪一个字节,其实-b和3之间没有空格也是可以的,但推荐有空格:)

4 如果“字节”定位中,我想提取第3,第4、第5和第8个字节,怎么办?

-b支持形如3-5的写法,而且多个定位之间用逗号隔开就成了。看看例子吧:

[rocrocket@rocrocket programming]$ who|cut -b 3-5,8

croe

croe

croe

但有一点要注意,cut命令如果使用了-b选项,那么执行此命令时,cut会先把-b后面所有的定位进行从小到大排序,然后再提取。可不能颠倒定位的顺序哦。这个例子就可以说明这个问题:

[rocrocket@rocrocket programming]$ who|cut -b 8,3-5

croe

croe

croe

5 还有哪些类似“3-5”这样的小技巧,列举一下吧!

[rocrocket@rocrocket programming]$ who

rocrocket :0 2009-01-08 11:07

rocrocket pts/0 2009-01-08 11:23 (:0.0)

rocrocket pts/1 2009-01-08 14:15 (:0.0)

[rocrocket@rocrocket programming]$ who|cut -b -3

roc

roc

roc

[rocrocket@rocrocket programming]$ who|cut -b 3-

crocket :0 2009-01-08 11:07

crocket pts/0 2009-01-08 11:23 (:0.0)

crocket pts/1 2009-01-08 14:15 (:0.0)

想必你也看到了,-3表示从第一个字节到第三个字节,而3-表示从第三个字节到行尾。如果你细心,你可以看到这两种情况下,都包括了第三个字节“c”。

如果我执行who|cut -b -3,3-,你觉得会如何呢?答案是输出整行,不会出现连续两个重叠的c的。看:

[rocrocket@rocrocket programming]$ who|cut -b -3,3-

rocrocket :0 2009-01-08 11:07

rocrocket pts/0 2009-01-08 11:23 (:0.0)

rocrocket pts/1 2009-01-08 14:15 (:0.0)

6 给个以字符为定位标志的最简单的例子吧!

下面例子你似曾相识,提取第3,第4,第5和第8个字符:

[rocrocket@rocrocket programming]$ who|cut -c 3-5,8

croe

croe

croe

不过,看着怎么和-b没有什么区别啊?莫非-b和-c作用一样? 其实不然,看似相同,只是因为这个例子举的不好,who输出的都是单字节字符,所以用-b和-c没有区别,如果你提取中文,区别就看出来了,来,看看中文提取的情况:

[rocrocket@rocrocket programming]$ cat cut_ch.txt

星期一

星期二

星期三

星期四

[rocrocket@rocrocket programming]$ cut -b 3 cut_ch.txt









[rocrocket@rocrocket programming]$ cut -c 3 cut_ch.txt







看到了吧,用-c则会以字符为单位,输出正常;而-b只会傻傻的以字节(8位二进制位)来计算,输出就是乱码。

既然提到了这个知识点,就再补充一句,如果你学有余力,就提高一下。

当遇到多字节字符时,可以使用-n选项,-n用于告诉cut不要将多字节字符拆开。例子如下:

[rocrocket@rocrocket programming]$ cat cut_ch.txt |cut -b 2









[rocrocket@rocrocket programming]$ cat cut_ch.txt |cut -nb 2



[rocrocket@rocrocket programming]$ cat cut_ch.txt |cut -nb 1,2,3







6 域是怎么回事呢?解释解释:)

为什么会有“域”的提取呢,因为刚才提到的-b和-c只能在固定格式的文档中提取信息,而对于非固定格式的信息则束手无策。这时候“域”就派上用场了。

(下面的讲解内容是在假设你对/etc/passwd文件的内容和组织形式比较了解的情况下进行的。)

如果你观察过/etc/passwd文件,你会发现,它并不像who的输出信息那样具有固定格式,而是比较零散的排放。但是,冒号在这个文件的每一行中都起到了非常重要的作用,冒号用来隔开每一个项。

我们很幸运,cut命令提供了这样的提取方式,具体的说就是设置“间隔符”,再设置“提取第几个域”,就OK了!

以/etc/passwd的前五行内容为例:

[rocrocket@rocrocket programming]$ cat /etc/passwd|head -n 5

root:x:0:0:root:/root:/bin/bash

bin:x:1:1:bin:/bin:/sbin/nologin

daemon:x:2:2:daemon:/sbin:/sbin/nologin

adm:x:3:4:adm:/var/adm:/sbin/nologin

lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin

[rocrocket@rocrocket programming]$ cat /etc/passwd|head -n 5|cut -d : -f 1

root

bin

daemon

adm

lp

看到了吧,用-d来设置间隔符为冒号,然后用-f来设置我要取的是第一个域,再按回车,所有的用户名就都列出来了!呵呵 有成就感吧!

当然,在设定-f时,也可以使用例如3-5或者4-类似的格式:

[rocrocket@rocrocket programming]$ cat /etc/passwd|head -n 5|cut -d : -f 1,3-5

root:0:0:root

bin:1:1:bin

daemon:2:2:daemon

adm:3:4:adm

lp:4:7:lp

[rocrocket@rocrocket programming]$ cat /etc/passwd|head -n 5|cut -d : -f 1,3-5,7

root:0:0:root:/bin/bash

bin:1:1:bin:/sbin/nologin

daemon:2:2:daemon:/sbin/nologin

adm:3:4:adm:/sbin/nologin

lp:4:7:lp:/sbin/nologin

[rocrocket@rocrocket programming]$ cat /etc/passwd|head -n 5|cut -d : -f -2

root:x

bin:x

daemon:x

adm:x

lp:x

7 如果遇到空格和制表符时,怎么分辨呢?我觉得有点乱,怎么办?

有时候制表符确实很难辨认,有一个方法可以看出一段空格到底是由若干个空格组成的还是由一个制表符组成的。

[rocrocket@rocrocket programming]$ cat tab_space.txt

this is tab finish.

this is several space finish.

[rocrocket@rocrocket programming]$ sed -n l tab_space.txt

this is tab\tfinish.$

this is several space finish.$

看到了吧,如果是制表符(TAB),那么会显示为\t符号,如果是空格,就会原样显示。

通过此方法即可以判断制表符和空格了。

注意,上面sed -n后面的字符是L的小写字母哦,不要看错。(字母l、数字1还有或运算|真是难分辨啊…,看来这三个比制表符还难分辨…)

8 我应该在cut -d中用什么符号来设定制表符或空格呢?

悄悄的告诉你,cut的-d选项的默认间隔符就是制表符,所以当你就是要使用制表符的时候,完全就可以省略-d选项,而直接用-f来取域就可以了!放心,相信我!

如果你设定一个空格为间隔符,那么就这样:

[rocrocket@rocrocket programming]$ cat tab_space.txt |cut -d ' ' -f 1

this

this

注意,两个单引号之间可确实要有一个空格哦,不能偷懒。

而且,你只能在-d后面设置一个空格,可不许设置多个空格,因为cut只允许间隔符是一个字符。

[rocrocket@rocrocket programming]$ cat tab_space.txt |cut -d ' ' -f 1

cut: the delimiter must be a single character

Try `cut --help' for more information.

9 我想将ps和cut命令配合使用时,怎么总是在最后两行出现重复现象?

这个问题的具体描述是如下这样的。

当cut和ps配合时:

[rocrocket@rocrocket programming]$ ps

PID TTY TIME CMD

2977 pts/0 00:00:00 bash

5032 pts/0 00:00:00 ps

[rocrocket@rocrocket programming]$ ps|cut -b3

P

9

0

0

看,最后的0重复了两次!!而且,我也试过ps ef或ps aux均有此问题。

而当ps和其他命令配合时,均无此问题,例如cut和who配合则正常:

[rocrocket@rocrocket programming]$ who

rocrocket :0 2009-01-08 11:07

rocrocket pts/0 2009-01-08 11:23 (:0.0)

rocrocket pts/1 2009-01-08 14:15 (:0.0)

[rocrocket@rocrocket programming]$ who|cut -b3

c

c

c

这个看似怪异的令我百思不得其解的问题,得到了sunway的解答,在此非常感谢他。我发问的原帖地址在[此处]。

其实这个问题是这样的,ps|cut会自身创建一个进程,所以当ps时也会提取出这个进程,然后通过管道输出到cut,所以cut截取后,就多出了一行,之所以会重复上一行内容,是由于我们恰巧取到了和上一行内容相同的字符而已。

你测试下执行ps和ps|cat就知道原因了!:)

10 cut有哪些缺陷和不足?

猜出来了吧?对,就是在处理多空格时。

如果文件里面的某些域是由若干个空格来间隔的,那么用cut就有点麻烦了,因为cut只擅长处理“以一个字符间隔”的文本内容

在shell中遇到字符串问题,首先考虑的是grep ,sed ,awk , cut

不先讲这几个命令了,先来看一下字符串截取中用简单方法就能做到的事情 ${}

(1)shell中的单引号比双引号的区别:单引号关闭所有有特殊作用的字符,而双引号只要求shell忽略大多数,具体的说,就是①美元符号②反引号③反斜杠,这3种特殊字符不被忽略

(2)求字符串长度 ----- (1)expr $x:‘.*’(2)${#x}

(3)求字符串子串 ----- ${x:$pos:$len},其中$pos位置,$len长度,其中$len可省略

(4)字符串替换 ----- ${x/a/b} 用b替换a ; ${x//a/b}用b替换所有的a

(5)字符串首尾截取----- ${x##*/}去掉所有/左边的字符,也可用其它匹配代替*/ ${x#*/}只去掉第一次出现/左边所有的字符。顺序为从左到右.${x%%/*}去掉所有/右边的字符,${x%/*}去掉第一次出现/右边的字符,顺序为从右到左.

eg,

#!/bin/bash

y=kdjfkd:dfkdjfkd:8888:9899899:kdjfkdfj

q=`echo $y | cut -d":" -f4` //以:截取,取第四个字段即9899899

m=${q##*8} //去掉所有8左边的字符

echo $m

n=${q#*8} //去掉第一个8左边的字符

echo $n

result:99

99899

(6)Shell数组定义 a=(1 2 3 4),不能有空格,比如a =(1 2 3 4)和a=(1 2 3 4)都是不允许的。

(7)数组长度: ${#a[@]}或者 ${#a[*]} ;全部数组 ${a[@]}或{$a[*]}返回1 2 3 4

(8)数组元素的长度 ${#a[i]},i为下标,和其它语言一样,从0开始,数组元素${a[i]}

(9)awk默认使用空格作为域分隔符,

"+"和"?"只适用awk而不适用sed和grep

awk条件操作符:<,<=,>=,==,!=,~,!~

awk字符串处理函数:gsub(r,s),gsub(r,s,t),index(s,t)等

awk自定义环境变量:FILENAME,FNR,FS,NF,NR等

awk -F : '{print $1}' /etc/passwd 打印第一列的值, $0 打印全部的值

awk -F : 'BEGIN {print "name passwd\n-----------------"} {print $1"\t"$5}'END
{print "End of file"}' /etc/passwd 输出增加头尾

awk '{if($0~/root/) print $0}' /etc/passwd输出匹配"root"的行,等价于awk
'$0~/root/' /etc/passwd

(10)无论命令是什么?sed并不与初始化文件打交道,它操作的只是文件的一个拷贝。如果不重定向到一个文件,直接在标准输出(显示屏)显示。

搜索替换是sed的拿手好戏。

sed -n '1,$p' /etc/passwd 打印从1到最后一行的所有内容

sed -e '/root/=' /etc/passwd打印出现"root"的行号和所有行

sed -n '/root/=' /etc/passwd只打印行号

sed -n -e '/root/p' /etc/passwd 只打印出现"root"的匹配行

sed -n -e '/root/p' -e '/root/=' /etc/passwd 打印匹配行和行号

sed 's/^M//g' /etc/passwd 删除行尾控制字符(^M)= ctrl+v+m

sed 's/^0*//g' /etc/passwd 删除行首的多个零

(11)grep 一般用来搜索字段或字串,sed用来搜索或者替换,awk可以进行复杂的运算和定制操作

(12)先不要管Shell的版本,来看看Shell 变量,在Shell中有三种变量:系统变量,环境变量,用户变量

系统变量:

$# 传递到脚本的参数个数;

$$脚本运行的当前进程id;

$?最后命令的退出状态,0表成功;

$!上一个命令的PID ;

$@ 以"参数1" "参数2" ... 形式保存所有参数 ;

$* 以"参数1 参数2 ... " 形式保存所有参数 ;$0表示脚本名称

用户变量:用set命令查看

环境变量:用setenv查看

(13)不同的shell版本有不同数组赋值方法,而bourne shell (如bash)中不支持数组方式。

(14)查看目录或者文件,符号链接:ls -l | grep '^d' 或者 ls -l | grep '^-',ls -l | grep '^l'

(15)查看最后一列的指:ls -l | grep '^l' | awk '{print $NF}' (默认以空格分隔),在awk中,NF表示字段数,$NF表示最后一个字段

0
0

一篇详细的linux中shell语言的字符串处理的更多相关文章

  1. 浅谈linux中shell变量$#,$@,$0,$1,$2,$?的含义解释

    浅谈linux中shell变量$#,$@,$0,$1,$2,$?的含义解释 下面小编就为大家带来一篇浅谈linux中shell变量$#,$@,$0,$1,$2的含义解释.小编觉得挺不错的,现在就分享给 ...

  2. linux中shell变量$#,$@,$0,$1,$2的含义解释

    linux中shell变量$#,$@,$0,$1,$2的含义解释: 变量说明: $$ Shell本身的PID(ProcessID) $! Shell最后运行的后台Process的PID $? 最后运行 ...

  3. linux中shell变量$#,$@,$0,$1,$2的含义解释

    linux中shell变量$#,$@,$0,$1,$2的含义解释 linux中shell变量$#,$@,$0,$1,$2的含义解释:  变量说明:  $$  Shell本身的PID(ProcessID ...

  4. Linux中Shell

    Linux中Shell Shell是什么 ​ Shell是一个命令行解释器,为用户提供了一个向Linux内核发送请求以便运行程序的界面系统级程序,可以用Shell来启动.挂起.停止.编写一些程序. S ...

  5. Linux中shell变量$0,$?等含义

    linux中shell变量$#,$@,$0,$1,$2的基本含义: 变量说明: $$ Shell本身的PID(ProcessID) $! Shell最后运行的后台Process的PID $? 最后运行 ...

  6. 【转】linux中shell变量$#,$@,$0,$1,$2的含义解释

    原文网址:http://www.cnblogs.com/fhefh/archive/2011/04/15/2017613.html linux中shell变量$#,$@,$0,$1,$2的含义解释: ...

  7. 【Shell】linux中shell变量$#,$@,$0,$1,$2的含义解释 && set 关键字使用

    linux中shell变量$#,$@,$0,$1,$2的含义解释   摘抄自:ABS_GUIDE 下载地址:http://www.tldp.org/LDP/abs/abs-guide.pdf linu ...

  8. linux中shell变量$#,$@,$0,$1,$2的含义

    linux中shell变量$#,$@,$0,$1,$2的含义解释: 变量说明: $$ Shell本身的PID(ProcessID) $! Shell最后运行的后台Process的PID $? 最后运行 ...

  9. linux中shell变量$#,$@,$0,$1,$2

    linux中shell变量$#,$@,$0,$1,$2的含义解释: 变量说明: $$ Shell本身的PID(ProcessID) $! Shell最后运行的后台Process的PID $? 最后运行 ...

随机推荐

  1. oo第二阶段总结

    第五次作业--多线程电梯 一.设计策略 本次作业是我们第一次接触多线程,给程序添加多线程功能后最大的挑战是实现共享数据的安全.避免冲突,由于这次作业是第一次尝试多线程方法,因此采用了将所有方法都加上s ...

  2. Bootstrap3 表格-紧缩表格

    通过添加 .table-condensed 类可以让表格更加紧凑,单元格中的内补(padding)均会减半. <table class="table table-condensed&q ...

  3. 无法启动postgresql的错误

    chown postgres /etc/ssl/private/ssl-cert-snakeoil.key chgrp postgres /etc/ssl/private/ssl-cert-snake ...

  4. Redis之(一)初识Redis

    1.Redis概述 我们知道,内存是电脑主板上的存储部件,用于存储当前正在使用的数据和程序,CPU可以与内存直接沟通,所以访问速速非常高:而外存数据必须加载到内存以后程序才能使用.如果把CPU当做一个 ...

  5. Nagle算法

    简介 Nagle算法是以他的发明人John Nagle的名字命名的,它用于自动连接许多的小缓冲器消息:这一过程(称为nagling)通过减少必须发送包的个数来增加网络软件系统的效率.Nagle算法于1 ...

  6. 手把手图文并茂教你发布Android开源库

    转载请把头部出处链接和尾部二维码一起转载,本文出自逆流的鱼,文章链接: http://blog.csdn.net/hejjunlin/article/details/52452220 经常逛githu ...

  7. Springmvc注解注入的简单demo

    今天看了注解注入觉得确实简化了xml配置,一般情况下Spring容器要成功启动的三大要件分别是:Bean定义信息,Bean实现类,以及spring本身.如果采取基于XML的配置,Bean信息和Bean ...

  8. Android平移动画

    Android平移动画 核心方法 public void startAnimation(Animation animation) 执行动画,参数可以是各种动画的对象,Animation的多态,也可以是 ...

  9. 【IOS 开发】Objective - C 面向对象高级特性 - 包装类 | 类处理 | 类别 | 扩展 | 协议 | 委托 | 异常处理 | 反射

    一. Objective-C 对象简单处理 1. 包装类 (1) 包装类简介 NSValue 和 NSNumber : -- 通用包装类 NSValue : NSValue 包装单个 short, i ...

  10. 使用Swift开发一个MacOS的菜单状态栏App

    猴子原创,欢迎转载.转载请注明: 转载自Cocos2Der-CSDN,谢谢! 原文地址: http://blog.csdn.net/cocos2der/article/details/52054107 ...