数据预处理中,这部分命令非常有用。

不需要编写代码,直接通过shell脚本通常就能修改文件格式.有时候sed和awk联合几乎能实现所有功能。

管道命令 |

重定向命令>,2>,>>,<,<<

双向重定向命令 tee

其他常见的命令包括:cut,grep,sort,wc,uniq,tee,tr,col,join,paste,expand,split,xargs等

grep查找命令,

sed行处理命令,

awk字段处理命令

cut 提取特定分割符分开的特定列

这几个的差别:

cut用于提取固定分割符号分割的列,grep用于查找符合正则条件的行,sed可以用于删除特定行、在指定行之前插入、删除新行、整行的替换、取出特定行;awk倾向于将一行分成数个字段进行处理,awk 一般也用于提取行中的特定列,比cut的功能更为强大,还可以加入条件判断、计算等功能

head ,tail能可以读取之前之后的那些列

sed -n '8p' test.c 打印第8行

sort 可以对文字、数字等进行排序,结合uniq还可以合并重复项并统计出现次数

wc可以统计一个文件中有多少行,多少字,多少字符

tr可以进行文字的替换或者删除

col可以删除一些奇怪的字符(尤其在windows和linux之间转换的时候)

join或者past能够将两个文件中关联的行贴在一起形成一个新行

expand将[tab]转换为空格

split可以将一个大文件根据存储控件或者行数分割为若干小文键

直接 cat a.txt b.txt>c.txt就可以合并文件

关于sed命令和awk命令(这两个命令几乎可以解决格式规范的文本文件的大多数问题)的详细讲解,可以参照:

http://opkeep.com/system/linux/sed_and-awk.html

正则表达式,

在一些命令,例如grep这样的字符串查找命令中,经常涉及正则表达式。

grep在数据查找时,列出结果是以整行为单位的。然而正则表达式的匹配是每个词内各个字逐个比对。

几个特殊字符:[:alnum:] [:alpha:]  [:blank:]  [:space:]  [:cntrl:]  [:digit:]  [:graph:]  [:lower:]  [:upper:]  [:print:]  [:digit:]  [:punct:]

^和$

^在[]内,标识反向选择利用[^a-zA-Z]代表字母;^[^a-zA-Z]代表该行不以字母开头

$代表该行结束。例如查找空白行:

grep -n '^$' regular_express.txt

如果去除空白行和注释行,可以

grep -v '^$'  filename | grep -v '^#'

.和*

. 代表一个字符。如g..d 可以是 good

* 代表重复前面一个字符0到无穷多次的意思。go*d 可以是gd,god ,good等,如果是goo*d 则至少有一个o

.*代表任意字符

[]代表可选范围

{}代表重复次数,因为{}在shell中有特殊意义,所以需要转意\

‘o\{2\}’ 代表含有两个o的单词

'o\{2,\}'代表含有2个以上的o

'o\{2,5\}’代表含有2-5个o

^word 代表word在行首

word$ 代表word在行尾

找出/etc目录下文件类型为链接文件的文件名

ll /etc | grep '^l'

sed命令是以行为单位,可以进行行的新增,替换,删除,插入,打印等等。可以打印,可以直接修改源文件,也可一进行重定向。(p359)

awk是一个非常棒的数据处理工具,向较于sed经常用于一整行的修改,awk比较倾向于将行拆分为数个字段进行处理(p363)

以上是shell中的正则表达式,如果要在python中使用正则表达式,可以参考这篇博客:

http://blog.csdn.net/pleasecallmewhy/article/details/8929576

这个讲解python实现爬虫的博客也写得很好

正则表达式小结,数据预处理中常用的shell命令的更多相关文章

  1. 安卓日常开发和逆向中常用的shell命令与非shell命令

    简述shell 命令与 非shell命令区别 shell命令不用先adb shell进入界面执行 非shell命令必须要 adb shell进入界面执行 基础非shell命令 1.安装app adb ...

  2. 工作中常用的 Shell 命令及技巧

    调试 bash 脚本的技巧 加 -x 参数运行 bash 脚本时,会显示执行的语句 # 也可以在 demo.sh 中加上 set -x bash -x demo.sh 设置环境变量,然后通过如上方式运 ...

  3. hbase的常用的shell命令&hbase的DDL操作&hbase的DML操作

    前言 笔者在分类中的hbase栏目之前已经分享了hbase的安装以及一些常用的shell命令的使用,这里不仅仅重新复习一下shell命令,还会介绍hbase的DDL以及DML的相关操作. hbase的 ...

  4. Hbase_02、Hbase的常用的shell命令&Hbase的DDL操作&Hbase的DML操作(转)

    阅读目录 前言 一.hbase的shell操作 1.1启动hbase shell 1.2执行hbase shell的帮助文档 1.3退出hbase shell 1.4使用status命令查看hbase ...

  5. 常用的shell命令整理

    工作快一年了,shell命令也玩了一年了.还是有点积累的,下面是本人常用的. 1.pwd | xargs -i basename {}   获取当前所在目录的名称 2.ps -ef|grep -w   ...

  6. 工作中常用的Linux命令:crontab命令

    本文链接:http://www.cnblogs.com/MartinChentf/p/6060252.html (转载请注明出处) crontab是一个用来设置.删除或显示供守护进程cron执行的定时 ...

  7. 工作中常用的Linux命令:ipcs/ipcrm命令

    本文链接:http://www.cnblogs.com/MartinChentf/p/6057100.html (转载请注明出处) ipcs 1. 命令格式 ipcs [resource-option ...

  8. 工作中常用的Linux命令:find命令

    本文链接:http://www.cnblogs.com/MartinChentf/p/6056571.html (转载请注明出处) 1.命令格式 find [-H] [-L] [-P] [-D deb ...

  9. Lua 常用的shell命令

    lua作为一种小巧的脚本语言,其函数等动作可以使用shell命令进行运行和调试,以下是几个常用的shell命令.基本格式是  lua [选项参数] [脚本参数] (1)%lua 程序名.lua     ...

随机推荐

  1. docker之配置TensorFlow的运行环境

    Docker是一种 操作系统层面的虚拟化技术,类似于传统的虚拟机.传统虚拟机技术是虚拟出一套硬件后,在其上运行一个完整操作系统,在该系统上再运行所需应用进程:而容器内的应用进程直接运行于宿主的内核,容 ...

  2. Julia出现错误ERROR: LoadError: syntax: try without catch or finally

    因项目要求进行机器学习数据可视化,要求尝试使用Julia,在此,记录下遇到的坑,仅为记录效果.后续陆续更新. 问题一:关于LightML库中的坑:ERROR: LoadError: syntax: t ...

  3. Linux0.11之初识Makefile/build.c

    前言 Makefile对于从来没有接触过的人来说是相当别扭的(比如我),但它确实又是非常重要的,它描述了一个Image是如何形成的,理解它也许并不能帮我解决实际问题,而且编写Makefile的工作也许 ...

  4. html中设置height=100%无效的问题

    设置height=100%(网页内容能够更好的适配各种屏幕大小) 第一种是设置某个单独的div元素   height=100%无效 原因很简单,所有基于本分比的尺寸必须基于父元素,而你如果没有设置父元 ...

  5. 2019 Multi-University Training Contest 2 - 1011 - Keen On Everything But Triangle - 线段树

    http://acm.hdu.edu.cn/showproblem.php?pid=6601 首先要贪心地想,题目要最长的边长,那么要怎么构造呢?在一段连续的区间里面,一定是拿出最长的三根出来比,这样 ...

  6. asp.net table表格表头及列固定实现

    http://blog.csdn.net/zdw_wym/article/details/48630337 在开发中常会遇到table表格中列特别多,下拉后,表头就看不见了,水平滚动后,第1.2列就看 ...

  7. 攻防世界--when_did_you_born5

    测试文件:https://adworld.xctf.org.cn/media/task/attachments/24937e95ca4744818feebe82ab96902d 1.准备 root@l ...

  8. oracle数据库ID自增长--序列

    什么是序列?在mysql中有一个主键自动增长的id,例如:uid number primary key auto_increment;在oracle中序列就是类似于主键自动增长,两者功能是一样的,只是 ...

  9. [七月挑选]优化hexo目录,使本地图片能显示出来

    title: 优化hexo目录,使本地图片能显示出来 查看了一下从此蜕变作者的Hexo中添加本地图片,提炼了一些能优化本地图片存放及编写是图片查看的问题. 1.修改配置文件_config.yml 里的 ...

  10. MySQl查询语句大全

    综合使用 查询 目录: #----综合使用 书写顺序 select distinct * from '表名' where '限制条件' group by '分组依据' having '过滤条件' or ...