Linux文件排序和FASTA文件操作

文件排序

seq: 产生一系列的数字; man seq查看其具体使用。我们这使用seq产生下游分析所用到的输入文件。

# 产生从1到10的数，步长为1

$ seq 1 10

1

2

3

4

5

6

7

8

9

10

# 产生从1到10的数，步长为1，用空格分割

$ seq -s ' ' 1 10

1 2 3 4 5 6 7 8 9 10

# 产生从1到10的数，步长为2

# 如果有3个数，中间的数为步长，最后一个始终为最大值

$ seq -s ' ' 1 2 10

1 3 5 7 9

$ cat <(seq 0 3 17) <(seq 3 6 18) >test

$ cat test

0

3

6

9

12

15

3

9

15

sort: 排序，默认按字符编码排序。如果想按数字大小排序，需添加-n参数。

# 可能不符合预期的排序，系统首先排0，然后排1, 3, 6, 9

$ sort test

0

12

15

15

3

3

6

9

9

# 按数字大小排序

$ sort -n test

0

3

3

6

9

9

12

15

15

sort -u: 去除重复的行，等同于sort | uniq

$ sort -nu test

0

3

6

9

12

15

sort file | uniq -d: 获得重复的行(d = duplication)

$ sort -n test | uniq -d

3

9

15

sort file | uniq -c: 获得每行重复的次数。

# 第一列为每行出现的次数，第二列为原始的行

$ sort -n test | uniq -c

  1 0

  2 3

  1 6

  2 9

  1 12

  2 15

# 换一个文件看的更清楚

$ cat <<END >test2

> a

> b

> c

> b

> a

> e

> d

> a

> END

# 第一列为每行出现的次数，第二列为原始的行

$ sort test2 | uniq -c

      3 a

      2 b

      1 c

      1 d

      1 e

# 在执行uniq操作前，文件要先排序，不然结果很诡异

$ cat test2 | uniq -c

      1 a

      1 b

      1 c

      1 b

      1 a

      1 e

      1 d

      1 a

整理下uniq -c的结果，使得原始行在前，每行的计数在后。

awk是一个强大的文本处理工具，其处理数据模式为按行处理。每次读入一行，进行操作。OFS: 输出文件的列分隔符 (output file column separtor)；FS为输入文件的列分隔符 (默认为空白字符)。awk中的列从第1到n列，分别记录为$1, $2 … $n。BEGIN表示在文件读取前先设置基本参数；与之相对应的是END，只文件读取完成之后进行操作。不以BEGIN, END开头的{}就是文件读取、处理的部分。

# awk的操作就是镀金上一步的结果，去除多余的空白，然后调换2列

$ sort test2 | uniq -c | awk 'BEGIN{OFS="\t";}{print $2, $1}'

a    3

b    2

c    1

d    1

e    1

对两列文件，安照第二列进行排序, sort -k2,2n。

# 第二列按数值大小排序

$ sort test2 | uniq -c | awk 'BEGIN{OFS="\t";}{print $2, $1}' | sort -k2, 2n

c    1

d    1

e    1

b    2

a    3

# 第二列按数值大小排序

# 第二列相同的再按第一列的字母顺序的逆序排序 (-r)

# 注意看前3行的顺序与上一步结果的差异

$ sort test2 | uniq -c | awk 'BEGIN{OFS="\t";}{print $2,$1}' | sort -k2,2n -k1,1r

e    1

d    1

c    1

b    2

a    3

FASTA序列提取

生成单行序列FASTA文件，提取特定基因的序列，最简单的是使用grep命令。主要用途是匹配文件中的字符串，以此为基础，进行一系列的操作。如果会使用正则表达式，将会非常强大。正则表达式版本很多，几乎每种语言都有自己的规则。

# 生成单行序列FASTA文件

$ cat <<END >test.fasta

> >SOX2

> ACGAGGGACGCATCGGACGACTGCAGGACTGTC

> >POU5F1

> ACGAGGGACGCATCGGACGACTGCAGGACTGTC

> >NANOG

> CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT

> END

$ cat test.fasta

>SOX2

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

>POU5F1

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

>NANOG

CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT

# grep匹配含有SOX2的行

# -A 1 表示输出的行中，包含匹配行的下一行 (A: after)

$ grep -A 1 'SOX2' test.fasta

>SOX2

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

# 先判断当前行是不是 > 开头，如果是，表示是序列名字行，替换掉大于号，取出名字。

# sub 替换, sub(被替换的部分，要替换成的，待替换字符串)

# 如果不以大于号开头，则为序列行，存储起来。

# seq[name]: 相当于建一个字典，name为key，序列为值。然后就可以使用name调取序列。

$ awk 'BEGIN{OFS=FS="\t"}{if($0~/>/) {name=$0; sub(">", "", name);} else seq[name]=$0;}END{print ">SOX2"; print seq["SOX2"]}' test.fasta

>SOX2

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

多行FASTA序列提取要麻烦些，一个办法就是转成单行序列，用上面的方式处理。

sed和tr都为最常用的字符替换工具。

$ cat <<END >test.fasta

> >SOX2

> ACGAGGGACGCATCGGACGACTGCAGGACTGTC

> ACGAGGGACGCATCGGACGACTGCAGGACTGTC

> ACGAGGGACGCATCGGACGACTGCAGGAC

> >POU5F1

> CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT

> CGGAAGGTAGTCGTCAGTGCAGCGAGTCC

> >NANOG

> ACGAGGGACGCATCGGACGACTGCAGGACTGTC

> ACGAGGGACGCATCGGACGACTGCAGG

> ACGAGGGACGCATCGGACGACTGCAGGACTGTC

> ACGAGGGACGCATCGGACGACTGCAGGACTGT

> END

# 给>号开头的行的行尾加个TAB键，以便隔开名字和序列

# TAB键不可见，直接看看不大

# \(\)表示记录匹配的内容，\1则表示()中记录的匹配的内容

# 后面我们专门讲sed

$ sed 's/^\(>.*\)/\1\t/' test.fasta

>SOX2

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

ACGAGGGACGCATCGGACGACTGCAGGAC

>POU5F1

CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT

CGGAAGGTAGTCGTCAGTGCAGCGAGTCC

>NANOG

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

ACGAGGGACGCATCGGACGACTGCAGG

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

ACGAGGGACGCATCGGACGACTGCAGGACTGT

#使用cat -A 可以显示文件中所有的符号

# ^I 表示tab键

# $表示行尾

$ sed 's/^\(>.*\)/\1\t/' test.fasta | cat -A

>SOX2^I$

ACGAGGGACGCATCGGACGACTGCAGGACTGTC$

ACGAGGGACGCATCGGACGACTGCAGGACTGTC$

ACGAGGGACGCATCGGACGACTGCAGGAC$

>POU5F1^I$

CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT$

CGGAAGGTAGTCGTCAGTGCAGCGAGTCC$

>NANOG^I$

ACGAGGGACGCATCGGACGACTGCAGGACTGTC$

ACGAGGGACGCATCGGACGACTGCAGG$

ACGAGGGACGCATCGGACGACTGCAGGACTGTC$

ACGAGGGACGCATCGGACGACTGCAGGACTGT$

# 把所有的换行符替换为空格

# 主意第二个参数，引号内为空格

$ sed 's/^\(>.*\)/\1\t/' test.fasta | tr '\n' ' '

>SOX2     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGAC >POU5F1     CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT CGGAAGGTAGTCGTCAGTGCAGCGAGTCC >NANOG     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGG ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGT 

# 把最后一个空格替换为换行符

$ sed 's/^\(>.*\)/\1\t/' test.fasta | tr '\n' ' ' | sed -e 's/ $/\n/'

>SOX2     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGAC >POU5F1     CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT CGGAAGGTAGTCGTCAGTGCAGCGAGTCC >NANOG     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGG ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGT

# 把  ' >'替换为换行符 注意被替换的是 空格+大于号

# 当连用多个替换命令时，使用-e 隔开

$ sed 's/^\(>.*\)/\1\t/' test.fasta | tr '\n' ' ' | sed -e 's/ $/\n/' -e 's/ >/\n>/g'

>SOX2     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGAC

>POU5F1     CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT CGGAAGGTAGTCGTCAGTGCAGCGAGTCC

>NANOG     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGG ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGT

# 把所有的空格替换掉

$ sed 's/^\(>.*\)/\1\t/' test.fasta | tr '\n' ' ' | sed -e 's/ $/\n/' -e 's/ >/\n>/g' -e 's/ //g'

>SOX2    ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGAC

>POU5F1    CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGTCGGAAGGTAGTCGTCAGTGCAGCGAGTCC

>NANOG    ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGT

# 把TAB键转换为换行符

$ sed 's/^\(>.*\)/\1\t/' test.fasta | tr '\n' ' ' | sed -e 's/ $/\n/' -e 's/ >/\n>/g' -e 's/ //g' -e 's/\t/\n/g'

>SOX2

ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGAC

>POU5F1

CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGTCGGAAGGTAGTCGTCAGTGCAGCGAGTCC

>NANOG

ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGT

或者简单点，直接用前面的awk略微做下修改。

# 差别只在一点

# 对于单行fasta文件，只需要记录一行，seq[name]=$0

# 对于多好fasta文件，需要把每一行序列都加到前面的序列上，seq[name]=seq[name]$0

$ awk 'BEGIN{OFS=FS="\t"}{if($0~/>/) {name=$0; sub(">", "", name);} else seq[name]=seq[name]$0;}END{print ">SOX2"; print seq["SOX2"]}' test.fasta

>SOX2

ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGAC

Linux文件排序和FASTA文件操作的更多相关文章

Linux文件排序工具 sort 命令详解
sort是排序工具,它完美贯彻了Unix哲学:"只做一件事,并做到完美".它的排序功能极强.极完整,只要文件中的数据足够规则,它几乎可以排出所有想要的排序结果,是一个非常优质的工具 ...
linux下文件压缩与解压操作
对于刚刚接触Linux的人来说,一定会给Linux下一大堆各式各样的文件名给搞晕.别个不说,单单就压缩文件为例,我们知道在Windows下最常见的压缩文件就只有两种,一是,zip,另一个是.rap.可 ...
【转发】du命令实现Linux 某个文件夹下的文件按大小排序
1. df -lh 2. du -s /usr/* | sort -rn这是按字节排序 3. du -sh /usr/* | sort -rn这是按兆(M)来排序 4.选出排在前面的10个du -s ...
linux命令（5）文件操作：ls命令、显示文件总个数
一:ls命令是最常用的linux命令了:下面是ls --help里面的用法在提示符下输入ls --help ,屏幕会显示该命令的使用格式及参数信息: 先介绍一下ls命令的主要参数: -a 列出目录下 ...
linux下查找文件、排序、查看文件内容
本文介绍下,在linux系统中,查找文件的命令用法,以及按时间排序找到的目标文件的方法. 1.例如:查找当前目录下所有.ini文件,并按时间排序示例: find ./ -name *.ini ...
[Linux]目录x权限对文件操作的影响
问题我们常使用linux以下命令 cd 进入目录 ls 列出目录中的文件或者直接打开目录中的文件以上操作对于目录权限位的设置来说,是有一定迷惑性的,如表格所示 cd进入该目录 cd进入该目录 ...
每天一个linux命令（文件上传下载文件操作）：【转载】gzip命令
减少文件大小有两个明显的好处,一是可以减少存储空间,二是通过网络传输文件时,可以减少传输的时间.gzip是在Linux系统中经常使用的一个对文件进行压缩和解压缩的命令,既方便又好用.gzip不仅可以用 ...
Linux环境下实现对文件读写操作
---- 今天分享一下在linux系统在实现对文件读写一些基本的操作,在这之前我们要掌握一些基本的技能在Linux环境下.比如查看命令和一个函数的具体用法,就是相当于查手册,在Linux下有一个man ...
Linux awk+uniq+sort 统计文件中某字符串出现次数并排序
https://blog.csdn.net/qq_28766327/article/details/78069989 在服务器开发中,我们经常会写入大量的日志文件.有时候我们需要对这些日志文件进行统计 ...

随机推荐

Trie树（Prefix Tree）介绍
本文用尽量简洁的语言介绍一种树形数据结构 -- Trie树. 一.什么是Trie树 Trie树,又叫字典树.前缀树(Prefix Tree).单词查找树或键树,是一种多叉树结构.如下图: 上图是一 ...
Android 4.4环境搭建——配置AVD模拟器
AVD(Android Virtual Device)即Android模拟器,它是Android官方提供的一个能够执行Android程序的虚拟机,在执行Android程序之前,首先须要创建AVD模拟器 ...
我在CSDN开通博客啦！
今天,我最终在CSDN开通博客啦!
mysql链接及备份
服务器数据库命令:mysql -usparks -pi6K1yRWUQVaIR79Z5vG1 -hrm-bp13z51p96xdax6i0.mysql.rds.aliyuncs.com 服务器数据库备 ...
MySQL-子查询，派生表，通用表达式
MySQL-子查询 MySQL子查询是嵌套在另一个查询中的查询. MySQL子查询还可以嵌套在另一个子查询中. MySQL子查询称为内部查询,而包含子查询的查询称为外部查询. 查询返回在位于美国(US ...
CSS总结01
1 CSS 的作用是? 2 如何引入 CSS 样式? 3 CSS 选择器的基本类型和复合选择器分别是? 4 字体.背景.列表和链接和鼠标的属性有哪些? 5 如何理解盒子模型? 6 浮动的方式有哪些,如 ...
如何配置MYSQL的MASTER---SLAVE复制备份？
如何配置MYSQL的MASTER---SLAVE复制备份? 一.配置一个mysql服务器做master: 在配置文件my.ini中添加如下内容: log-bin=matster-binlog- ...
洛谷 P1570【NOIP2013】花匠
题目描述花匠栋栋种了一排花,每株花都有自己的高度.花儿越长越大,也越来越挤.栋栋决定把这排中的一部分花移走,将剩下的留在原地,使得剩下的花能有空间长大,同时,栋栋希望剩下的花排列得比较别致. 具 ...
vue实例以及生命周期
1.Vue实例API 1.构造器(实例化) var vm = new Vue({ //选项 |-------DOM(3) | |-------el (提供一个在页面上已存在的 DOM 元素作为 V ...
Spring MVC标签<mvc: annotation-driven />小结原
转自:https://my.oschina.net/u/1156626/blog/881483 mvc:annotation-driven的作用 Spring 3.0.x中使用了mvc:annotat ...

Linux文件排序和FASTA文件操作

Linux文件排序和FASTA文件操作的更多相关文章

随机推荐

热门专题