Linux文件排序和FASTA文件操作

文件排序

seq: 产生一系列的数字; man seq查看其具体使用。我们这使用seq产生下游分析所用到的输入文件。

# 产生从1到10的数，步长为1

$ seq 1 10

1

2

3

4

5

6

7

8

9

10

# 产生从1到10的数，步长为1，用空格分割

$ seq -s ' ' 1 10

1 2 3 4 5 6 7 8 9 10

# 产生从1到10的数，步长为2

# 如果有3个数，中间的数为步长，最后一个始终为最大值

$ seq -s ' ' 1 2 10

1 3 5 7 9

$ cat <(seq 0 3 17) <(seq 3 6 18) >test

$ cat test

0

3

6

9

12

15

3

9

15

sort: 排序，默认按字符编码排序。如果想按数字大小排序，需添加-n参数。

# 可能不符合预期的排序，系统首先排0，然后排1, 3, 6, 9

$ sort test

0

12

15

15

3

3

6

9

9

# 按数字大小排序

$ sort -n test

0

3

3

6

9

9

12

15

15

sort -u: 去除重复的行，等同于sort | uniq

$ sort -nu test

0

3

6

9

12

15

sort file | uniq -d: 获得重复的行(d = duplication)

$ sort -n test | uniq -d

3

9

15

sort file | uniq -c: 获得每行重复的次数。

# 第一列为每行出现的次数，第二列为原始的行

$ sort -n test | uniq -c

  1 0

  2 3

  1 6

  2 9

  1 12

  2 15

# 换一个文件看的更清楚

$ cat <<END >test2

> a

> b

> c

> b

> a

> e

> d

> a

> END

# 第一列为每行出现的次数，第二列为原始的行

$ sort test2 | uniq -c

      3 a

      2 b

      1 c

      1 d

      1 e

# 在执行uniq操作前，文件要先排序，不然结果很诡异

$ cat test2 | uniq -c

      1 a

      1 b

      1 c

      1 b

      1 a

      1 e

      1 d

      1 a

整理下uniq -c的结果，使得原始行在前，每行的计数在后。

awk是一个强大的文本处理工具，其处理数据模式为按行处理。每次读入一行，进行操作。OFS: 输出文件的列分隔符 (output file column separtor)；FS为输入文件的列分隔符 (默认为空白字符)。awk中的列从第1到n列，分别记录为$1, $2 … $n。BEGIN表示在文件读取前先设置基本参数；与之相对应的是END，只文件读取完成之后进行操作。不以BEGIN, END开头的{}就是文件读取、处理的部分。

# awk的操作就是镀金上一步的结果，去除多余的空白，然后调换2列

$ sort test2 | uniq -c | awk 'BEGIN{OFS="\t";}{print $2, $1}'

a    3

b    2

c    1

d    1

e    1

对两列文件，安照第二列进行排序, sort -k2,2n。

# 第二列按数值大小排序

$ sort test2 | uniq -c | awk 'BEGIN{OFS="\t";}{print $2, $1}' | sort -k2, 2n

c    1

d    1

e    1

b    2

a    3

# 第二列按数值大小排序

# 第二列相同的再按第一列的字母顺序的逆序排序 (-r)

# 注意看前3行的顺序与上一步结果的差异

$ sort test2 | uniq -c | awk 'BEGIN{OFS="\t";}{print $2,$1}' | sort -k2,2n -k1,1r

e    1

d    1

c    1

b    2

a    3

FASTA序列提取

生成单行序列FASTA文件，提取特定基因的序列，最简单的是使用grep命令。主要用途是匹配文件中的字符串，以此为基础，进行一系列的操作。如果会使用正则表达式，将会非常强大。正则表达式版本很多，几乎每种语言都有自己的规则。

# 生成单行序列FASTA文件

$ cat <<END >test.fasta

> >SOX2

> ACGAGGGACGCATCGGACGACTGCAGGACTGTC

> >POU5F1

> ACGAGGGACGCATCGGACGACTGCAGGACTGTC

> >NANOG

> CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT

> END

$ cat test.fasta

>SOX2

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

>POU5F1

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

>NANOG

CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT

# grep匹配含有SOX2的行

# -A 1 表示输出的行中，包含匹配行的下一行 (A: after)

$ grep -A 1 'SOX2' test.fasta

>SOX2

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

# 先判断当前行是不是 > 开头，如果是，表示是序列名字行，替换掉大于号，取出名字。

# sub 替换, sub(被替换的部分，要替换成的，待替换字符串)

# 如果不以大于号开头，则为序列行，存储起来。

# seq[name]: 相当于建一个字典，name为key，序列为值。然后就可以使用name调取序列。

$ awk 'BEGIN{OFS=FS="\t"}{if($0~/>/) {name=$0; sub(">", "", name);} else seq[name]=$0;}END{print ">SOX2"; print seq["SOX2"]}' test.fasta

>SOX2

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

多行FASTA序列提取要麻烦些，一个办法就是转成单行序列，用上面的方式处理。

sed和tr都为最常用的字符替换工具。

$ cat <<END >test.fasta

> >SOX2

> ACGAGGGACGCATCGGACGACTGCAGGACTGTC

> ACGAGGGACGCATCGGACGACTGCAGGACTGTC

> ACGAGGGACGCATCGGACGACTGCAGGAC

> >POU5F1

> CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT

> CGGAAGGTAGTCGTCAGTGCAGCGAGTCC

> >NANOG

> ACGAGGGACGCATCGGACGACTGCAGGACTGTC

> ACGAGGGACGCATCGGACGACTGCAGG

> ACGAGGGACGCATCGGACGACTGCAGGACTGTC

> ACGAGGGACGCATCGGACGACTGCAGGACTGT

> END

# 给>号开头的行的行尾加个TAB键，以便隔开名字和序列

# TAB键不可见，直接看看不大

# \(\)表示记录匹配的内容，\1则表示()中记录的匹配的内容

# 后面我们专门讲sed

$ sed 's/^\(>.*\)/\1\t/' test.fasta

>SOX2

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

ACGAGGGACGCATCGGACGACTGCAGGAC

>POU5F1

CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT

CGGAAGGTAGTCGTCAGTGCAGCGAGTCC

>NANOG

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

ACGAGGGACGCATCGGACGACTGCAGG

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

ACGAGGGACGCATCGGACGACTGCAGGACTGT

#使用cat -A 可以显示文件中所有的符号

# ^I 表示tab键

# $表示行尾

$ sed 's/^\(>.*\)/\1\t/' test.fasta | cat -A

>SOX2^I$

ACGAGGGACGCATCGGACGACTGCAGGACTGTC$

ACGAGGGACGCATCGGACGACTGCAGGACTGTC$

ACGAGGGACGCATCGGACGACTGCAGGAC$

>POU5F1^I$

CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT$

CGGAAGGTAGTCGTCAGTGCAGCGAGTCC$

>NANOG^I$

ACGAGGGACGCATCGGACGACTGCAGGACTGTC$

ACGAGGGACGCATCGGACGACTGCAGG$

ACGAGGGACGCATCGGACGACTGCAGGACTGTC$

ACGAGGGACGCATCGGACGACTGCAGGACTGT$

# 把所有的换行符替换为空格

# 主意第二个参数，引号内为空格

$ sed 's/^\(>.*\)/\1\t/' test.fasta | tr '\n' ' '

>SOX2     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGAC >POU5F1     CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT CGGAAGGTAGTCGTCAGTGCAGCGAGTCC >NANOG     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGG ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGT 

# 把最后一个空格替换为换行符

$ sed 's/^\(>.*\)/\1\t/' test.fasta | tr '\n' ' ' | sed -e 's/ $/\n/'

>SOX2     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGAC >POU5F1     CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT CGGAAGGTAGTCGTCAGTGCAGCGAGTCC >NANOG     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGG ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGT

# 把  ' >'替换为换行符 注意被替换的是 空格+大于号

# 当连用多个替换命令时，使用-e 隔开

$ sed 's/^\(>.*\)/\1\t/' test.fasta | tr '\n' ' ' | sed -e 's/ $/\n/' -e 's/ >/\n>/g'

>SOX2     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGAC

>POU5F1     CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT CGGAAGGTAGTCGTCAGTGCAGCGAGTCC

>NANOG     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGG ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGT

# 把所有的空格替换掉

$ sed 's/^\(>.*\)/\1\t/' test.fasta | tr '\n' ' ' | sed -e 's/ $/\n/' -e 's/ >/\n>/g' -e 's/ //g'

>SOX2    ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGAC

>POU5F1    CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGTCGGAAGGTAGTCGTCAGTGCAGCGAGTCC

>NANOG    ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGT

# 把TAB键转换为换行符

$ sed 's/^\(>.*\)/\1\t/' test.fasta | tr '\n' ' ' | sed -e 's/ $/\n/' -e 's/ >/\n>/g' -e 's/ //g' -e 's/\t/\n/g'

>SOX2

ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGAC

>POU5F1

CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGTCGGAAGGTAGTCGTCAGTGCAGCGAGTCC

>NANOG

ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGT

或者简单点，直接用前面的awk略微做下修改。

# 差别只在一点

# 对于单行fasta文件，只需要记录一行，seq[name]=$0

# 对于多好fasta文件，需要把每一行序列都加到前面的序列上，seq[name]=seq[name]$0

$ awk 'BEGIN{OFS=FS="\t"}{if($0~/>/) {name=$0; sub(">", "", name);} else seq[name]=seq[name]$0;}END{print ">SOX2"; print seq["SOX2"]}' test.fasta

>SOX2

ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGAC

Linux文件排序和FASTA文件操作的更多相关文章

Linux文件排序工具 sort 命令详解
sort是排序工具,它完美贯彻了Unix哲学:"只做一件事,并做到完美".它的排序功能极强.极完整,只要文件中的数据足够规则,它几乎可以排出所有想要的排序结果,是一个非常优质的工具 ...
linux下文件压缩与解压操作
对于刚刚接触Linux的人来说,一定会给Linux下一大堆各式各样的文件名给搞晕.别个不说,单单就压缩文件为例,我们知道在Windows下最常见的压缩文件就只有两种,一是,zip,另一个是.rap.可 ...
【转发】du命令实现Linux 某个文件夹下的文件按大小排序
1. df -lh 2. du -s /usr/* | sort -rn这是按字节排序 3. du -sh /usr/* | sort -rn这是按兆(M)来排序 4.选出排在前面的10个du -s ...
linux命令（5）文件操作：ls命令、显示文件总个数
一:ls命令是最常用的linux命令了:下面是ls --help里面的用法在提示符下输入ls --help ,屏幕会显示该命令的使用格式及参数信息: 先介绍一下ls命令的主要参数: -a 列出目录下 ...
linux下查找文件、排序、查看文件内容
本文介绍下,在linux系统中,查找文件的命令用法,以及按时间排序找到的目标文件的方法. 1.例如:查找当前目录下所有.ini文件,并按时间排序示例: find ./ -name *.ini ...
[Linux]目录x权限对文件操作的影响
问题我们常使用linux以下命令 cd 进入目录 ls 列出目录中的文件或者直接打开目录中的文件以上操作对于目录权限位的设置来说,是有一定迷惑性的,如表格所示 cd进入该目录 cd进入该目录 ...
每天一个linux命令（文件上传下载文件操作）：【转载】gzip命令
减少文件大小有两个明显的好处,一是可以减少存储空间,二是通过网络传输文件时,可以减少传输的时间.gzip是在Linux系统中经常使用的一个对文件进行压缩和解压缩的命令,既方便又好用.gzip不仅可以用 ...
Linux环境下实现对文件读写操作
---- 今天分享一下在linux系统在实现对文件读写一些基本的操作,在这之前我们要掌握一些基本的技能在Linux环境下.比如查看命令和一个函数的具体用法,就是相当于查手册,在Linux下有一个man ...
Linux awk+uniq+sort 统计文件中某字符串出现次数并排序
https://blog.csdn.net/qq_28766327/article/details/78069989 在服务器开发中,我们经常会写入大量的日志文件.有时候我们需要对这些日志文件进行统计 ...

随机推荐

ios学习8_KVC和字典转模型
Key Value Coding是cocoa的一个标准组成部分,它能让我们能够通过name(key)的方式訪问属性,某些情况下极大地简化了代码.可称之为cocoa的大招. 例如以下的样例: 使用KVC ...
centos部署jenkins
1. 实验环境: 操作系统: CentOS Linux release 7.2.1511 (Core) 软件版本: jdk-8u60-linux-x64 apache-tomcat-9.0. ...
【Espruino】NO.13 蓝牙模块
http://blog.csdn.net/qwert1213131/article/details/31830809 本文属于个人理解,能力有限.纰漏在所难免,还望指正! [小鱼有点电] [Espru ...
Android性能測试一些适用于Android Studio的代码审查和性能測试工具
导言: Android应用在CPU占用,内存消耗方面的性能指标是影响产品质量的重要因素,因为QQ管家,360手机助手等应用都提供直观的内存消耗,流量监控功能,致使用户比以往更加关注软件的性能,并以此进 ...
jquery 页面滚动tab自动定位，tab与内容对应
直接上源码,基于jquery写的,可以直接跑起来. 原理是先计算出页面元素对应的高度.页面滚动时计算tab对应的高端区间,设置具体的tab.欢迎指正下载地址 <!DOCTYPE html> ...
【bzoj2654]】tree
给白色边都加上一个值,二分这个值,使得选取的白边数量减少 #include<algorithm> #include<iostream> #include<cstdlib& ...
iOS开发－多台机器共用证书问题
今天又被证书的问题卡壳了: 在公司的电脑上申请的开发.发布证书,回家用自己的电脑从苹果开发者中心上将证书和配置文件都下载下来提示用不了,弄了很久才想起.p12文件,必须从申请证书的电脑上导出,导入到自 ...
Java 反射 —— 运行时的类型信息
1. 反射机制的由来 RTTI 机制可以告知某个对象的确切类型,但有一个前提,该类型在编译时必须已知(编译器在编译时打开和检查 .class 文件以获取类型信息).似乎是个很宽松的限制,但假如你获取了 ...
luogu 4630 [APIO2018] Duathlon 铁人两项
题目大意: 无向图上找三个点 a b c使存在一条从a到b经过c的路径求取这三个点的方案数思路: 建立圆方树这个圆方树保证没有两个圆点相连或两个方点相连对于每个节点x 设该节点为路径的中间节点 ...
SpringBoot中使用spring-data-jpa 数据库操作(下)

Linux文件排序和FASTA文件操作

Linux文件排序和FASTA文件操作的更多相关文章

随机推荐

热门专题