转录组入门(3)：了解fastq测序数据

sra文件转换为fastq格式

fastq-dump -h

--split-3

也就是说如果SRA文件中只有一个文件，那么这个参数就会被忽略。如果原文件中有两个文件，那么它就会把成对的文件按*_1.fastq，*_2.fastq这样分开。如果还出现了第三个文件，就意味着这个文件本身是未成配对的部分。可能是当初提交的时候因为事先过滤过了一下，所以有一部分数据被删除了。

--gzip

输出文件压缩成gzip格式（通常gzip仅用来压缩单个文件。多个文件的压缩归档通常是首先将这些文件合并成一个tar文件，然后再使用gzip进行压缩，最后生成的.tar.gz或者.tgz文件就是所谓的“tar压缩包”或者“tarball”）

--bzip2

输出文件压缩成bzip2格式（bzip2比传统的gzip或者ZIP的压缩效率更高，但是它的压缩速度较慢）

ls *.sra|while read id;do(fastq-dump --split-3 $id);done

我们的数据是Illumina的双端测序，所以用fastq-dump --split-3命令来把sra格式数据转换为fastq。

总共有7个测序数据，所以最好是同步改名，用-A参数，为了节省空间，用--gzip压缩。

perl -F'\t' -alne 'if($F[7]=~/SRR/){$F[6]=~s/\s/_/g;$F[13]=~s/\s|#/_/g;$F[13]=~s/\(|\)//g;print "$F[7]\t$F[6]_$F[13]"}' SraRunTable.txt > Rename.txt

perl -F'\t' -alne 'print "fastq-dump --split-3 --gzip -A $F[1] $F[0].sra"' Rename.txt > sratofq.sh
bash sratofq.sh

数据校验及备份存放

在此最开始之前应该做个md5sum数据传输完整性验证；或者拿到自己的数据后，压缩后生产MD5文件，然后备份保存

md5sum *.fastq.gz | tee md5sum.txt

验证MD5值

md5sum -c md5sum.txt

-c选项来对文件md5进行校验。校验时，根据已生成的md5来进行校验。生成当前文件的md5，并和之前已经生成的md5进行对比，如果一致，则返回OK，否则返回错误信息

质控FastQC

mkdir rna_seq/work && cd rna_seq/work

ln ../data/* .  # 建立软连接

mkdir 1_FastQC_Raw_Data

ls *.gz|while read id;do(fastqc $id -o 1_FastQC_Raw_Data -t 3);done

问题：

FastQC报告中哪些是值得关注的？

注意事项：

1、数据质控是一个综合的评价标准，其中主要指标为碱基质量与含量分布，如果这两个指标合格了，后面大部分指标都可以通过。如果这两项不合格，其余都会受到影响。

2、其中一些指标并不适合所有数据。要根据具体数据类型，具体分析。

转录组入门(3)：了解fastq测序数据的更多相关文章

【转录组入门】3：了解fastq测序数据
操作:需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件,并且用fastqc软件测试测序文件的质量作业:理解测序reads,GC含量,质量值,接头,index,fastqc ...
弗雷塞斯从生物学到生物信息学到机器学习转录组入门(3)：了解fastq测序数据
sra文件转换为fastq格式 1 fastq-dump -h --split-3 也就是说如果SRA文件中只有一个文件,那么这个参数就会被忽略.如果原文件中有两个文件,那么它就会把成对的文件按*_1 ...
单细胞转录组测序数据的可变剪接(alternative splicing)分析方法总结
可变剪接(alternative splicing),在真核生物中是一种非常基本的生物学事件.即基因转录后,先产生初始RNA或称作RNA前体,然后再通过可变剪接方式,选择性的把不同的外显子进行重连,从 ...
fastx_toolkit去除测序数据中的接头和低质量的reads
高通量测序数据下机后得到了fastq的raw_data,通常测序公司在将数据返还给客户之前会做"clean"处理,即得到clean_data.然而,这些clean_data是否真的 ...
测序数据质控-FastQC
通常我们下机得到的数据是raw reads,但是公司通常会质控一份给我们,所以到很多人手上就是clean data了.我们再次使用fastqc来进行测序数据质量查看以及结果分析. fastqc的操作: ...
Next generation sequencing (NGS)二代测序数据预处理与分析
二代测序原理: 1.DNA待测文库构建. 超声波把DNA打断成小片段,一般200--500bp,两端加上不同的接头2.Flowcell.一个flowcell,8个channel,很多接头3.桥式PCR ...
基于单细胞测序数据构建细胞状态转换轨迹(cell trajectory)方法总结
细胞状态转换轨迹构建示意图(Trapnell et al. Nature Biotechnology, 2014) 在各种生物系统中,细胞都会展现出一系列的不同状态(如基因表达的动态变化等),这些状态 ...
Sqoop2入门之导入关系型数据库数据到HDFS上(sqoop2-1.99.4版本)
sqoop2-1.99.4和sqoop2-1.99.3版本操作略有不同:新版本中使用link代替了老版本的connection,其他使用类似. sqoop2-1.99.4环境搭建参见:Sqoop2环境 ...
ASP.NET MVC 入门8、ModelState与数据验证
原帖地址:http://www.cnblogs.com/QLeelulu/archive/2008/10/08/1305962.html ViewData有一个ModelState的属性,这是一个类型 ...

随机推荐

samba 奇怪问题
有一个centos 7 samba服务器,配置如下: [root@proxy223 20150331]# cat /etc/samba/smb.conf [global] workgroup = W ...
jQuery.data() 存储数据
jQuery.data() 的实现方式 jQuery.data() 的作用是为普通对象或 DOM Element 附加数据. 以下将分三个部分分析事实上现方式: 1. 用name和value为对象附加 ...
XAPIAN简单介绍(三)
今天主要介绍的是Xapian::Database这个类.先上图看上去就非常恐怖的吧,我们一点点的说. 首先一切的開始都来自那个include目录中的database.h,他的直接实现是在omdata ...
VM Workstation中如何实现Linux系统的通信
1 确保虚拟机中的Linux是NAT联网方式 2确保Vmware Network Adapter VMnet1和 VMnet8 都是"已启用"状态,如果是"未识别的网 ...
苹果iOS手机后门的”诊断功能论“不攻自破
7月23日.苹果公司公布公告,题为"iOS:About diagnostic capabilities"("iOS:关于诊断功能").当中声称:iOS offe ...
android_handler(一)
仅仅是一个简单的handler的样例,目的就是对handler有一个初步的接触. 在layout上加入一个button,点击按钮,然后打印出利用handler传送的数据.(都是执行在mainthrea ...
MICRO SIM卡(SIM小卡)尺寸图及剪卡图解
如今使用MICRO SIM卡的手机越来越多.近期刚刚买了一个手机到手才发现尼马使用的是MICRO SIM卡.再去买剪卡器吧,十几二十块用一次就废了,去营业厅吧.又比較远,懒的出门.怎么办呢,自己剪!这 ...
Qt 开发程序后的公布问题
Qt 开发程序后的公布问题 Qt 是一套跨平台 C++ 图形用户界面应用程序开发框架,利用它能够很方便的开发各种类型的应用程序.可是随着 Qt 的发展.功能越来越强大,公布时须要文件也越来越多.公布时 ...
一分钟让你了解Microsoft Edge
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/ ...
【Poj3241】Object Clustering
Position: http://poj.org/problem?id=3241 List Poj3241 Object Clustering List Description Knowledge S ...

转录组入门(3)：了解fastq测序数据

转录组入门(3)：了解fastq测序数据的更多相关文章

随机推荐

热门专题