弗雷塞斯从生物学到生物信息学到机器学习转录组入门(3)：了解fastq测序数据

sra文件转换为fastq格式

1	`fastq-dump -h`

--split-3

也就是说如果SRA文件中只有一个文件，那么这个参数就会被忽略。如果原文件中有两个文件，那么它就会把成对的文件按*_1.fastq，*_2.fastq这样分开。如果还出现了第三个文件，就意味着这个文件本身是未成配对的部分。可能是当初提交的时候因为事先过滤过了一下，所以有一部分数据被删除了。

--gzip

输出文件压缩成gzip格式（通常gzip仅用来压缩单个文件。多个文件的压缩归档通常是首先将这些文件合并成一个tar文件，然后再使用gzip进行压缩，最后生成的.tar.gz或者.tgz文件就是所谓的“tar压缩包”或者“tarball”）

--bzip2

输出文件压缩成bzip2格式（bzip2比传统的gzip或者ZIP的压缩效率更高，但是它的压缩速度较慢）

1	`ls` `*.sra\|while` `read` `id;do(fastq-dump --split-3 $id);done`

我们的数据是Illumina的双端测序，所以用fastq-dump --split-3命令来把sra格式数据转换为fastq。

总共有7个测序数据，所以最好是同步改名，用-A参数，为了节省空间，用--gzip压缩。

1 2	`perl -F'\t'` `-alne` `'if($F[7]=~/SRR/){$F[6]=~s/\s/_/g;$F[13]=~s/\s\|#/_/g;$F[13]=~s/$\|$//g;print "$F[7]\t$F[6]_$F[13]"}'` `SraRunTable.txt > Rename.txt` `perl -F'\t'` `-alne` `'print "fastq-dump --split-3 --gzip -A $F[1] $F[0].sra"'` `Rename.txt > sratofq.sh<br>bash` `sratofq.sh`

数据校验及备份存放

在此最开始之前应该做个md5sum数据传输完整性验证；或者拿到自己的数据后，压缩后生产MD5文件，然后备份保存

1	`md5sum *.fastq.gz \|` `tee` `md5sum.txt`

验证MD5值

1	`md5sum -c md5sum.txt`

-c选项来对文件md5进行校验。校验时，根据已生成的md5来进行校验。生成当前文件的md5，并和之前已经生成的md5进行对比，如果一致，则返回OK，否则返回错误信息

质控FastQC

mkdir rna_seq/work && cd rna_seq/work

ln ../data/* . # 建立软连接

mkdir 1_FastQC_Raw_Data

ls *.gz|while read id;do(fastqc $id -o 1_FastQC_Raw_Data -t 3);done

问题：

FastQC报告中哪些是值得关注的？

注意事项：

1、数据质控是一个综合的评价标准，其中主要指标为碱基质量与含量分布，如果这两个指标合格了，后面大部分指标都可以通过。如果这两项不合格，其余都会受到影响。

2、其中一些指标并不适合所有数据。要根据具体数据类型，具体分析。

弗雷塞斯从生物学到生物信息学到机器学习转录组入门(3)：了解fastq测序数据的更多相关文章

机器学习简易入门（四）- logistic回归
摘要:使用logistic回归来预测某个人的入学申请是否会被接受声明:(本文的内容非原创,但经过本人翻译和总结而来,转载请注明出处) 本文内容来源:https://www.dataquest.io/ ...
[ZZ]机器学习的入门
转载自: http://www.cnblogs.com/mq0036/p/7131678.html 本篇虽不是这一个月的流水账,但是基本按照下面的思路对着一个月做了一次总结: 什么是机器学习? 机器学 ...
Andrew Ng机器学习算法入门(一):简介
简介最近在参加一个利用机器学习来解决安全问题的算法比赛,但是对机器学习的算法一直不了解,所以先了解一下机器学习相关的算法. Andrew Ng就是前段时间从百度离职的吴恩达.关于吴恩达是谁,相信程序 ...
.NET平台机器学习组件-Infer.NET(三) Learner API—数据映射与序列化
所有文章分类的总目录:http://www.cnblogs.com/asxinyu/p/4288836.html 微软Infer.NET机器学习组件:http://www.cnblo ...
python机器学习《入门》
写在前面的废话: 好吧,不得不说鱼C的markdown文本编辑器挺不错的,功能齐全.再次感谢小甲鱼哥哥的python视频让我去年大三下学期的时候入门了编程,爱上了编程这门语言,由于是偏冷门的统计学,在 ...
Spark MLBase分布式机器学习系统入门：以MLlib实现Kmeans聚类算法
1.什么是MLBaseMLBase是Spark生态圈的一部分,专注于机器学习,包含三个组件:MLlib.MLI.ML Optimizer. ML Optimizer: This layer aims ...
【机器学习实战】第15章大数据与MapReduce
第15章大数据与MapReduce 大数据概述大数据: 收集到的数据已经远远超出了我们的处理能力. 大数据场景假如你为一家网络购物商店工作,很多用户访问该网站,其中有些人会购买商品,有些人则 ...
机器学习数据处理时label错位对未来数据做预测
这篇文章继上篇机器学习经典模型简单使用及归一化(标准化)影响,通过将测试集label(行)错位,将部分数据作为对未来的预测,观察其效果. 实验方式以不同方式划分数据集和测试集使用不同的归一化(标准 ...
python 机器学习实践入门
机器学习概念概念机器学习是计算机科学的一个分支,从模式识别.人工智能和计算学习理论发展而来,我们可以将其作为数据挖掘的工具侧重用于数据分析方法理解给定的数据目的是:开发能够从先前观测的数据,通 ...

随机推荐

手游服务端框架之使用Guava构建缓存系统
缓存的作用与应用场景缓存,在项目中的应用非常之广泛.诸如这样的场景,某些对象计算或者获取的代码比较昂贵,并且在程序里你不止一次要用到这些对象,那么,你就应该使用缓存. 缓存跟java的Coucurr ...
UICollectionView功能使用
UICollectionView在2012年被提出,已经不是什么新技术了,在此只是做一下简单的实现. 集合视图:UICollectionViewUICollectionView和UITableView ...
【排序】希尔排序，C++实现
原创博文,转载请注明出处! 本文代码的github地址 # 基本思路希尔排序是”直接插入排序“的改进版,也称为“缩小增量排序”.基本原理:先将待排序的数组元素分成多个序列,然后对每个子序 ...
MYSQL 调优和使用必读
转载自:http://blog.eood.cn/mysql#rd?sukey=fc78a68049a14bb29c60f21c5254b15a1a9234459cf25ff467de14129ca11 ...
CF1117D Magic Gems
CF1117D Magic Gems 考虑 $dp$ , $f[i]$ 表示用 $i$ 个单位空间的方案数,答案即为 $f[n]$. 对于一个位置,我们可以放 $Magic$ 的, ...
BZOJ1510 POI2006 Kra-The Disks 【模拟】
BZOJ1510 POI2006 Kra-The Disks LINK 还是粘题面吧,但是图就算了 Description Johnny 在生日时收到了一件特殊的礼物,这件礼物由一个奇形怪状的管子和一 ...
BZOJ1183 Croatian2008 Umnozak 【数位DP】*
BZOJ1183 Croatian2008 Umnozak Description 定义一个数的digit-product是它的各个位上的数字的乘积,定义一个数的self-product是它本身乘以它 ...
LG3835 【模板】可持久化平衡树
题意您需要写一种数据结构(可参考题目标题),来维护一些数,其中需要提供以下操作(对于各个以往的历史版本): 插入x数删除x数(若有多个相同的数,因只删除一个,如果没有请忽略该操作) 查询x数的排名 ...
安装 Ruby, Rails 运行环境
步骤1 - 安装 RVM RVM 是干什么的这里就不解释了,后面你将会慢慢搞明白. $ gpg --keyserver hkp://keys.gnupg.net --recv-keys 409B6B1 ...
笔记：webpack 打包参数 mode development
webpack 打包参数 mode development 在开发时使用 webpack 打包后不压缩,所以只需要在 webpack 打包命令中加上 --mode mode development 即 ...

弗雷塞斯 从生物学到生物信息学到机器学习 转录组入门(3)：了解fastq测序数据

弗雷塞斯 从生物学到生物信息学到机器学习 转录组入门(3)：了解fastq测序数据的更多相关文章

随机推荐

热门专题

弗雷塞斯从生物学到生物信息学到机器学习转录组入门(3)：了解fastq测序数据

弗雷塞斯从生物学到生物信息学到机器学习转录组入门(3)：了解fastq测序数据的更多相关文章