Next generation sequencing (NGS)二代测序数据预处理与分析

wangprince2017 2024-10-24 19:00:51 原文

二代测序原理：

1、DNA待测文库构建。超声波把DNA打断成小片段，一般200--500bp，两端加上不同的接头
2、Flowcell。一个flowcell，8个channel，很多接头
3、桥式PCR扩增。每个DNA片段将在各自位置集中成束，每一束含有单个DNA模板的很多拷贝，目的：将碱基的信号强度放大，达到测序所需的信号要求。
4、测序。边合成边测序。反应所需材料，dNTP的3’端特殊处理，不能继续反应，因此每次只能添加一个碱基，另外每个碱基有一种颜色。dNTP添加到链上后，所有未使用游离dNTP和DNA聚合酶会被洗脱掉。

接着，再加入激发荧光所需的缓冲液，用激光激发荧光信号，并有光学设备完成荧光信号的记录，

最后, 利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后，再加入化学试剂淬灭荧光信号并去除dNTP 3’-OH保护基团，以便能进行下一轮的测序反应。

双端测序：正义链测100，反义链测100，合起来200，这样测序结果比较准确。

Next generation sequencing (NGS)二代测序数据预处理与分析

By zilhua | 2014 年 3 月 12 日

常使用的工具列表

质量控制Quality Control：FastQC、Fastx-toolkit
拼接Aligner：BWA，Bowtie, Tophat, SOAP2
Mapper：Tophat, Cufflinks
基因定量 Gene Quantification: Cufflinks, Avadis NGS
质量改进 Quality improvement: Genome Analysis Toolkit(GATK)
SNP: Unified Genotyper,Glfmultiple, SAMtools, Avadis NGS
CNV: CNVnator
Indel: Pindel, Dindel, Unified Genotyper, Avadis NGS
Mapping to a gene: Cufflinks, Rsamtools, Genomic Features

相关的数据格式

FASTQ:
SAM: A generic nucleotide alignment format
BAM: binary format
VCF

数据处理的流程

RNAseq数据不容易分析的原因：

差异大，0~几万
基因多
巨大的变异
样本量小
鉴定SNP可供借鉴的经验

鉴定SNP可供借鉴的经验

如果一个基因中SNP数目超过3个，10个碱基中SNP数目超过2个，这样的SNP就需要怀疑；

通过RNAseq、DNAseq鉴定SNP，有什么区别？

本质没有区别，但是RNAseq时，需要注意可变剪接 造成的SNP。

参考资料：

http://boyun.sh.cn/bio/?p=1862

Next generation sequencing (NGS)二代测序数据预处理与分析的更多相关文章

为什么二代测序的原始数据中会出现Read重复现象？
为什么二代测序的原始数据中会出现Read重复现象? 要搞清楚这个read重复(duplicate)的问题,我想我们需要从NGS数据的产出过程说起,具体来说如下: 基因组DNA提取: DNA随机打断,最 ...
样本、文库、重复、lane、run - 二代测序原理及名词解释
参考: 独占鳌头的Illumina仪器(二代测序篇) HiSeq2000测序原理.流程与仪器 NGS文库制备的方法比较[心得点评] 各种测序文库构建方式样本:就是待测的DNA.RNA或蛋白序列,样本 ...
【转录组入门】3：了解fastq测序数据
操作:需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件,并且用fastqc软件测试测序文件的质量作业:理解测序reads,GC含量,质量值,接头,index,fastqc ...
借助 SIMD 数据布局模板和数据预处理提高 SIMD 在动画中的使用效率
原文链接简介为发挥 SIMD1 的最大作用,除了对其进行矢量化处理2外,我们还需作出其他努力.可以尝试为循环添加 #pragma omp simd3,查看编译器是否成功进行矢量化,如果性能有所提升 ...
R语言进行数据预处理wranging
R语言进行数据预处理wranging li_volleyball 2016年3月22日 data wrangling with R packages:tidyr dplyr Ground rules ...
Scikit-Learn模块学习笔记——数据预处理模块preprocessing
preprocessing 模块提供了数据预处理函数和预处理类,预处理类主要是为了方便添加到 pipeline 过程中. 数据标准化标准化预处理函数: preprocessing.scale(X, ...
fastx_toolkit去除测序数据中的接头和低质量的reads
高通量测序数据下机后得到了fastq的raw_data,通常测序公司在将数据返还给客户之前会做"clean"处理,即得到clean_data.然而,这些clean_data是否真的 ...
Deep Learning 11_深度学习UFLDL教程：数据预处理（斯坦福大学深度学习教程）
理论知识:UFLDL数据预处理和http://www.cnblogs.com/tornadomeet/archive/2013/04/20/3033149.html 数据预处理是深度学习中非常重要的一 ...
R语言--数据预处理
一.日期时间.字符串的处理日期 Date: 日期类,年与日 POSIXct: 日期时间类,精确到秒,用数字表示 POSIXlt: 日期时间类,精确到秒,用列表表示 Sys.date(), date( ...

随机推荐

Linux系统下面crontab选择默认编译器
crontab修改默认编辑器 crontab默认编辑器为nano. 修改crontab默认编辑器为vi或者其他的编辑器. 法一: export EDITOR="/usr/bin/vim&qu ...
微信小程序之富文本解析
亲身体验 wxparse 是个坑,弃之不用微信小程序的 <rich-text>标签挺好用的用法如下: 1.wxml页面 <rich-text nodes="{{node ...
War3编辑器
[War3编辑器] 1.英雄在商店买东西叫“任意单位出售物品”,英雄卖东西给商店叫“抵押物品”. 2.触发器中的一级窗口包含: 1)设置事件窗口. 2)设置条件窗口. 3)设置动作窗口. 3.二级设 ...
Errors running builder 'Faceted Project Validation Builder' on project
右键eclipse中的工程,选择properties,选择build,去掉出问题的validation校验项,重启eclipse即可.
如何更改Oracle字符集避免乱码
转一位大神的笔记. 国内最常用的Oracle字符集ZHS16GBK(GBK 16-bit Simplified Chinese)能够支持繁体中文,并且按照2个字符长度存储一个汉字.UTF8字符集是多字 ...
ASP.NET 在请求中检测到包含潜在危险的数据,因为它可能包括 HTML 标记或脚本
<textarea><%=Server.HtmlEncode(strContent)%></textarea> 转载:https://www.cnblogs.com ...
poj1942（求组合数）
题目链接:http://poj.org/problem?id=1942 题意:实际上这道题就是求C(n+m,n). 思路:n.m的范围在unsigned中,所以不能递推计算组合数,可以采用公式C(a, ...
Android 性能测试之CPU
接上一篇 CPU跟内存一样,存在一些测试子项,如下清单所示 1.空闲状态下的应用CPU消耗情况 2.中等规格状态下的应用CPU消耗情况 3.满规格状态下的应用CPU消耗情况 4.应用CPU峰值情况 C ...
mysql垂直分区和水平分区
数据库扩展大概分为以下几个步骤: 1.读写分离:当数据库访问量还不是很大的时候,我们可以适当增加服务器,数据库主从复制的方式将读写分离: 2.垂直分区:当写入操作一旦增加的时候,那么主从数据库将花更多 ...
SpringBoot使用@Value从yml文件取值为空--注入静态变量
SpringBoot使用@Value从yml文件取值为空--注入静态变量 1.application.yml中配置内容如下: pcacmgr: publicCertFilePath: ...