生物信息学

Sanger采用链终止法进行测序

带有荧光基团的ddXTP+其他四种普通的脱氧核苷酸放入同一个培养皿中,例如带有荧光基团的ddATP+普通的脱氧核苷酸A、T、C、G放入同一个培养皿,以此类推,存在4种不同类型碱基的识别机制,同时,该ddXTP一旦结合在互补链上则会迫使复制停止。

高通量测序是二代测序,先建库后测序:

建库方法:

单末端测序:将DNA双链打碎并接上接头序列,通过改变条件使双链变单链,将待测的单链固定在flowcell上,再加入游离的脱氧核苷酸,采用边合成边测序方法比配并测得互补链,最后冲走互补链。

双末端测序:将DNA双链打碎并接上接头序列,通过改变条件使双链变单链,将待测的单链固定在flowcell上,采用桥式扩增(即将模板链和互补链单链都成簇,用酶切,就只剩下模板链和两端引物),通过桥式扩增加强信号。

它的碱基识别是在链终止法的基础上,采用边合成边测序方法:

带有荧光基团的ddXTP+其他三种普通的脱氧核苷酸放入同一个培养皿中,例如带有荧光基团的ddATP+普通的脱氧核苷酸T、C、G放入同一个培养皿,以此类推,存在4种不同类型碱基的识别机制,同时,该ddXTP一旦结合在互补链上则会迫使复制停止。 模板链通过碱基互补配对原则得到互补链,该互补链停止于需识别碱基上,通过测试最后一位碱基所携带的荧光基团,从而确定模板链对应的碱基种类。在确认了该位置的碱基种类之后,会加羟基去去除荧光基团,并使得链又不断复制下去,通过识别后的照片来得到最终的序列组成。

高通量测序的特点是数据量大。

Fasta:

>序列名字

序列本身

Fastq:

@序列信息

序列本身

@序列信息

序列质量:由碱基错误率算得,每个碱基对应一个质量,将具体数值用ASCII表示出来

质量指标:Q20、Q30、Q40

基因芯片和高通量测序的比较:

基因芯片原理:

通过探针捕获游离的带有荧光基团的脱氧核苷酸,然后使其荧光标记发出荧光,辨别荧光强度确定碱基种类并加入羟基使其不再发光,再以此类推确定另外一种荧光种类。

二代测序:双末端测序;边合成边测序

区别:前期样本制备

基因表达:相当

数据分析流程:

图片数据(识别荧光基团测序)----序列信息(fastq)------质控-----assembly----analysis----annotation

Raw data------质控fastaQC------去adoptor/linker(引物)------使用barcode排序------FASTX-Toolkit质控(某特殊位置之后的;低于平均值的)

fastaQC:FASTQC checks whether a set of sequence reads in a .fastq fifile exhibit any unusual qualities.

FASTX-Toolkit:In this section of the tutorial we will be using FASTX-Toolkit (http://hannonlab.cshl.edu/fastx_toolkit/) to fifilter and trim sequences based on quality.

调研(低深度测序)主要用于找到合理建库方法----框架(高深度测序)----精细测序,进行修补

应用:

个体重测序----精准医疗----突变

重测序数据分析:GATK:人群队列测----发现SNP并汇总----发现群体高发SNP

转录组测序:

1.Small RNA seq表达

2.RNA seq表达-:--->Bowtie(短片段RNA比genome)---->Tophat(找到splice junction)----->cufflinks(找到可变剪接)

Bowtie is an ultrafast, memory-efficient short read aligner geared toward quickly aligning large sets of short DNA sequences (reads) to large genomes.

TopHat is a fast splice junction mapper for RNA-Seq reads.

Cufflinks assembles transcripts, estimates their abundances, and tests for differential expression and regulation in RNA-Seq samples.

RPKM (Reads Per Kilobase of transcript per Million mapped reads)

Total Exon reads:比到某个sample上的read数;

total mapped reads:比到某个sample上某gene exon的reads数

exon length:某gene exon长度

所以,

sample之间同一gene比较的是(gene mapped reads数/sample mapped reads数)

同一sample 的不同gene之间比较的是(gene mapped reads数/gene oxen length)

Chip-seq:发现转录因子的结合位点

链终止法|边合成边测序|Bowtie|TopHat|Cufflinks|RPKM|FASTX-Toolkit|fastaQC|基因芯片|桥式扩增|的更多相关文章

  1. 使用Tophat+cufflinks分析差异表达

    使用Tophat+cufflinks分析差异表达  2017-06-15 19:09:43     522     0     0 使用TopHat+Cufflinks的流程图 序列的比对是RNA分析 ...

  2. SAGE|DNA微阵列|RNA-seq|lncRNA|scripture|tophat|cufflinks|NONCODE|MA|LOWESS|qualitile归一化|permutation test|SAM|FDR|The Bonferroni|Tukey's|BH|FWER|Holm's step-down|q-value|

    生物信息学-基因表达分析 为了丰富中心法则,研究人员使用不断更新的技术研究lncRNA的方方面面,其中技术主要是生物学上的微阵列芯片技术和表达数据分析方法,方方面面是指lncRNA的位置特征. Bac ...

  3. tophat cufflinks cuffcompare cuffmerge 的使用

    Cole Trapnell said: there are three strategies: 1) merge bams and assemble in a single run of Cuffli ...

  4. illumina SBS测序详解

    illumina SBS测序详解 2018年01月02日 09:33:56 sixu_9days 阅读数:9789 标签: 生物信息学二代测序 更多 个人分类: 测序原理   最近回头重新看了illl ...

  5. Next generation sequencing (NGS)二代测序数据预处理与分析

    二代测序原理: 1.DNA待测文库构建. 超声波把DNA打断成小片段,一般200--500bp,两端加上不同的接头2.Flowcell.一个flowcell,8个channel,很多接头3.桥式PCR ...

  6. 解读生命密码的基本手段 ——DNA测序技术的前世今生

    解读生命密码的基本手段 ——DNA测序技术的前世今生 任鲁风  于军 (中国科学院基因组科学及信息重点实验室,北京基因组研究所) DNA(脱氧核糖核酸)和RNA(核糖核酸)是生命体的两种最基本组成物质 ...

  7. 第三代PacBio测序技术的测序原理和读长

    针对PacBio单分子测序——第三代测序技术的测序原理和读长     DNA基因测序技术从上世纪70年代起,历经三代技术后,目前已发展成为一项相对成熟的生物产业.测序技术的应用也扩展到了生物.医学.制 ...

  8. TopHat

    What is TopHat? TopHat is a program that aligns RNA-Seq reads to a genome in order to identify exon- ...

  9. 单细胞测序技术(single cell sequencing)

    单细胞测序技术(single cell sequencing) 2018-03-02 11:02   来源: 一呼百诺  点击次数:6587关键词:   前言 单细胞生物学最近几年是非常热门的研究方向 ...

随机推荐

  1. 吴裕雄--天生自然ShellX学习笔记:Shell 输入/输出重定向

    大多数 UNIX 系统命令从你的终端接受输入并将所产生的输出发送回​​到您的终端.一个命令通常从一个叫标准输入的地方读取输入,默认情况下,这恰好是你的终端.同样,一个命令通常将其输出写入到标准输出,默 ...

  2. 第1章 分布式系统概念与ZooKeeper简介

    ZooKeeper分布式专题与Dubbo微服务入门 第1章 分布式系统概念与ZooKeeper简介 1-1 zookeeper简介 1-2 什么是分布式系统 略 1-3 分布式系统的瓶颈以及zk的相关 ...

  3. 【模式分解】无损连接&保持函数依赖

    首先引入定义 无损分解指的是对关系模式分解时,原关系模型下任一合法的关系值在分解之后应能通过自然联接运算恢复起来.反之,则称为有损分解. 保持函数依赖的分解指的是对关系分解时,原关系的闭包与分解后关系 ...

  4. 【图论算法】Dijstra&BFS

    选择V-S中的点加入S时用了贪心思想,即求d[]中legth最小且未被标记(未加入加入S)的点. 一点都没优化的实现: import java.lang.reflect.Array; /** * Cr ...

  5. java内部类(构造spring中的接收返回数据的实体类)

    说起内部类这个词,想必很多人都不陌生,但是又会觉得不熟悉.原因是平时编写代码时可能用到的场景不多,用得最多的是在有事件监听的情况下,并且即使用到也很少去总结内部类的用法.今天我们就来一探究竟. 原文链 ...

  6. CSP模拟赛2游记

    这次由于有课迟到30min,了所以只考了70min. 调linux配置调了5min,只剩下65min了. T1:有点像标题统计,但要比他坑一点,而且我就被坑了,写了一个for(int i=1;i< ...

  7. CodeForces 263E Rhombus

    洛谷题目页面传送门 & CodeForces题目页面传送门 给定一个$n$行$m$列的矩阵,第$i$行$j$列为$a_{i,j}$,以及一个常数$s\in\left[1,\left\lceil ...

  8. 二、Shell脚本高级编程实战第二部

    一.什么是变量? 变量就是一个固定的字符串替代更多更复杂的内容,当然内容里面可能还有变量.路径.字符串等等内容,最大的特点就是方便,更好开展工作 1.变量有环境变量(全局变量)和局部变量 环境变量就是 ...

  9. [LC] 82. Remove Adjacent Repeated Characters IV

    Repeatedly remove all adjacent, repeated characters in a given string from left to right. No adjacen ...

  10. More 'long-life' plastic bags being used

    1 1.1 roll out v. 推广,或实行 1.2 pilot v. 试行 n. 飞行员 1.3 bags for life 可重复使用的环保购物袋 2 2.1 How many times a ...