(组装方面):SOAPdenovo ,因为采用de Bruijn graph algorithm算法和stepwise strategy ,所以排错能力高,所以我们获得高质量数据。

de Bruijn graph algorithm算法????

reads到contig :多个reads比对,比对后reads之间有重叠(overlap)区,拼接获得的序列称为Contig。

contig到scaffold:把mate-pair得到的用于确立位置的短reads和insert组合,将原本孤立的contig按序前后连接,其中会调整contig方向以及contig可能会存在开口,得到一个完整的scafflod。

(组装1).assembled the short reads:得到pair-end短reads,overlap(比对效果好,没有模糊repeat)后获得contig;因为没有使用long insert-size paired-end libraries因为long insert-size paired-end libraries会积累错误序列的overlap),所以我们得到很好contig(由n50长度可知)

因为长序列会积累错误序列的overlap,所以短序列排出来准确性高

测序深度x):指测序得到的总碱基数(并不是连成序列)与待测基因组大小的比值

39-fold coverage short-reads:测试深度为39x:总数据量/基因长度

初次判定的总数据量可能估计基因组大小的100倍,因为物理上的因素(部分序列被酶降解等)最后得到73X

覆盖度%):指测序获得的序列占整个基因组的比例,测序depth和coverage成倒数关系

组装2join the contigs into scaffolds在可能为gap的区域添N,将insert一端mapping独立的contig;一端定位gap区域并且mapping unmapping end(mate-pair)。这样就得到了scaffold1(40kb);因为在close了所有能close的gap之后,仍有2.4%的gap(因为这些gap中约90%含有食肉类特异性转座元件和串联重复序列(原因一:因为串联重复序列很难用现有的匹配算法拼接策略克服)。 具有较高的单元标识和大于序列读取长度的长度,无法与当前数据进行组装。)(原因二:assembly丢失,因为狗与人序列的相似性,狗的串联重复序列占比少)

estimated intra-scaffold gaps:就是未测得的添N

什么是串联重复 tandem repeats?:短序列重复同时串联起来。

食肉类特异性转座元件为什么测不出来?转座子是存在于染色体DNA上可自主复制和位移的基本单位,因为它能够自主复制和位移,所以同串联重复序列难以测得的理由一致。

assembly|reads to contig|contig to scaffold|coverage|depth| tandem repeats的更多相关文章

  1. 计算基因上外显子碱基覆盖度(exon coverage depth):Samtool工具使用

    假设想要计算ATP1A4基因上的外显子碱基覆盖度 首先查询这个基因所有exon的起始和终止位置,查询链接:http://grch37.ensembl.org/Homo_sapiens/Transcri ...

  2. GATK-BWA-MEM handle GRCh38 alternate contig mappings

    1. For the Impatient # Download bwakit (or from <http://sourceforge.net/projects/bio-bwa/files/bw ...

  3. Falcon Genome Assembly Tool Kit Manual

    Falcon Falcon: a set of tools for fast aligning long reads for consensus and assembly The Falcon too ...

  4. 8、Transcriptome Assembly

    Created by Benjamin M Goetz, last modified on Jun 29, 2015 Assembly of RNA-seq short reads into a tr ...

  5. The sequence and de novo assembly of the giant panda genome.ppt

    sequencing:使用二代测序原因:高通量,短序列 不用长序列原因: 1.算法错误率高 2.长序列测序将嵌合体基因错误积累.嵌合体基因:通过重组由来源与功能不同的基因序列剪接而形成的杂合基因 se ...

  6. quast-lg

    1.官网简介 http://cab.spbu.ru/software/quast-lg/ QUAST- lg是QUAST的一个扩展,用于评估大型基因组装配(直至哺乳动物大小).QUAST- lg从5. ...

  7. GATK使用说明-GRCh38(Genome Reference Consortium)(二)

    Reference Genome Components 1. GRCh38 is special because it has alternate contigs that represent pop ...

  8. soapdenovo

    配置文件中的=号两边不能有空格,否则会报错 SOAPdenovo-63mer_v2.0 all -s TongJiN2.config -p 25 -K 63 -d 1 -R  -F -o Lily_2 ...

  9. SOAPdenove 使用

    0. 该软件原理 它以kerm为节点单位,利用de Bruijn图的方法实现全基因组的组装.何为de Bruijn............... contig 的构建过程: (1)选取初始Kmer, ...

随机推荐

  1. POJ3258【二分】

    题意: 问一个河岸,两岸之间有笔直的n块石头,然后拔起(也可以施展魔法)m个石块,假设两岸也是石块,求处理过的石块的最小距离的最大. 思路: 他让我们求移开m个石块,无非是在n+2-m(已经把两岸看成 ...

  2. = =写个prim希望能够巨巨们看的懂

    prim算法---典型的贪心算法 求最小生成树的算法 (Minimum Spanning Tree)最小生成树: 算法思想:设图G顶点集合为U,首先任意选择图G中的一点作为起始点a,将该点加入集合V, ...

  3. python __builtins__ help类 (32)

    32.'help', 接收对象作为参数,更详细地返回该对象的所有属性和方法 class _Helper(builtins.object) | Define the builtin 'help'. | ...

  4. bzoj 1023: [SHOI2008]cactus仙人掌图【tarjan+dp+单调队列】

    本来想先求出点双再一个一个处理结果写了很长发现太麻烦 设f[u]为u点向下的最长链 就是再tarjan的过程中,先照常处理,用最长儿子链和次长儿子链更新按ans,然后处理以这个点为根的环,也就是这个点 ...

  5. Mac 开发 Hue

    1)环境准备 Maven 3.6.1 python (Anaconda 2.7.16) MySQL 5.7 git 2.21 2)Hue源码下载 git clone git@github.com:ar ...

  6. hdu1151 Air Raid 基础匈牙利

    #include <cstdio> #include <cstring> #include <cstdlib> #include <algorithm> ...

  7. ARC 100

    链接 https://arc100.contest.atcoder.jp/ C Linear Approximation 题解 把ai减去i后排序, 我们要的b就是排完序后的中位数 Code #inc ...

  8. CodeForces - 816C Karen and Game(简单模拟)

    Problem Description On the way to school, Karen became fixated on the puzzle game on her phone! The ...

  9. java 反向工具类

    1.ReflectUtil.java package com.example.scansell; import android.util.Log; import java.lang.reflect.C ...

  10. Windows下Apache应用环境塔建安全设置(目录权限设置)

    目的:为Apache,php配置受限制的用户权限.保护系统安全.需要的朋友可以参考下. 环境配置情况: apache安装目录:d:\www-s\apache php目录:d:\www-s\php5 m ...