assembly|reads to contig|contig to scaffold|coverage|depth| tandem repeats
(组装方面):SOAPdenovo ,因为采用de Bruijn graph algorithm算法和stepwise strategy ,所以排错能力高,所以我们获得高质量数据。
de Bruijn graph algorithm算法????
reads到contig :多个reads比对,比对后reads之间有重叠(overlap)区,拼接获得的序列称为Contig。
contig到scaffold:把mate-pair得到的用于确立位置的短reads和insert组合,将原本孤立的contig按序前后连接,其中会调整contig方向以及contig可能会存在开口,得到一个完整的scafflod。
(组装1).assembled the short reads:得到pair-end短reads,overlap(比对效果好,没有模糊repeat)后获得contig;因为没有使用long insert-size paired-end libraries(因为long insert-size paired-end libraries会积累错误序列的overlap),所以我们得到很好contig(由n50长度可知)
因为长序列会积累错误序列的overlap,所以短序列排出来准确性高
测序深度(x):指测序得到的总碱基数(并不是连成序列)与待测基因组大小的比值
39-fold coverage short-reads:测试深度为39x:总数据量/基因长度
初次判定的总数据量可能估计基因组大小的100倍,因为物理上的因素(部分序列被酶降解等)最后得到73X
覆盖度(%):指测序获得的序列占整个基因组的比例,测序depth和coverage成倒数关系
(组装2)join the contigs into scaffolds:在可能为gap的区域添N,将insert一端mapping独立的contig;一端定位gap区域并且mapping unmapping end(mate-pair)。这样就得到了scaffold1(40kb);因为在close了所有能close的gap之后,仍有2.4%的gap(因为这些gap中约90%含有食肉类特异性转座元件和串联重复序列(原因一:因为短串联重复序列很难用现有的匹配算法拼接策略克服,)。 具有较高的单元标识和大于序列读取长度的长度,无法与当前数据进行组装。)(原因二:assembly丢失,因为狗与人序列的相似性,狗的串联重复序列占比少)
estimated intra-scaffold gaps:就是未测得的添N
什么是串联重复 tandem repeats?:短序列重复同时串联起来。
食肉类特异性转座元件为什么测不出来?转座子是存在于染色体DNA上可自主复制和位移的基本单位,因为它能够自主复制和位移,所以同串联重复序列难以测得的理由一致。
assembly|reads to contig|contig to scaffold|coverage|depth| tandem repeats的更多相关文章
- 计算基因上外显子碱基覆盖度(exon coverage depth):Samtool工具使用
假设想要计算ATP1A4基因上的外显子碱基覆盖度 首先查询这个基因所有exon的起始和终止位置,查询链接:http://grch37.ensembl.org/Homo_sapiens/Transcri ...
- GATK-BWA-MEM handle GRCh38 alternate contig mappings
1. For the Impatient # Download bwakit (or from <http://sourceforge.net/projects/bio-bwa/files/bw ...
- Falcon Genome Assembly Tool Kit Manual
Falcon Falcon: a set of tools for fast aligning long reads for consensus and assembly The Falcon too ...
- 8、Transcriptome Assembly
Created by Benjamin M Goetz, last modified on Jun 29, 2015 Assembly of RNA-seq short reads into a tr ...
- The sequence and de novo assembly of the giant panda genome.ppt
sequencing:使用二代测序原因:高通量,短序列 不用长序列原因: 1.算法错误率高 2.长序列测序将嵌合体基因错误积累.嵌合体基因:通过重组由来源与功能不同的基因序列剪接而形成的杂合基因 se ...
- quast-lg
1.官网简介 http://cab.spbu.ru/software/quast-lg/ QUAST- lg是QUAST的一个扩展,用于评估大型基因组装配(直至哺乳动物大小).QUAST- lg从5. ...
- GATK使用说明-GRCh38(Genome Reference Consortium)(二)
Reference Genome Components 1. GRCh38 is special because it has alternate contigs that represent pop ...
- soapdenovo
配置文件中的=号两边不能有空格,否则会报错 SOAPdenovo-63mer_v2.0 all -s TongJiN2.config -p 25 -K 63 -d 1 -R -F -o Lily_2 ...
- SOAPdenove 使用
0. 该软件原理 它以kerm为节点单位,利用de Bruijn图的方法实现全基因组的组装.何为de Bruijn............... contig 的构建过程: (1)选取初始Kmer, ...
随机推荐
- 玩下GourdScan
GourdScan是一个分布式SQL漏洞扫描器,采用Python+PHP开发,后端采用SQLMAP.通过浏览器代理方式获取请求进行漏洞检测. win10 准备: phpstudy python2.7 ...
- html5盒子模型
相关博客: Flex 布局教程:语法篇:http://www.ruanyifeng.com/blog/2015/07/flex-grammar.html Flex 布局教程:实例篇:http://ww ...
- (水题)洛谷 - P1149 - 火柴棒等式
https://www.luogu.org/problemnew/show/P1149 一开始还分类重复了.在非0的dfs中居然赋值了0,脑残得一笔. 其实就按 $lead0$ 分类就好了, $lea ...
- Codeforces630C【水题】
题意: 有一种数只会有7或者8构成,给一个n,问你前n位上有多少个这样的数. 思路: 对于一个 i 位,有2^i个数,然后前n项和就是2^(n+1)-2; 复习一下等比数列求和,等差数列求和吧; ①: ...
- sql server编写通用脚本自动检查两个不同服务器的新旧数据库的表结构差异
问题:工作过程中,不管是什么项目,伴随着项目不断升级版本,对应的项目数据库业务版本也不断升级,数据库出现新增表.修改表.删除表.新增字段.修改字段.删除字段等变化,如果人工检查,数据库表和字段比较多的 ...
- 3DMAX 合并镜像物体
如果镜像文件是实例,那么就不能用附加选项,所以可以先删除一半,再copy镜像出来,然后点选可编辑网格,在一个物体上选附加,再点选另一半即可
- Unity Transform常识(转)
Variables position: Vector3 物体在世界坐标中的位置. transform.position=Vector3(10,10,10)//把物体放到(x=10,y=10,z= ...
- Docker镜像文件操作
1什么是Docker镜像 Docker镜像是由文件系统叠加而成(是一种文件的存储形式).最底端是一个文件引导系统,即bootfs,这很像典型的Linux/Unix的引导文件系统.Docker用户几乎永 ...
- Music in Car CodeForces - 746F
Music in Car CodeForces - 746F 题意很难懂啊... 题意:http://blog.csdn.net/a838502647/article/details/74831793 ...
- F. Anton and School 位运算 + 化简
http://codeforces.com/contest/734/problem/F 因为 x + y = (x & y) + (x | y) 有了这个公式后,然后应该手动模拟一下,把公式化 ...