contig 的覆盖度

2024-11-06

测序深度和覆盖度（Sequencing depth and coverage）

总是跑数据,却对数据一无所知,这说不过去吧. 看几篇文章吧 Sequencing depth and coverage: key considerations in genomic analyses(只讲二代) Assembly of large genomes using second-generation sequencing(参考文献) Identification of optimum sequencing depth especially for de novo genome asse

assembly|reads to contig|contig to scaffold|coverage|depth| tandem repeats

(组装方面):SOAPdenovo ,因为采用de Bruijn graph algorithm算法和stepwise strategy ,所以排错能力高,所以我们获得高质量数据. de Bruijn graph algorithm算法???? reads到contig :多个reads比对,比对后reads之间有重叠(overlap)区,拼接获得的序列称为Contig. contig到scaffold:把mate-pair得到的用于确立位置的短reads和insert组合,将原本孤立的cont

Contig|scaffold|N50|L50|NG50|贪心算法|de bruiji graph|

生物信息学 Contig是reads拼成的连续的DNA片段,连续表达一个gene.通过双端测序的contig可确定contig之间的关系得到scaffold,Scaffold是reads拼成的有gap的DNA片段.理想情况下,一条染色体用同一个scaffold的表达.整个genome存在很多零碎片段,可舍弃.因为duplication产生很多overlap. N50,L50和NG50是评价genome assembly的quality的标准,评价长度时使用N50,N50是一个contig的长度.

GATK-BWA-MEM handle GRCh38 alternate contig mappings

1. For the Impatient # Download bwakit (or from <http://sourceforge.net/projects/bio-bwa/files/bwakit/> manually) wget -O- http://sourceforge.net/projects/bio-bwa/files/bwakit/bwakit-0.7.15_x64-linux.tar.bz2/download \ | gzip -dc | tar xf - # Genera

计算基因上外显子碱基覆盖度（exon coverage depth）：Samtool工具使用

假设想要计算ATP1A4基因上的外显子碱基覆盖度首先查询这个基因所有exon的起始和终止位置,查询链接:http://grch37.ensembl.org/Homo_sapiens/Transcript/Exons?db=core;g=ENSG00000132681;r=1:160121360-160156767;t=ENST00000368081 如下图所示,可以看到该基因有6个转录本,假定选择第二个转录本ENST00000470705.1,点击进去,显示该转录本有5个外显子具体外显子的详

四种不同的SNP calling算法call低碱基覆盖度测序数据时，SNVs数量的比较（Comparing a few SNP calling algorithms using low-coverage sequencing data）

摘要:如果不设置任何过滤标准的话,SOAPsnp会call出更多的SNVs:AtlasSNP2算法比较严格,因此call出来的SNVs数量是最少的,GATK 和 SAMtools call出来的数量位于SOAPsnp 和 Atlas-SNP2之间:四种calling算法的整体一致性是很低的,尤其在non-dbSNPs数据库中:GATK 和 Atlas-SNP2有较高的阳性call率和灵敏性,GATK call出来的SNVs数量比较多. 1.dbSNP数据库和non-dbSNPs在用四种不同软件c

外显子分析弹错解决方案：Exception in thread "main" picard.PicardException: New reference sequence does not contain a matching contig for NC_007605

最近从公共数据库下载了一堆bam文件和reference 基因组文件,重新分析外显子流程时,跑出了“Exception in thread "main" picard.PicardException: New reference sequence does not contain a matching contig for NC_007605”这个错误. 源代码是这样的: java -jar picard.jar ReorderSam \ I=original.bam \ O=reor

Bedtools genomecov 计算覆盖度

简单说明: 从2.28.0版开始,bedtools使用htslib库支持CRAM格式除了BAM文件,bedtools默认所有的输入文件都以TAB键分割除非使用-sorted选项,bedtools默认不支持大于512M的染色体如果没有使用-sorted参数对染色体按编码顺序进行排序(e.g., sort -k1,1 -k2,2n ),则必须使用-g参数输入相同排序染色体 bedtools要求染色体命名方案在比较文件中是相同的(例如'chr1'和'1'不能同时存在) 1 genomecov 计

全国气象数据/降雨量分布数据/太阳辐射数据/NPP净初级生产力数据/植被覆盖度数据

气象数据一直是一个价值较高的数据,它被广泛用于各个领域的研究当中.气象数据包括有气温.气压.相对湿度.降水.蒸发.风向风速.日照等多种指标,但是包含了这些全部指标的气象数据却较难获取,即使获取到了也不能随意分享. 数据已经打包分享,这里是数据百度云下载链接: 1级目录文件名 PRS SURF_CLI_CHN_MUL_DAY-PRS-10004-YYYYMM.TXT(本站气压) TEM SURF_CLI_CHN_MUL_DAY-TEM-12001-YYYYMM.TXT(气温)

PBcR - 纠错及组装算法

单分子测序reads(PB)的混合纠错和denovo组装我们广泛使用的PBcR的原始文章就是这一篇原文链接:Hybrid error correction and de novo assembly of single-molecule sequencing reads 简介:PBcR里面有一种自纠算法(PacBioToCA),纠错的核心本质就是多重序列比对,为了加快比对速度使用了MHAP算法(MinHash).三代的错误分布不是完全随机的,不要以为错误是均匀分布的!!! 摘要: PB技术可以

Falcon：三代reads比对组装工具箱

主页:github: PacificBiosciences/FALCON 简介 Falcon是一组通过快速比对长reads,从而来consensus和组装的工具. Falcon工具包是一组简单的代码集合,我使用它们来研究单倍体和二倍体基因组的高效组装算法. 为了提高计算速度,它有一些后台代码是使用C来实现的,为了方便一些简单的前端是用Python编写的. Falcon不是一个傻瓜的组装工具(除了很小的基因组),为了得到最好的结果,你可能需要了解各种分布式计算系统和一些基本的基因组组装理论.FAQ

Canu FAQ常见问题

链接:Canu FAQ Q: What resources does Canu require for a bacterial genome assembly(细菌基因组组装)? A mammalian(哺乳类) assembly? A: Canu is designed to scale resources(自动测量系统硬件资源) to the system it runs on. It will report if the a system does not meet the minim

Canu Quick Start（快速使用Canu）

Canu Quick Start Canu Quick Start PBcR (老版的canu) CA Canu specializes in(专门从事) assembling PacBio or Oxford Nanopre sequences. Canu will correct the reads, then trim suspicious regions(修剪可疑区域) (such as remaining SMRTbell adapter), then assemble the cor

基因组组装工具之 SOAPdenovo 使用方法

SOAPdenovo是一个新颖的适用于组装短reads的方法,能组装出类似人类基因组大小的de novo草图. 该软件特地设计用来组装Illumina GA short reads,新的版本减少了在图创建时的内存消耗,解决了contig组装时的重复区域的问题,增加了scaffold组装时的覆盖度和长度,改进了gap closing,更加适用于大型基因组组装. (SOAPdenovo是为了组装大型植物和动物基因组而设计的,同样也适用于组装细菌和真菌,组装大型基因组大小如人类时,可能需要150G内存

tablet 的使用

之前一直用jbrowse 发现有些信息展示的不准确,如浏览一个bam文件的比对情况.在某一位点,深度为1000,但是浏览器显示的小于1000,并且read也经常会缺少.所以果断放弃jbrowse,用tablet.经过对比发现,在jbrowse显示错误的地方tablet显示的是正确的. 并且tablet可以在windows系统下.安装更加容易,也不需要什么配置文件.下面说说tablet的主要使用方法. 准备好参考基因组,bam以及bam的index文件 ctrl + o 先导入bam文件然后再

NGS概念大科普（转）

NGS又称为下一代测序技术,高通量测序技术以高输出量和高解析度为主要特色,能一次并行对几十万到几百万条DNA分子进行序列读取,在提供丰富的遗传学信息的同时,还可大大降低测序费用.缩短测序时间的测序技术. Sanger法测序(一代测序):是一种利用DNA聚合酶来延伸结合在待定序列模板上的引物的测序技术.每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP).由于ddNTP缺乏延伸所需要的3-OH基团,使延长的

SOAPdenovo组装软件使用记录

背景: 1.为什么要从头测序组装基因组? 基因组是不同表型的遗传基础:获得参考基因组是深入研究一个生物体全基因组的第一步也是必须的一步:从头测序组装能够对新的测序物种构建参考基因组: 2.为什么要研究全基因组? 确定基因组中缺失了什么:确定难以生化研究的基因和pathways:研究感兴趣的pathway通路中的每一个基因:研究基因组的非编码区域(introns内含子.promoters启动子.telomeres端粒等)的调控机理和结构特征:基因组提供了一个可以进行各种统计的大型数据库(provi

SOAPdenove 使用

0. 该软件原理它以kerm为节点单位,利用de Bruijn图的方法实现全基因组的组装.何为de Bruijn............... contig 的构建过程: (1)选取初始Kmer, 满足两个条件. ①给定阈值,min_read_num, 出现在几条reads上面: ②Kmer出现在reads的第一位,就可以开始参与拼接:如图2-4. 表中,Kmer为4, reads长12,出现在5条reads上 (2)选取后继Kmer 满足一下条件: ①后继Kmer的前k-1个碱基与当前Kme

StringTie用法详解

StringTie 参考链接: https://ccb.jhu.edu/software/stringtie/index.shtml?t=manual#input https://www.cnblogs.com/adawong/articles/7977314.html 参数简介 StringTie的基本用法: stringtie <aligned_reads.bam> [options]* 其中,aligned_reads.bam 是输入文件,该输入文件要求必须按其基因组位置排序, HISA

quast-lg

1.官网简介 http://cab.spbu.ru/software/quast-lg/ QUAST- lg是QUAST的一个扩展,用于评估大型基因组装配(直至哺乳动物大小).QUAST- lg从5.0.0版本开始包含在QUAST包中(下载最新版本).像往常一样运行QUAST,不要忘记在您的命令中添加‐large选项! 新功能的简短列表(参见所有更改): 通过使用新的快速比对(minimap2)和重构对齐分析模块,显著提高了速度新的基于k-mer的评估基因组完整性和正确性度量 BUSCO增加了

contig 的覆盖度

热门专题