名词解释

De novo:拉丁文,从头开始的意思,de nove测序则是指在不需要任何参考序列的情况下对某一物种进行基因组测序,然后将测得的序列进行拼接、组装,从而绘制该物种的全基因组序列图谱。

重测序概念:重测序是全基因组重新测序的简称,是指是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。(没有组装的短的Reads序列)
.
.
Reads:即我们通常说的读长的意思,它是指高通量测序平台直接产生的DNA序列。

Contig:是指Reads基于Overlap关系,拼接获得的长的序列;

Scaffold:是指将获得的Contig根据大片段文库的Pair-end关系,将Contig进一步组装成更长的序列;

Contig是无Gap的连续的DNA序列,而Scaffold是存在Gap的DNA序列。
.
.
大片段文库是指插入片段大于1Kb的文库,大片段文库主要是用于将Contig进一步组装成Scaffold。文库类型通常有2Kb、5Kb、10Kb、15Kb以及20Kb等。建库测序过程如下图:

小片段文库是指插入片段小于1Kb的文库,小片段文库产生的Reads主要用于拼接成Contig。例如在de nove测序中,我们通常要不同梯度下片段如250bp、350bp、500bp等;建库测序流程如图3所示。

值得注意的是除了de nove测序需要建大片段文库外,其他测序如重测序只需建一个小片段文库(250bp),而构建大片段文库过程繁琐,价格较高。这是de novo测序比重测序价格贵的原因之一。
.
.
基因组组装:
对于测得的序列,例如通过Hiseq X ten平台进行测序,我们直接获得是长度是许多的150bp Reads;de nove测序最重要的目的就是对这些短的Reads进行组装、拼接,最终绘制出这个物种的基因组图谱。
而重测序则不需要对Reads进行组装,而是直接将获得短的Reads序列与参考基因组进行比对,从而找出相应的变异位点。这是de novo测序比重测序价格贵的原因之二。
对于利用高通量技术对物种基因组进行测序,不少人可能认为可以得到每条染色体的序列,这其实是错误的,很多物种得到的序列都是一些长长短短的Scaffolds以及一些未组装的Reads。如果要组装到染色体水平则需要借助遗传图谱的辅助。对于一些高重复高杂合的区域,由于目前组装算法以及测序技术的限制,这些区域往往组装的效果不是特别理想。
.
.
基因组组装质量评估:
ContigN50是指将拼接得到的Contig从长到短进行排列,排列成一条线。当长度达到总长度一半的时候,此时该条Contig的长度即为ContigN50;如图所示,Contig 2的长度即是ContigN50。

ScaffoldN50是将组装得到的Scaffold从长到短进行排列,当长度达到总长度一半的时候,此时该条Scaffold的长度即ScaffoldN50
一般来说ContiN50和ScaffoldN50的长度越长,基因组组装的质量也就越好。但是ContigN50和ScaffoldN50也不是唯一评估标准,还要看基因组的拼接的完整性等。

除用ContigN50和ScaffoldN50对基因组进行评估外,还会对基因组进行序列一致性评估、序列完整性评估、准确性评估、Cegma保守性评估等。
.
.
基因组注释:
对于组装得到的序列其实是一系列的ATCG的排列组合,那如何解读序列中的信息呢?

我们要做的是对基因组进行注释,注释主要是对基因组中的

  • 重复序列注释
  • 非编码RNA的注释
  • 基因结构的注释
  • 基因功能的注释

注释的方法有同源注释以及de nove预测等。重复序列的注释主要是串联重复序列注释(卫星DNA、小卫星DNA以及微卫星DNA等)和散列重复序列(LTR、LINE、SINE以及转座子序列等)。非编码RNA的注释主要是对MicroRNA、rRNA以及tRNA等注释;基因注释主要是对基因的启动子、外显子、内含子等注释。

原文链接:动植物De novo 测序知识大讲解


基因组de novo组装知识

基因组特征评估:

  1. 基因组大小估计
  2. 杂合率估计
  3. 重复率估计
  4. 基因组GC分布及污染估计

按测序材料采用不同策略进行测序:

  1. 简单基因组 二代(100X)+三代(20X)
  2. 复杂基因组 二代(200X)+三代(20X)
  3. 哺乳动物基因组 二代(100X)+三代(20X)



案例:

De novo 测序基础知识的更多相关文章

  1. MCP|ZWT|Precision de novo peptide sequencing using mirror proteases of Ac-LysargiNase and trypsin for large-scale proteomics(基于Ac-LysargiNase和胰蛋白酶的蛋白组镜像de novo测序)

    一.概述 由于难以获得100%的蛋白氨基酸序列覆盖率,蛋白组de novo测序成为了蛋白测序的难点,由Ac-LysargiNase(N端蛋白酶)和胰蛋白酶构成的镜像酶组合可以解决这个问题并具有稳定性, ...

  2. Uncovering thousands of new peptides with sequence-mask-search hybrid de novo peptide sequencing framework (使用序列掩码搜索结合肽段从头测序框架发现了数千个新肽段)-解读人:刘佳维

    期刊名:Molecular & Cellular Proteomics 发表时间:(2019年12月) IF:4.828 单位: 朱拉隆功大学 费城威斯塔研究所 物种:人 技术:de novo ...

  3. chromosome interaction mapping|cis- and trans-regulation|de novo|SRS|LRS|Haplotype blocks|linkage disequilibrium

    Dissecting evolution and disease using comparative vertebrate genomics-The sequencing revolution   s ...

  4. 全基因组测序 从头测序(de novo sequencing) 重测序(re-sequencing)

    全基因组测序 全基因组测序分为从头测序(de novo sequencing)和重测序(re-sequencing). 从头测序(de novo)不需要任何参考基因组信息即可对某个物种的基因组进行测序 ...

  5. 基础知识漫谈(2):从设计UI框架开始

    说UI能延展出一丢丢的东西来,光java就有swing,swt/jface乃至javafx等等UI toolkit,在桌面上它们甚至都不是主流,在web端又有canvas.svg等等. 基于这些UI工 ...

  6. DISCOVAR de novo

    海宝建议用这个拼接软件 http://www.broadinstitute.org/software/discovar/blog/?page_id=98 DISCOVAR – variant call ...

  7. 【Xamarin开发 Android 系列 4】 Android 基础知识

    原文:[Xamarin开发 Android 系列 4] Android 基础知识 什么是Android? Android一词的本义指“机器人”,同时也是Google于2007年11月5日宣布的基于Li ...

  8. 【RL-TCPnet网络教程】第41章 HTTP超文本传输协议基础知识

    第41章      HTTP超文本传输协议基础知识 本章节为大家讲解HTTP(HyperText Transfer Protocol,超文本传输协议),从本章节开始,正式进入嵌入式Web的设计和学习. ...

  9. React Native 入门基础知识总结

    中秋在家闲得无事,想着做点啥,后来想想,为啥不学学 react native.在学习 React Native 时, 需要对前端(HTML,CSS,JavaScript)知识有所了解.对于JS,可以看 ...

随机推荐

  1. Windows手动添加开机启动项

    @方法1. 添加程序完整路径到注册表HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Run下 或者添加到HKEY_CURREN ...

  2. ubuntu配置服务器环境

    今天环境不知道怎么就不能用了.自己新配了一个: 添加源: vi /etc/apt/sources.list 将下面这些源添加进去: deb http://debian.ustc.edu.cn/ubun ...

  3. Android中直播视频技术探究之---视频直播服务端环境搭建(Nginx+RTMP)

    一.前言 前面介绍了Android中视频直播中的一个重要类ByteBuffer,不了解的同学可以 点击查看 到这里开始,我们开始动手开发了,因为我们后续肯定是需要直播视频功能,然后把视频推流到服务端, ...

  4. 【MySQL】过滤后的结果集较大,用LIMIT查询分页记录,查询效率不理想

    > 参考的优秀文章 优化LIMIT分页--<高性能MySQL>(电子工业出版社) > 场景描述 遇到一个场景:查询排序后的结果集较大,我们采用分页显示,每页显示20条记录,但是 ...

  5. VirtualBox下Ubuntu利用桥接方式上网

    1.打开virtualbox,选择[设置]-[网络]将连接方式改为[Bridged Adapter] 2.在Ubuntu中, 运行sudo gedit /etc/network/interfaces ...

  6. join(添加字符)与id显示

    #!/usr/bin/env python li = ["alex",'sb'] l1 = "_".join(li) print(l1) print(id(li ...

  7. Java面试宝典2015版

    这套面试题主要目的是帮助那些还没有java软件开发实际工作经验,而正在努力寻找java软件开发工作的朋友在笔试时更好地赢得笔试和面试.由于这套面试题涉及的范围很泛,很广,很杂,大家不可能一天两天就看完 ...

  8. JAVA排序--[选择排序]

    package com.array; public class Sort_Select { /** * 项目名称:选择排序 ; * 项目要求:用JAVA对数组进行排序,并运用选择排序算法; * 作者: ...

  9. SQL语句like子句中的转义符

    如果想在SQL LIKE里查询有下划线'_'或是'%'等值的记录,直接写成like 'XXX_XX',则会把'_'当成是like的通配符.SQL里提供了 escape子句来处理这种情况,escape可 ...

  10. 屏幕 Dynpro

    声明:原创作品,转载时请注明文章来自SAP师太技术博客( 博/客/园www.cnblogs.com):www.cnblogs.com/jiangzhengjun,并以超链接形式标明文章原始出处,否则将 ...