1.混合测序基础

测序成本虽然下降了,但对于植物育种应用研究来说还是很高,动不动就上百群体,小小植物个体价值又低,测完了很可能后面就用不到了。这时,混合样本测序是一种省钱的好办法。

混池测序(Pool-seq)相对于GWAS或其他精细定位策略而言,其实是一个初定位产品,其结果很有可能是跟性状相关的候选区域。

概念:

混合样本测序一般是选择表型极端或目标性状差异的个体混合,构建一个文库进行测序。

原理:

假设每个样本被测到的概率相等,通过测序reads数计算等位基因频率。如果基因与研究性状有关,那么理想情况下,表型差异显著的混合样本中,该基因等位基因频率差异显著。

不足:

  • 大群体的等位基因频率才能代表该群体真实的情况,选择少量样本可能带来选样误差;
  • 各样本测序量不均一引入新的偏差。

    但研究表明,在大样本量混合且提高测序深度的情况下,混合样本能够准确评估等位基因频率。

影响因素及建议:

  • 群体类型:群体类型决定研究背景是否纯,影响定位的精确性。混合样本测序最好是只有目标性状存在差异,其他性状一致,即遗传背景纯,一般永久群体>临时群体>自然群体。

  • 混合样本量:多态性高的群体(如F2),推荐混合样本量>100;多态性低的群体(如BCF),推荐混合样本量>20;且作图群体选择比例<25%。

  • 亲本选择:两个亲本尽量性状差异单一,杂合位点少。

  • 混合样本的均一性:样本量小的时候影响大,样本量大影响小。

  • 表型:表型统计不准确,或由多个微效基因控制,会引起定位效果不佳。

  • 参考基因组:基因组组装好坏,基因组注释情况,物种连锁不平衡强易导致候选区域过大。建议采用组装到染色体水平的参考基因组。

  • 测序错误:混合样本测序比较难通过算法区分是测序错误还是稀有变异,测序深度高能有效降低影响。

  • 测序数据量:测序数据量推荐50X以上,测序深度高有利于检测到多态的SNP位点。

  • 比对:混合样本无法校正比对错误,CNV会影响等位基因频率统计。

2. 点突变检测

对于隐形纯合点突变,效果较好。

MutMap和MutMap+是利用SNP-index算法,需要参考基因组,如果目标位点位于参考基因组没有组装上的gap区,或是参考基因组不具有的序列中,利用MutMap检测方法就不能有效检测到目标突变位点。

MutMap-Gap方法结合了MutMap和de novo组装。先通过MutMap分析SNP-index peak区,发现找不到跟突变性状相关的基因,再将之前比对不上参考基因组的野生型亲本unmapped reads和MutMap分析中SNP-index peak区域的野生型亲本比对上的reads一起进行de novo组装,获得潜在的新基因,并以此为参考再计算SNP-index,检测目标突变位点。

3. BSA

BSA(Bulked segregant analysis,混合分组分析),利用目标性状存在极端表型差异的两个亲本构建分离群体,在子代分离群体中,选取两组表型差异极端的个体分别构建混合池 ,结合高通量测序技术对混合样本测序,比较两组群体在多态位点(SNP)的等位基因频率(AF)是否具有显著差异,定位与目标性状相关联的位点并对其进行注释,研究控制目标性状的基因及其分子机制。

SNP-index是主流的BSA定位算法。其原理是构建子代分离群体,经过挑选极端性状构建混池后对SNP进行检测,对各混池进行等位基因频率分析,并与其中一个亲本进行比较。与此亲本不同的基因型所占的比例,即为该位点的SNP-index。

(注意这里的reference并不是变异检测的参考基因组,而是构建群体所使用的亲本,所以SNP-index计算高度依赖于亲本测序数据。)

两个混池相减(上图右)得到了△SNP-index的结果,即两个混池之间SNP基因型频率的差异。理论上说,不与性状相关的位点,△SNP-index的值应当在0左右,代表混池之间不存在差异;而QTL及其相连锁位置的SNP,△SNP-index值应当呈现较高的数值。

△SNP index会存在因统计偏差造成的假阳性位点,可以通过计算滑窗内所有SNP的△SNP-index,来消除其影响,得到真正QTL所在的基因组区域。

其他算法如欧几里得距离(ED),Gradedpool-seq(Ridit检验)等。

这里的BSA是指狭义上的QTL-seq,针对有主效基因的数量性状。实际上上面的质量性状/点突变性状、InDel-seq(InDel突变性状)以及下面的BSR,都属于BSA的范畴,原理相似。此外还有QTG-seq。相应的Pipeline可参考:http://genome-e.ibrc.or.jp/home/bioinformatics-team/mutmap

4. BSR

BSR(Bulked segregant RNA sequencing)同样依据分组混合的原理,在RNA水平上进行高通量测序并定位候选基因,即BSA+RNAseq。BSR的混池同样选取分离群体中的极端性状单株,混池用的单株数会比BSA多一些(大多大于30),提取RNA进行混池,再进行转录组测序,mapping参考基因组后同样进行变异分析,确定候选区间。BSR的优势在于不仅提供变异信息,还能提供候选区域中基因的表达信息。

BSR的劣势:RNAseq只能检测表达基因上的SNP,检测的SNP数量少,一般只适用于高频的SNP。同时由于存在RNA编辑等问题,RNA层面检测的SNP和DNA层面也是有差别的,所以只有当DNA层面无法实现(复杂基因组)或DNA测序成本过高(超大基因组)等情况下可选择BSR,否则还是优先选择BSA。

5. 混合样本GWAS分析

Pool –GWAS也是一种省钱策略,但还是非常小众。

比如:GWAS study using DNA pooling strategy identifies association of variant rs4910623 in OR52B4 gene with anti-VEGF treatment response in age-related macular degeneration

Pool –GWAS研究复杂遗传背景的性状功效降低,对稀有变异的检测能力下降。

6. 混合样本驯化研究

同样,分析获得的驯化相关位点很多,如果想用类似的方法检测复杂性状相关位点,后续挖掘真正的功能位点的难度还是很大。

7. 小结

Ref:

华大科技公众号《混合样本测序,这些“坑”记得跳过!》《经典案例 | 我的研究适合“混合测序”吗?》

BSA专题——分析方法大汇总

美吉生物公众号《BSA的姊妹产品——BSR》

BSA的原理

没看过这些文章,请不要尝试BSA定位 | 群体研究

混池测序研究中如何不被这些问题困扰?

混合(Pooling)样本测序研究的更多相关文章

  1. RNA测序研究现状与发展

    RNA测序研究现状与发展 1 2,584 A+ 所属分类:Transcriptomics   收  藏 通常来说,某一个物种体内所有细胞里含有的DNA都应该是一模一样的,只是因为每一种细胞里所表达的R ...

  2. 样本、文库、重复、lane、run - 二代测序原理及名词解释

    参考: 独占鳌头的Illumina仪器(二代测序篇) HiSeq2000测序原理.流程与仪器 NGS文库制备的方法比较[心得点评] 各种测序文库构建方式 样本:就是待测的DNA.RNA或蛋白序列,样本 ...

  3. 柳叶刀重磅出击!全外显子测序在胎儿结构异常的评估Whole-exome sequencing in the evaluation of fetal structural anomalies: a prospective cohort study

    柳叶刀发表的文献解读:Whole-exome sequencing in the evaluation of fetal structural anomalies: a prospective coh ...

  4. RNA测序的质量控制

    RNA测序的质量控制 发表评论 3,112 A+ 所属分类:Transcriptomics   收  藏 ENCODE项目向我们揭示,人类基因组中超过70%能得到转录,只不过不会发生在同一个细胞里.为 ...

  5. 全基因组测序 Whole Genome Sequencing

    全基因组测序 Whole Genome Sequencing 全基因组测序(Whole Genome Sequencing,WGS)是利用高通量测序平台对一种生物的基因组中的全部基因进行测序,测定其 ...

  6. (基因功能 & 基因表达调控)研究方案

    做了好久的RNA-seq分析,基因表达也在口头溜了几年了,但似乎老是浮在表面. 对一件事的了解程度决定了你的思维深度,只想做技工就不用想太多,想做大师就一定要刨根问底. 老是说基因表达,那么什么是基因 ...

  7. 第三代PacBio测序技术的测序原理和读长

    针对PacBio单分子测序——第三代测序技术的测序原理和读长     DNA基因测序技术从上世纪70年代起,历经三代技术后,目前已发展成为一项相对成熟的生物产业.测序技术的应用也扩展到了生物.医学.制 ...

  8. Data-independent acquisition mass spectrometry in metaproteomics of gut microbiota - implementation and computational analysis DIA技术在肠道宏蛋白质组研究中的方法实现和数据分析 (解读人:闫克强)

    文献名:Data-independent acquisition mass spectrometry in metaproteomics of gut microbiota - implementat ...

  9. Journal of Proteome Research | Current understanding of human metaproteome association and modulation(人类宏蛋白质组研究近期综述)(解读人:李巧珍)

    文献名:Current understanding of human metaproteome association and modulation(人类宏蛋白质组研究近期综述) 期刊名:J Prot ...

随机推荐

  1. try-catch-finally面试题

    try catch finally 执行顺序面试题总结 执行顺序 今天牛客网遇到这个题目,做对了,但是下面的评论却很值得看看 public class TestTry { public int add ...

  2. [no code][scrum meeting] Beta 1

    $( "#cnblogs_post_body" ).catalog() 会议纪要 会议在微信群进行:集体反思alpha阶段博客分数尤其是scrum博客分数低的问题,讨论beta阶段 ...

  3. Noip模拟49 2021.9.7

    T1 reverse 又一道板子打假的挂分题,直接挂到倒二.. 考场上思路神奇,居然想到用$bfs$建边然后跑最短路, 其实当时也想到了直接$bfs$,但是不知道为啥觉得$dij$屌就没直接打$bfs ...

  4. luogu P2746 [USACO5.3]校园网Network of Schools 题解

    前言: 火星题... 但是我调了半天,最后看了题解才明白. Wtcl 解析: 显然先缩个点. 第一问,就是问多少入度为0的点. 第二问,抽象一下就是要添加一些边,让一个DAG变成一个SCC,求最小边数 ...

  5. Flink计算pv和uv的通用方法

    PV(访问量):即Page View, 即页面浏览量或点击量,用户每次刷新即被计算一次. UV(独立访客):即Unique Visitor,访问您网站的一台电脑客户端为一个访客.00:00-24:00 ...

  6. 嵌入式开发板nfs挂载

    板子要开始调试了,第一个头大的问题就是调试过程中更新的文件怎么更新到板子上,以前用sd卡拷贝来来回回太浪费时间了,adb也需要接线各种连接操作. 现在板子有wifi可用,是时候把nfs共享搭起来了. ...

  7. 把数组排成最小的数 牛客网 剑指Offer

    把数组排成最小的数 牛客网 剑指Offer 题目描述 输入一个正整数数组,把数组里所有数字拼接起来排成一个数,打印能拼接出的所有数字中最小的一个.例如输入数组{3,32,321},则打印出这三个数字能 ...

  8. RocketMQ源码详解 | Broker篇 · 其二:文件系统

    概述 在 Broker 的通用请求处理器将一个消息进行分发后,就来到了 Broker 的专门处理消息存储的业务处理器部分.本篇文章,我们将要探讨关于 RocketMQ 高效的原因之一:文件结构的良好设 ...

  9. 浅议NetMQ常见模式和消息加密机制

    浅议NetMQ常见模式和消息加密机制 概述 在传统企业级开发中,消息队列机制已经成为一种非常常见的技术实现手段,而基于NetMQ则看起来有点像一朵"奇葩",看起来从名字似乎是一个消 ...

  10. 论文翻译:Fullsubnet: A Full-Band And Sub-Band Fusion Model For Real-Time Single-Channel Speech Enhancement

    论文作者:Xiang Hao, Xiangdong Su, Radu Horaud, and Xiaofei Li 翻译作者:凌逆战 论文地址:Fullsubnet:实时单通道语音增强的全频带和子频带 ...