1.混合测序基础

测序成本虽然下降了，但对于植物育种应用研究来说还是很高，动不动就上百群体，小小植物个体价值又低，测完了很可能后面就用不到了。这时，混合样本测序是一种省钱的好办法。

混池测序（Pool-seq）相对于GWAS或其他精细定位策略而言，其实是一个初定位产品，其结果很有可能是跟性状相关的候选区域。

概念：

混合样本测序一般是选择表型极端或目标性状差异的个体混合，构建一个文库进行测序。

原理：

假设每个样本被测到的概率相等，通过测序reads数计算等位基因频率。如果基因与研究性状有关，那么理想情况下，表型差异显著的混合样本中，该基因等位基因频率差异显著。

不足：

大群体的等位基因频率才能代表该群体真实的情况，选择少量样本可能带来选样误差；
各样本测序量不均一引入新的偏差。

但研究表明，在大样本量混合且提高测序深度的情况下，混合样本能够准确评估等位基因频率。

影响因素及建议：

群体类型：群体类型决定研究背景是否纯，影响定位的精确性。混合样本测序最好是只有目标性状存在差异，其他性状一致，即遗传背景纯，一般永久群体>临时群体>自然群体。
混合样本量：多态性高的群体（如F2），推荐混合样本量>100；多态性低的群体（如BCF），推荐混合样本量>20；且作图群体选择比例<25%。
亲本选择：两个亲本尽量性状差异单一，杂合位点少。
混合样本的均一性：样本量小的时候影响大，样本量大影响小。
表型：表型统计不准确，或由多个微效基因控制，会引起定位效果不佳。
参考基因组：基因组组装好坏，基因组注释情况，物种连锁不平衡强易导致候选区域过大。建议采用组装到染色体水平的参考基因组。
测序错误：混合样本测序比较难通过算法区分是测序错误还是稀有变异，测序深度高能有效降低影响。
测序数据量：测序数据量推荐50X以上，测序深度高有利于检测到多态的SNP位点。
比对：混合样本无法校正比对错误，CNV会影响等位基因频率统计。

2. 点突变检测

对于隐形纯合点突变，效果较好。

MutMap和MutMap+是利用SNP-index算法，需要参考基因组，如果目标位点位于参考基因组没有组装上的gap区，或是参考基因组不具有的序列中，利用MutMap检测方法就不能有效检测到目标突变位点。

MutMap-Gap方法结合了MutMap和de novo组装。先通过MutMap分析SNP-index peak区，发现找不到跟突变性状相关的基因，再将之前比对不上参考基因组的野生型亲本unmapped reads和MutMap分析中SNP-index peak区域的野生型亲本比对上的reads一起进行de novo组装，获得潜在的新基因，并以此为参考再计算SNP-index，检测目标突变位点。

3. BSA

BSA（Bulked segregant analysis，混合分组分析），利用目标性状存在极端表型差异的两个亲本构建分离群体，在子代分离群体中，选取两组表型差异极端的个体分别构建混合池，结合高通量测序技术对混合样本测序，比较两组群体在多态位点（SNP）的等位基因频率（AF）是否具有显著差异，定位与目标性状相关联的位点并对其进行注释，研究控制目标性状的基因及其分子机制。

SNP-index是主流的BSA定位算法。其原理是构建子代分离群体，经过挑选极端性状构建混池后对SNP进行检测，对各混池进行等位基因频率分析，并与其中一个亲本进行比较。与此亲本不同的基因型所占的比例，即为该位点的SNP-index。

（注意这里的reference并不是变异检测的参考基因组，而是构建群体所使用的亲本，所以SNP-index计算高度依赖于亲本测序数据。）

两个混池相减（上图右）得到了△SNP-index的结果，即两个混池之间SNP基因型频率的差异。理论上说，不与性状相关的位点，△SNP-index的值应当在0左右，代表混池之间不存在差异；而QTL及其相连锁位置的SNP，△SNP-index值应当呈现较高的数值。

△SNP index会存在因统计偏差造成的假阳性位点，可以通过计算滑窗内所有SNP的△SNP-index，来消除其影响，得到真正QTL所在的基因组区域。

其他算法如欧几里得距离(ED)，Gradedpool-seq（Ridit检验）等。

这里的BSA是指狭义上的QTL-seq，针对有主效基因的数量性状。实际上上面的质量性状/点突变性状、InDel-seq（InDel突变性状）以及下面的BSR，都属于BSA的范畴，原理相似。此外还有QTG-seq。相应的Pipeline可参考：http://genome-e.ibrc.or.jp/home/bioinformatics-team/mutmap

4. BSR

BSR（Bulked segregant RNA sequencing）同样依据分组混合的原理，在RNA水平上进行高通量测序并定位候选基因，即BSA+RNAseq。BSR的混池同样选取分离群体中的极端性状单株，混池用的单株数会比BSA多一些（大多大于30），提取RNA进行混池，再进行转录组测序，mapping参考基因组后同样进行变异分析，确定候选区间。BSR的优势在于不仅提供变异信息，还能提供候选区域中基因的表达信息。

BSR的劣势：RNAseq只能检测表达基因上的SNP，检测的SNP数量少，一般只适用于高频的SNP。同时由于存在RNA编辑等问题，RNA层面检测的SNP和DNA层面也是有差别的，所以只有当DNA层面无法实现（复杂基因组）或DNA测序成本过高（超大基因组）等情况下可选择BSR，否则还是优先选择BSA。

5. 混合样本GWAS分析

Pool –GWAS也是一种省钱策略，但还是非常小众。

比如：GWAS study using DNA pooling strategy identifies association of variant rs4910623 in OR52B4 gene with anti-VEGF treatment response in age-related macular degeneration

Pool –GWAS研究复杂遗传背景的性状功效降低，对稀有变异的检测能力下降。

6. 混合样本驯化研究

同样，分析获得的驯化相关位点很多，如果想用类似的方法检测复杂性状相关位点，后续挖掘真正的功能位点的难度还是很大。

7. 小结

Ref：

华大科技公众号《混合样本测序，这些“坑”记得跳过！》《经典案例 | 我的研究适合“混合测序”吗？》

BSA专题——分析方法大汇总

美吉生物公众号《BSA的姊妹产品——BSR》

BSA的原理

 没看过这些文章，请不要尝试BSA定位 | 群体研究

 混池测序研究中如何不被这些问题困扰？

混合（Pooling）样本测序研究的更多相关文章

RNA测序研究现状与发展
RNA测序研究现状与发展 1 2,584 A+ 所属分类:Transcriptomics 收藏通常来说,某一个物种体内所有细胞里含有的DNA都应该是一模一样的,只是因为每一种细胞里所表达的R ...
样本、文库、重复、lane、run - 二代测序原理及名词解释
参考: 独占鳌头的Illumina仪器(二代测序篇) HiSeq2000测序原理.流程与仪器 NGS文库制备的方法比较[心得点评] 各种测序文库构建方式样本:就是待测的DNA.RNA或蛋白序列,样本 ...
柳叶刀重磅出击！全外显子测序在胎儿结构异常的评估Whole-exome sequencing in the evaluation of fetal structural anomalies: a prospective cohort study
柳叶刀发表的文献解读:Whole-exome sequencing in the evaluation of fetal structural anomalies: a prospective coh ...
RNA测序的质量控制
RNA测序的质量控制发表评论 3,112 A+ 所属分类:Transcriptomics 收藏 ENCODE项目向我们揭示,人类基因组中超过70%能得到转录,只不过不会发生在同一个细胞里.为 ...
全基因组测序 Whole Genome Sequencing
全基因组测序 Whole Genome Sequencing 全基因组测序(Whole Genome Sequencing,WGS)是利用高通量测序平台对一种生物的基因组中的全部基因进行测序,测定其 ...
（基因功能 & 基因表达调控）研究方案
做了好久的RNA-seq分析,基因表达也在口头溜了几年了,但似乎老是浮在表面. 对一件事的了解程度决定了你的思维深度,只想做技工就不用想太多,想做大师就一定要刨根问底. 老是说基因表达,那么什么是基因 ...
第三代PacBio测序技术的测序原理和读长
针对PacBio单分子测序——第三代测序技术的测序原理和读长 DNA基因测序技术从上世纪70年代起,历经三代技术后,目前已发展成为一项相对成熟的生物产业.测序技术的应用也扩展到了生物.医学.制 ...
Data-independent acquisition mass spectrometry in metaproteomics of gut microbiota - implementation and computational analysis DIA技术在肠道宏蛋白质组研究中的方法实现和数据分析（解读人：闫克强）
文献名:Data-independent acquisition mass spectrometry in metaproteomics of gut microbiota - implementat ...
Journal of Proteome Research | Current understanding of human metaproteome association and modulation（人类宏蛋白质组研究近期综述）(解读人：李巧珍）
文献名:Current understanding of human metaproteome association and modulation(人类宏蛋白质组研究近期综述) 期刊名:J Prot ...

随机推荐

Map中getOrDefault()与数值进行比较
一般用哈希表计数时,value类型通常为Integer.如果想比较某个key出现的次数,使用get(key)与某个数值进行比较是有问题的.当哈希表中并不包含该key时,因为此时get方法返回值是nul ...
Scrum Meeting 0602
零.说明日期:2021-6-2 任务:简要汇报两日内已完成任务,计划后两日完成任务一.进度情况组员负责两日内已完成的任务后两日计划完成的任务困难 qsy PM&前端完成后端管理 ...
Python课程笔记（七）
今天学习神奇的海龟,非常有意思,还有很多图片想去绘制,分享一个turtle绘图网站: https://www.python123.io/index/turtles/latest , 要是可以分享出源码 ...
从零开始 DIY 智能家居 - 基于 ESP32 的智能紫外线传感器模块
目录前言硬件选择二.使用步骤获取代码设备控制命令: 设备和协议初始化流程: 配置设备信息回调函数注册数据获取与上报流程总结前言做了这么多传感器都是自己玩,这次家里人看不下去了,非得 ...
Ubuntu mysql安装与使用
Ubuntu 下安装 mysql 运行下面的shell代码 #安装mysql sudo apt-get -y install mysql-server sudo apt-get -y install ...
js-arguments 函数参数对象详解
前言 JavaScript 函数参数不同于其他编程语言,既不需要规定参数的类型,也不需要关心参数的个数,因此 JavaScript 因函数参数而变得十分灵活,本文总结一下 arguments 参数对象 ...
Java不同时区(timezone)之间时间转换
最近出现一个问题是这样的:我们的系统在国外打印的日志时间由于时差关系和国内不一致,看起来不方便,希望国外的日志和国内保持一致,即:需要对不同时区的时间做转换调整,统一为国内时间. 一.关于时区的一些概 ...
Vue.js教程 1.前端框架学习介绍
Vue.js教程 1.前端框架学习介绍什么是Vue.js 为什么要学习流行框架什么是Vue.js Vue.js 是目前最火的一个前端框架,React是最流行的一个前端框架(React除了开发网站, ...
nginx 支持websocket
nginx 反向代理websocket nginx配置请求地址及路径:ws://x.x.x.x/web/springws/websocket.ws 解析 map 指令上面 nginx.conf 配 ...
日记啦QWWQ
随便写写时间 :2021年11月15日今天是在博客园创建博客的第一天,彻底放弃在CSDN中的博客,广告实在是太多了,QWQ. 来计科的第一个学期就快要结束了,期间有很多的遗憾,往后加油吧! 没什么 ...

混合（Pooling）样本测序研究