文献来源:

尹立林, 马云龙, 项韬, 朱猛进, 余梅, 李新云, 刘小磊, 赵书红. 全基因组选择模型研究进展及展望[J]. 畜牧兽医学报, 2019, 50(2): 233-242.

华中农大赵书红老师于2019年发表在《 畜牧兽医学报》上的综述,主要针对动物。

1. GS概况

  • 2009年开始奶牛选育已全部由GS主导,猪的GS国外大型公司已开展,禽类水产等动物也开始尝试GS。
  • 过去育种的缺点:系谱法将全同胞所有个体的育种值视为相同(实际存在个体差异),MAS对微效多基因解释的遗传变异有限。
  • 原理:分布于全基因组的高密度SNP标记中,至少有一个SNP能够与影响该目标性状的QTL处于 LD 状态,这样使得每个QTL的效应都可以通过SNP得到反映,将所有标记效应值累加,获得基因组估计育种值(GEBV)。

2. GS模型

1)直接法

把个体作为随机效应,参考群体和预测群体遗传信息构建的亲缘关系矩阵作为方差协方差矩阵,通过迭代法估计方差组分,进而求解混合模型获取待预测个体的估计育种值。

GBLUP

直接法的混合线性模型:

  • y为性状向量
  • b为固定效应
  • μ为随机效应,且服从均值为0,方差为Gσa2的正态分布,可记作μ~N(0, Gσa2),σa2为遗传方差,G为个体间的亲缘关系矩阵
  • X和Z分别为b和μ的关联矩阵
  • e为残差效应,服从正态分布N(0, Iσe2)

Vanraden方法计算G矩阵:

  • M为m×n标准化的基因型矩阵,m为标记个数,n为分型个体数
  • M,是M矩阵转置
  • pi为第i个位点最小等位基因频率

REML计算育种值:

采用约束最大似然法(REML)估计方差组分,计算育种值。

G矩阵/GBLUP优点:

  • 直接法与传统BLUP(ABLUP)方法原理一致,只是用基于标记计算的G矩阵代替了基于系谱计算的A矩阵
  • GBLUP计算快,能真实反映个体间遗传信息的差异,降低了孟德尔抽样造成的偏差,准确性更高。

GBLUP缺点:

  • 使所有标记对G矩阵具有等同的贡献
  • 不同性状利用相同的G矩阵

    实际上不同性状遗传机制不同,复杂程度不同,因此很多学者对GBLUP进行了改进。

直接法的模型改进

主要有两类:

①单随机效应

仍然在GBLUP模型中设置一个随机效应(不包含残差效应),但是在构建G矩阵过程中,对不同标记给予权重,称之为性状特异关系矩阵。

  • TABLUP
  • GBLUP|GA
  • 将大效应标记放入模型中作为固定效应,解释主要的遗传方差,剩余遗传方差由随机效应部分获取
  • 整合不同物种组学数据进行个体育种值估计
  • 将标记与基因通路信息整合构建个体亲缘关系矩阵
  • SSBLUP (single-step BLUP):同时使用系谱关系矩阵A和基因组关系矩阵G,获得新的矩阵H:





SSBLUP不仅可以估计被基因分型个体的育种值,而且可以估计未进行基因分型个体的育种值。

SSBLUP在猪全基因组选择上存在较大优势,是当前猪全基因组选择中最为广泛使用的方法之一。

②多随机效应

将标记分类,按照不同染色体区域、与性状关联程度大小等条件,将标记分为不同的组别,在模型中设置两个或多个随机效应。

  • GFBLUP
  • MultiBLUP:GS+GWAS+LRT
  • MKLMM:基于MultiBLUP

多随机效应灵活多变,但是当群体不断增加,多随机效应的方差组分估计成为一大难题,也成为多随机效应模型受制约的关键因素。

2)间接法

间接法模型

  • y为表型向量;
  • X为固定效应系数矩阵;
  • b为固定效应;
  • Zi为第i个位点数字化基因型向量(如:0, 1, 2);
  • gi为第i个位点效应值;
  • e为模型拟合残差,服从分布N~(0, Iσe2)。

多元回归的标记效应方程:

  • σgi2为第i个标记方差,直接与性状遗传构建相关。

间接法重点和难点在于如何对超参的先验分布,即对gi及其方差服从的分布进行合理假设。

  • RRBLUP (ridge regression BLUP):假设所有标记都具有效应,且来源于同一个分布,即σgi2相等。
  • 理论上RRBLUP与GBLUP方法是等价的。但实际上,不同性状遗传机理、控制的基因数目及遗传效应大小不同,认为所有标记都具有效应是不合理的,故假设所有标记方差不等更符合实际情况。
  • BayesA:认为所有标记都具有效应,且大部分标记效应较小,只有少部分大效应标记(参数求解过程结合了Bayes理论)。
  • Bayes B、C、Cpi等:认为大部分标记无效应,只有少部分标记具有效应。

几种经典Bayes方法的先验假设区别:

符合更复杂假设的模型,如Bayes模型,往往具有更多的待估参数,在提高预测准确度的同时带来了更大的计算量。

基于间接法的模型改进

  • BSLMM:结合Bayes和GBLUP
  • BayesR:适用于由简单到复杂的所有性状,因此具有更高的灵活性和广泛性
  • DPR
  • BayesN

3. GS模型比较

利用第16届QTL-MAS Workshop公布的3个模拟性状。该数据共包含4100个个体,其中4000(3000个有表型信息,1000个无表型信息)个个体具有基因型,因此需要预测的个体为1000个具有基因型的个体及100个无基因型个体。

模型比较结论

  • 利用系谱信息的BLUP模型准确性明显低于利用基因组信息的模型;
  • 间接法模型准确性优于GBLUP模型,计算时间更长,但与基于GBLUP改进的模型准确性基本等同;
  • 虽然间接法模型不断改进,但准确性并未明显提升;
  • 将大效应标记作为固定效应的Fixed GBLUP可提高GBLUP准确性,但是,由于加入的大效应标记较少,只能解释部分遗传变异,提升效果没有利用权重基因组关系矩阵的Weighted GBLUP高;
  • 对于分型个体而言SSBLUP相对于GBLUP并没有明显优势,而对于未分型的个体能够大大提高预测准确性。

4.问题及展望

  • 目前还没有一种模型能广泛适用于所有性状
  • 模型的两个重要挑战:计算准确性和计算效率
  • 直接法(GBLUP为代表)计算效率较高,但是计算准确性略差于间接法(BayesB为代表)
  • 间接法计算准确性较高,但计算量庞大,且无法实现并行运算,而育种讲求时效性,所以难以高效指导育种实践;
  • GS主要考虑加性效应,对于显性效应及互作效应等未纳入到育种值估计模型
  • GS主要在品种内进行,品种间由于遗传背景不同,跨品种预测准确性难以保证
  • 同品种间亲缘关系太远的个体育种值预测效果也不理想
  • GS只用到基因组信息,大量的多组学研究结果利用不够充分
  • 相比传统BLUP的稀疏矩阵,利用基因组信息计算的稠密矩阵给混合模型参数估计及模型求解带来了巨大的挑战,应通过数学或着计算机手段简化计算复杂度
  • 测序可减少对LD的依赖(相比芯片),得到更丰富的遗传信息,对于亲缘关系较近的群体可通过填充将芯片个体标记密度填充到测序水平。测序技术的应用将成为全基因组选择新时代的转折点,成本和计算又将是挑战。

【GS文献】全基因组选择模型研究进展及展望的更多相关文章

  1. 【GS文献】基因组选择在植物分子育种应用的最新综述(2020)

    目录 1. 简介 2. BLUP类模型 3. Bayesian类模型 4. 机器学习 5. GWAS辅助的GS 6. 杂交育种 7. 多性状 8. 长期选择 9. 预测准确性评估 10. GS到植物育 ...

  2. 【GS文献】基因组选择技术在农业动物育种中的应用

    中国农业大学等多家单位2017年合作发表在<遗传>杂志上的综述,笔记之. 作者中还有李宁院士,不胜唏嘘. 1.概述 GS的两大难题:基因组分型的成本,基因组育种值(genomic esti ...

  3. 全基因组选择育种(GS)简介

    全基因组选择(Genomic selection, GS)是一种利用覆盖全基因组的高密度标记进行选择育种的新方法,可通过早期选择缩短世代间隔,提高育种值(Genomic Estimated Breed ...

  4. 【GS文献】植物全基因组选择育种技术原理与研究进展

    目录 1. 优势杂交育种预测 2. GS育种原理与模型算法 岭回归和LASSO回归 贝叶斯方法 GBLUP和RRBLUP 偏最小二乘法 支持向量机/支持向量回归 其他方法 3. 模型预测能力验证 4. ...

  5. 生成式对抗网络GAN 的研究进展与展望

    生成式对抗网络GAN的研究进展与展望.pdf 摘要: 生成式对抗网络GAN (Generative adversarial networks) 目前已经成为人工智能学界一个热门的研究方向. GAN的基 ...

  6. 【百奥云GS专栏】全基因组选择之模型篇

    目录 1. 前言 2. BLUP方法 ABLUP GBLUP ssGBLUP RRBLUP 3. 贝叶斯方法 BayesA BayesB BayesC/Cπ/Dπ Bayesian Lasso 4. ...

  7. 【GS模型】全基因组选择之rrBLUP

    目录 1. 理论 2. 实操 2.1 rrBLUP包简介 2.2 实操 3. 补充说明 关于模型 关于交叉验证 参考资料 1. 理论 rrBLUP是基因组选择最常用的模型之一,也是间接法模型的代表.回 ...

  8. 【百奥云GS专栏】全基因组选择之工具篇

    目录 1. 免费开源包/库 1.1 R包 1.2 Python库 2. 成熟软件 3. WEB/GUI工具 前面我们已经介绍了基因组选择的各类模型,今天主要来了解一下做GS有哪些可用的软件和工具.基因 ...

  9. 【GS应用】基因组选择在杂交玉米上的应用示例

    目录 GS两步走 示例 缩短周期和成本 分类 杂交类型 试验研究 选择响应 选择的强度 选择的周期 预测能力 数据分析的注意事项 GS实施 优缺点 GS的成功 展望 GS两步走 示例 缩短周期和成本 ...

随机推荐

  1. rabbitmq死信队列和延时队列的使用

    死信队列&死信交换器:DLX 全称(Dead-Letter-Exchange),称之为死信交换器,当消息变成一个死信之后,如果这个消息所在的队列存在x-dead-letter-exchange ...

  2. TCP/IP简述

    一.TCP/IP简述 TCP/IP从字面异议看起来是指TCP和IP两种协议,实际上,它只是利用IP进行通信时必须用到的协议群的统称.具体的来说,IP或ICMP.TCP或UDP.Telnet或FTP.以 ...

  3. 面试官:JavaScript如何实现数组拍平(扁平化)方法?

    面试官:JavaScript如何实现数组拍平(扁平化)方法? 1 什么叫数组拍平? 概念很简单,意思是将一个"多维"数组降维,比如: // 原数组是一个"三维" ...

  4. (一)FastDFS 高可用集群架构学习---简介

    1.什么是FastDFS FastDFS 是余庆老师用c语言编写的一筐开源的分布式文件系统,充分考虑了冗余备份,负载均衡,线性扩容等机制,并注重高可用.高性能等指标,使用FastDFS可以很容易搭建一 ...

  5. SSH 提示密码过期,如何通过 ansible 批量更新线上服务器密码

    起因 线上环境是在内网,登陆线上环境需要使用 VPN + 堡垒机 登陆,但是我日常登陆线上环境都是 VPN + 堡垒机 + Socks5常驻代理,在shell端只需要保存会话,会话使用socks5代理 ...

  6. 聊聊sql优化的15个小技巧

    前言 sql优化是一个大家都比较关注的热门话题,无论你在面试,还是工作中,都很有可能会遇到. 如果某天你负责的某个线上接口,出现了性能问题,需要做优化.那么你首先想到的很有可能是优化sql语句,因为它 ...

  7. Linux mem 2.5 Buddy 内存回收机制

    文章目录 1. 简介 2. LRU 组织 2.1 LRU 链表 2.2 LRU Cache 2.3 LRU 移动操作 2.3.1 page 加入 LRU 2.3.2 其他 LRU 移动操作 3. LR ...

  8. java eclipse调试提示Source not found 或 一闪而过 解决方法

    Web工程Eclipse  debug方式启动,在断点的位置被成功拦截,但是没有跳转到工程的代码处,提示如下: 当然这个时候如果我继续按F5的话呢,程序又会接着正常运行了.到这里那就是说程序本身是没有 ...

  9. (五)MySQL函数

    5.1  常用函数 5.2  聚合函数(常用) 函数名称 描述 COUNT() 计数 SUM() 求和 AVG() 平均值 MAX() 最大值 MIN() 最小值 ....   ....   想查询一 ...

  10. 暑假算法练习Day2

    第二天啦!大家一起冲冲冲!! 1004 成绩排名 (20 分) 读入 n(>0)名学生的姓名.学号.成绩,分别输出成绩最高和成绩最低学生的姓名和学号. 输入格式: 每个测试输入包含 1 个测试用 ...