1. 优势杂交育种预测

  • 杂交育种:选育优良纯合亲本,再进行亲本配组。
  • 杂种优势与亲本间的遗传差异有关,前人通过遗传标记计算亲本间的遗传距离。但遗传距离和杂种优势的相关性只能在一定程度上定性地评价杂交组合的表现,并不能定量地预测表现。
  • 从利用遗传标记的QTL到早期家畜的BLUP方法,GS应用初具雏形,但通过遗传系谱图构建的亲缘关系矩阵预测能力有限。
  • 高密度SNP标记计算遗传关系矩阵来估算个体育种值。

2. GS育种原理与模型算法

  • GS原理:



所有的GS模型都聚焦在如何准确估计β(标记效应)上。

  • 过拟合的缺陷:即再训练群体中构建的模型再测试群体中的预测效果不佳。一般用交叉验证来对模型进行评估。
  • 维数灾难:如果通过常规的最小二乘法利用线性拟合估计育种值,通常会因为分子标记间的多重共线性问题使模型失去预测能力。
  • 不同预测算法从变量选择、降维和系数压缩等方法进行建模,来提升模型的预测能力。

岭回归和LASSO回归

  • 岭回归(Ridge regression,RR):在最小二乘法的误差平方和最小的基础上,对系数进行限制,使离差平方和最小,同时使随机效应向量(β系数)的平方和小于一个非负常数值,该值越小就说明βj向量压缩得越厉害。
  • 另一个理解:岭回归在最小二乘法的离差平方和最小的原则上,引入了一个惩罚项。
  • LASSO回归是另一种方式的压缩,使离差平方和最小,同时使随机效应向量(β系数)的绝对值之和小于一个非负常数值,该值越小就说明βj向量压缩得越厉害。
  • RR属于L2正则化(对所有的β进行约束,建模后保留所有预测因子),LASSO属于L1正则化(一定约束条件下会将某些预测因子系数压缩为0,从而达到变量选择的目的)。
  • 当有效预测因子很多但贡献值都较小时,RR预测效果较好; 当有效预测因子较少且有效因子贡献值都较高时,LASSO预测效果好。

贝叶斯方法

  • 不同于传统拟合方法,贝叶斯方法一般会根据经验给出βj的先验密度,再通过先验密度和似然函数求解βj的后验概率。
  • 公式及参数:

  • 固定效应:βjk服从扁平先验(即不提供任何先验信息)。
  • BRR:贝叶斯岭回归,βjk服从高斯先验(即βj服从正态分布)。
  • Bayesian LASSO:βjk服从双指数先验分布。
  • BayesA:βjk服从scaled-t先验分布。它和Bayesian LASSO认为只有少数因子有比较显著的效应。
  • BayesB和C:βjk的先验分布属于混合分布,假设有大量的βj为0,与scaled-t先验分布混合为BayesB,与高斯先验分布混合为BayesC。
  • 贝叶斯模型的运算时间与迭代次数有关。

GBLUP和RRBLUP

  • GBLUP公式:



  • RRBLUP公式:

  • 通过标记效应和个体育种值预测杂交后代的表现结果是等价的。这两个模型适合大规模建模和预测分析。

偏最小二乘法

  • PLS:首先在预测因子中进行特征提取,然后进行最小二乘法线性拟合运算。
  • 涉及到矩阵运算,再分子标记数量较多时对计算力要求很高,运行时间长,不适合高密度SNP建模预测。

支持向量机/支持向量回归

  • SVM:为提高分类器稳定性,避免个别个体的变化对分类结果产生剧烈影响,通常会给与分类器一定数量的容错率和相应的罚分。
  • 通过交叉验证确定容错率和罚分的最佳参数。
  • SVM的优化与观测点的内积有关,可用不同的核函数来表示内积,如线性核函数、多项式核函数、径向核函数等。
  • 支持向量回归SVR在动植物育种预测应用广泛。
  • SVM用于GS建模一般易出现过拟合,不太适合做预测,可与其他模型一起作为参考。

其他方法

  • 维数诅咒:引入模型的预测因子(SNP标记)越多,模型解释能力越强,但预测能力会下降。所有预测方法都围绕提升模型预测能力展开。
  • 随机森林/变量选择等方法运算量大,只适用于预测因子数量较少的情况。

3. 模型预测能力验证

  • 交叉验证:留一法,K折交叉验证。
  • 模型预测能力的评估:计算均方误差,观测值与预测值的相关系数。

4. 局限性

基于数学建模的杂交种预测的一些假设:

  • 不论是双亲群体的衍生群体(重组自交系间杂交组合还是单交群体(包括双列杂交和NCII等);
  • 每个杂交组合的双亲的所有等位基因都是纯合的;
  • 每个等位基因位点都是双等位基因,如果有极小比例的其他类型的等位基因,该位点会被主要等位基因覆盖;
  • 杂交组合的基因型由双亲的基因型推导而来;

    不考虑反交效应。

影响因素

  • 控制数量性状的QTL分布情况
  • 训练群体大小和选择
  • 遗传力
  • 表型准确性
  • SNP标记密度和标记间LD效应

5. 展望

  • 基于数量性状由多基因控制,受环境影响大的特点,GS在确定预测因子时可将环境因子作为固定效应,评估其方差组分,预测时可将环境因子考虑进来,提供模型的预测能力。
  • 除了基因组的分子标记,转录组、代谢组数据都可作为预测因子,进行建模预测。

参考文献:

刘策, 孟焕文, 程智慧. 植物全基因组选择育种技术原理与研究进展. 分子植物育种, 2020 年,第18 卷,第16 期,第5335 - 5342 页.

西北农林科技大学园艺学院

【GS文献】植物全基因组选择育种技术原理与研究进展的更多相关文章

  1. 【GS文献】全基因组选择模型研究进展及展望

    目录 1. GS概况 2. GS模型 1)直接法 GBLUP 直接法的模型改进 ①单随机效应 ②多随机效应 2)间接法 间接法模型 基于间接法的模型改进 3. GS模型比较 模型比较结论 4.问题及展 ...

  2. 全基因组选择育种(GS)简介

    全基因组选择(Genomic selection, GS)是一种利用覆盖全基因组的高密度标记进行选择育种的新方法,可通过早期选择缩短世代间隔,提高育种值(Genomic Estimated Breed ...

  3. 【百奥云GS专栏】全基因组选择之模型篇

    目录 1. 前言 2. BLUP方法 ABLUP GBLUP ssGBLUP RRBLUP 3. 贝叶斯方法 BayesA BayesB BayesC/Cπ/Dπ Bayesian Lasso 4. ...

  4. 【百奥云GS专栏】全基因组选择之工具篇

    目录 1. 免费开源包/库 1.1 R包 1.2 Python库 2. 成熟软件 3. WEB/GUI工具 前面我们已经介绍了基因组选择的各类模型,今天主要来了解一下做GS有哪些可用的软件和工具.基因 ...

  5. 【GS模型】全基因组选择之rrBLUP

    目录 1. 理论 2. 实操 2.1 rrBLUP包简介 2.2 实操 3. 补充说明 关于模型 关于交叉验证 参考资料 1. 理论 rrBLUP是基因组选择最常用的模型之一,也是间接法模型的代表.回 ...

  6. 【百奥云GS专栏】1-全基因组选择介绍

    目录 什么是基因组选择? 基因组选择技术的发展 基因组选择的原理和流程 基因组选择的模型 基因组选择的展望 参考资料 什么是基因组选择? 基因组选择(Genomic Selection,简称GS)这一 ...

  7. Micro LED巨量转移技术研究进展

    近年来,Micro LED因其功耗低.响应快.寿命长.光效率高等特点,被视为继LCD.OLED之后的新一代显示面板技术.Micro LED的英文全名是Micro Light Emitting Diod ...

  8. 【GS文献】植物育种中基因组选择的方法、模型及展望

    目录 1. GS/GP在植物育种中的角色 2. GP模型应用 3. GP模型的准确性 4. 植物育种的GS展望 5. 小结 Genomic SelectioninPlant Breeding: Met ...

  9. 【GS文献】基因组选择在植物分子育种应用的最新综述(2020)

    目录 1. 简介 2. BLUP类模型 3. Bayesian类模型 4. 机器学习 5. GWAS辅助的GS 6. 杂交育种 7. 多性状 8. 长期选择 9. 预测准确性评估 10. GS到植物育 ...

随机推荐

  1. 这12种场景Spring事务会失效!

    前言 对于从事java开发工作的同学来说,spring的事务肯定再熟悉不过了.在某些业务场景下,如果一个请求中,需要同时写入多张表的数据.为了保证操作的原子性 (要么同时成功,要么同时失败),避免数据 ...

  2. Scrum Meeting 10

    第10次例会报告 日期:2021年05月30日 会议主要内容概述: 目前组员均无暇软工,进展较慢. 一.进度情况 我们采用日报的形式记录每个人的具体进度,链接Home · Wiki,如下记录仅为保证公 ...

  3. AIApe问答机器人Scrum Meeting 4.29

    Scrum Meeting 4 日期:2021年4月29日 会议主要内容概述:汇报两日工作,讨论任务优先级. 一.进度情况 组员 负责 两日内已完成的工作 后两日计划完成的工作 工作中遇到的困难 李明 ...

  4. 修改git仓库的远程地址

    在我们开发的过程中,代码一般是由 git 来管理的,但有些时候我们的 git 仓库的地址可能发生了变换,比如我们使用的 gitLab 地址发生了变化,那么这个时候如何来将原项目的 git 地址进行修改 ...

  5. Noip模拟21(持续翻车)2021.7.20

    读题总是读错是不是没救了... T1 Median 中位数:按顺序排列的一组数据中居于中间位置的数. 能用上的高亮符号都用上了... 当时忘了就离谱.... 理解什么是中位数(真是个憨憨)后就可以开始 ...

  6. 方阵里面的dp

    打了一场luogu的信心赛,惊讶地发现我不会T2,感觉像这样在矩阵里面的dp看起来很套路的样子,但是仔细想想还是有很多需要注意的细节. 又想到之前貌似也考过一些类似的题目 然而我并没有改 ,于是打算补 ...

  7. Go语言核心36讲(Go语言进阶技术九)--学习笔记

    15 | 关于指针的有限操作 在前面的文章中,我们已经提到过很多次"指针"了,你应该已经比较熟悉了.不过,我们那时大多指的是指针类型及其对应的指针值,今天我们讲的则是更为深入的内容 ...

  8. A*,IDA*—高档次的暴搜

    A*通过评价函数来判断当前状态是否可以到达最终状态(即可行性剪枝),来减少不必要的搜索. 例题--P2324 [SCOI2005]骑士精神 我们通过当前不在指定位置上的棋子个数为评价函数,\(used ...

  9. Manacher算法 求 最长回文子串

    1 概述(扯淡) 在了解Manacher算法之前,我们得先知道什么是回文串和子串. 回文串,就是正着看反着看都一样的字符串.比如说"abba"就是一个回文串,"abbc& ...

  10. Linux Kernel 記憶體管理機制之美<转>

    转自--http://five.rdaili.com/sohu.com.php?u=Mq3EniVnae0axim7jkGhH0IhA9uho6CQso7R1aYomXWJ9UemfwUQYmKRc8 ...