1. 优势杂交育种预测

  • 杂交育种:选育优良纯合亲本,再进行亲本配组。
  • 杂种优势与亲本间的遗传差异有关,前人通过遗传标记计算亲本间的遗传距离。但遗传距离和杂种优势的相关性只能在一定程度上定性地评价杂交组合的表现,并不能定量地预测表现。
  • 从利用遗传标记的QTL到早期家畜的BLUP方法,GS应用初具雏形,但通过遗传系谱图构建的亲缘关系矩阵预测能力有限。
  • 高密度SNP标记计算遗传关系矩阵来估算个体育种值。

2. GS育种原理与模型算法

  • GS原理:



所有的GS模型都聚焦在如何准确估计β(标记效应)上。

  • 过拟合的缺陷:即再训练群体中构建的模型再测试群体中的预测效果不佳。一般用交叉验证来对模型进行评估。
  • 维数灾难:如果通过常规的最小二乘法利用线性拟合估计育种值,通常会因为分子标记间的多重共线性问题使模型失去预测能力。
  • 不同预测算法从变量选择、降维和系数压缩等方法进行建模,来提升模型的预测能力。

岭回归和LASSO回归

  • 岭回归(Ridge regression,RR):在最小二乘法的误差平方和最小的基础上,对系数进行限制,使离差平方和最小,同时使随机效应向量(β系数)的平方和小于一个非负常数值,该值越小就说明βj向量压缩得越厉害。
  • 另一个理解:岭回归在最小二乘法的离差平方和最小的原则上,引入了一个惩罚项。
  • LASSO回归是另一种方式的压缩,使离差平方和最小,同时使随机效应向量(β系数)的绝对值之和小于一个非负常数值,该值越小就说明βj向量压缩得越厉害。
  • RR属于L2正则化(对所有的β进行约束,建模后保留所有预测因子),LASSO属于L1正则化(一定约束条件下会将某些预测因子系数压缩为0,从而达到变量选择的目的)。
  • 当有效预测因子很多但贡献值都较小时,RR预测效果较好; 当有效预测因子较少且有效因子贡献值都较高时,LASSO预测效果好。

贝叶斯方法

  • 不同于传统拟合方法,贝叶斯方法一般会根据经验给出βj的先验密度,再通过先验密度和似然函数求解βj的后验概率。
  • 公式及参数:

  • 固定效应:βjk服从扁平先验(即不提供任何先验信息)。
  • BRR:贝叶斯岭回归,βjk服从高斯先验(即βj服从正态分布)。
  • Bayesian LASSO:βjk服从双指数先验分布。
  • BayesA:βjk服从scaled-t先验分布。它和Bayesian LASSO认为只有少数因子有比较显著的效应。
  • BayesB和C:βjk的先验分布属于混合分布,假设有大量的βj为0,与scaled-t先验分布混合为BayesB,与高斯先验分布混合为BayesC。
  • 贝叶斯模型的运算时间与迭代次数有关。

GBLUP和RRBLUP

  • GBLUP公式:



  • RRBLUP公式:

  • 通过标记效应和个体育种值预测杂交后代的表现结果是等价的。这两个模型适合大规模建模和预测分析。

偏最小二乘法

  • PLS:首先在预测因子中进行特征提取,然后进行最小二乘法线性拟合运算。
  • 涉及到矩阵运算,再分子标记数量较多时对计算力要求很高,运行时间长,不适合高密度SNP建模预测。

支持向量机/支持向量回归

  • SVM:为提高分类器稳定性,避免个别个体的变化对分类结果产生剧烈影响,通常会给与分类器一定数量的容错率和相应的罚分。
  • 通过交叉验证确定容错率和罚分的最佳参数。
  • SVM的优化与观测点的内积有关,可用不同的核函数来表示内积,如线性核函数、多项式核函数、径向核函数等。
  • 支持向量回归SVR在动植物育种预测应用广泛。
  • SVM用于GS建模一般易出现过拟合,不太适合做预测,可与其他模型一起作为参考。

其他方法

  • 维数诅咒:引入模型的预测因子(SNP标记)越多,模型解释能力越强,但预测能力会下降。所有预测方法都围绕提升模型预测能力展开。
  • 随机森林/变量选择等方法运算量大,只适用于预测因子数量较少的情况。

3. 模型预测能力验证

  • 交叉验证:留一法,K折交叉验证。
  • 模型预测能力的评估:计算均方误差,观测值与预测值的相关系数。

4. 局限性

基于数学建模的杂交种预测的一些假设:

  • 不论是双亲群体的衍生群体(重组自交系间杂交组合还是单交群体(包括双列杂交和NCII等);
  • 每个杂交组合的双亲的所有等位基因都是纯合的;
  • 每个等位基因位点都是双等位基因,如果有极小比例的其他类型的等位基因,该位点会被主要等位基因覆盖;
  • 杂交组合的基因型由双亲的基因型推导而来;

    不考虑反交效应。

影响因素

  • 控制数量性状的QTL分布情况
  • 训练群体大小和选择
  • 遗传力
  • 表型准确性
  • SNP标记密度和标记间LD效应

5. 展望

  • 基于数量性状由多基因控制,受环境影响大的特点,GS在确定预测因子时可将环境因子作为固定效应,评估其方差组分,预测时可将环境因子考虑进来,提供模型的预测能力。
  • 除了基因组的分子标记,转录组、代谢组数据都可作为预测因子,进行建模预测。

参考文献:

刘策, 孟焕文, 程智慧. 植物全基因组选择育种技术原理与研究进展. 分子植物育种, 2020 年,第18 卷,第16 期,第5335 - 5342 页.

西北农林科技大学园艺学院

【GS文献】植物全基因组选择育种技术原理与研究进展的更多相关文章

  1. 【GS文献】全基因组选择模型研究进展及展望

    目录 1. GS概况 2. GS模型 1)直接法 GBLUP 直接法的模型改进 ①单随机效应 ②多随机效应 2)间接法 间接法模型 基于间接法的模型改进 3. GS模型比较 模型比较结论 4.问题及展 ...

  2. 全基因组选择育种(GS)简介

    全基因组选择(Genomic selection, GS)是一种利用覆盖全基因组的高密度标记进行选择育种的新方法,可通过早期选择缩短世代间隔,提高育种值(Genomic Estimated Breed ...

  3. 【百奥云GS专栏】全基因组选择之模型篇

    目录 1. 前言 2. BLUP方法 ABLUP GBLUP ssGBLUP RRBLUP 3. 贝叶斯方法 BayesA BayesB BayesC/Cπ/Dπ Bayesian Lasso 4. ...

  4. 【百奥云GS专栏】全基因组选择之工具篇

    目录 1. 免费开源包/库 1.1 R包 1.2 Python库 2. 成熟软件 3. WEB/GUI工具 前面我们已经介绍了基因组选择的各类模型,今天主要来了解一下做GS有哪些可用的软件和工具.基因 ...

  5. 【GS模型】全基因组选择之rrBLUP

    目录 1. 理论 2. 实操 2.1 rrBLUP包简介 2.2 实操 3. 补充说明 关于模型 关于交叉验证 参考资料 1. 理论 rrBLUP是基因组选择最常用的模型之一,也是间接法模型的代表.回 ...

  6. 【百奥云GS专栏】1-全基因组选择介绍

    目录 什么是基因组选择? 基因组选择技术的发展 基因组选择的原理和流程 基因组选择的模型 基因组选择的展望 参考资料 什么是基因组选择? 基因组选择(Genomic Selection,简称GS)这一 ...

  7. Micro LED巨量转移技术研究进展

    近年来,Micro LED因其功耗低.响应快.寿命长.光效率高等特点,被视为继LCD.OLED之后的新一代显示面板技术.Micro LED的英文全名是Micro Light Emitting Diod ...

  8. 【GS文献】植物育种中基因组选择的方法、模型及展望

    目录 1. GS/GP在植物育种中的角色 2. GP模型应用 3. GP模型的准确性 4. 植物育种的GS展望 5. 小结 Genomic SelectioninPlant Breeding: Met ...

  9. 【GS文献】基因组选择在植物分子育种应用的最新综述(2020)

    目录 1. 简介 2. BLUP类模型 3. Bayesian类模型 4. 机器学习 5. GWAS辅助的GS 6. 杂交育种 7. 多性状 8. 长期选择 9. 预测准确性评估 10. GS到植物育 ...

随机推荐

  1. zuul的各种配置

    我们知道我们前台要展示数据给用户看,这中间可能涉及到从后端的多个微服务进行获取数据.比如获取用户信息需要用到用户微服务.获取商品信息需要获取商品微服务.创建订单需要调用订单微服务,而各个微服务可能分布 ...

  2. LVDS DP等显示器接口简介

    LVDS 产品传输速率从几百Mbps到2Gbps.它是电流驱动的,他通过在接收端放置一个负载而得到的电压,当电流正向流动,接收端输出为1,反之为0,它的摆幅250mV-450mV. lvds 即低压差 ...

  3. 局域网(以太网与IEEE 802.3、IEEE 802.11、)

    文章转自:https://blog.csdn.net/weixin_43914604/article/details/105016637 学习课程:<2019王道考研计算机网络> 学习目的 ...

  4. 【linux】修改ip后hadoop只有四个节点的问题

    学校的机房,每重启一次就会将虚拟机的某些配置还原到部署到学生机时候的状态(例如.etc/hosts文件中ip与主机名的映射),这个时候与我们前面所部署的hadoop就会产生IP不对应的状态,导致了ha ...

  5. 跳台阶 牛客网 剑指Offer

    跳台阶 牛客网 剑指Offer 题目描述 一只青蛙一次可以跳上1级台阶,也可以跳上2级.求该青蛙跳上一个n级的台阶总共有多少种跳法(先后次序不同算不同的结果). class Solution: #ru ...

  6. cf13C Sequence(DP)

    题意: N个数.a1...aN. 对于每个数而言,每一步只能加一或减一. 问最少总共需要多少步使得新序列是非递减序列. N (1 ≤ N ≤ 5000) 思路: *一个还不知道怎么证明的结论(待证): ...

  7. CDP客户数据管理平台体系化搭建

    一.Cdp系统简介 1.基本概念 客户数据平台(Customer-Data-Platform),简称CDP:通过采集多方客户数据(主体与线索)等,从而进行精准的客户分析和人群细分,进而实现高效的客户维 ...

  8. pycharm软件安装和破解

    pycharm安装 1. 进入pycharm的官网 --- 下载专业版的pycharm 2. 双击下载好的软件,下一步 3. 选择需要安装软件的路径 --- 注意: 尽量不要将软件装在C盘里 4. 默 ...

  9. Swarm+Docker+Portainer(集群,图形化)

    参考文章 https://blog.csdn.net/u011781521/article/details/80469804 https://blog.csdn.net/u011781521/arti ...

  10. Java测试开发--Spring Tools Suite (STS) 简介(一)

    sts是一个定制版的Eclipse,专为Spring开发定制的,方便创建调试运行维护Spring应用. 官网下载之后,可以看到一个sts-bundle,里面有三个文件夹,一个法律信息,一个tc Ser ...