【GS文献】植物全基因组选择育种技术原理与研究进展
1. 优势杂交育种预测
- 杂交育种:选育优良纯合亲本,再进行亲本配组。
- 杂种优势与亲本间的遗传差异有关,前人通过遗传标记计算亲本间的遗传距离。但遗传距离和杂种优势的相关性只能在一定程度上定性地评价杂交组合的表现,并不能定量地预测表现。
- 从利用遗传标记的QTL到早期家畜的BLUP方法,GS应用初具雏形,但通过遗传系谱图构建的亲缘关系矩阵预测能力有限。
- 高密度SNP标记计算遗传关系矩阵来估算个体育种值。
2. GS育种原理与模型算法
- GS原理:

所有的GS模型都聚焦在如何准确估计β(标记效应)上。
- 过拟合的缺陷:即再训练群体中构建的模型再测试群体中的预测效果不佳。一般用交叉验证来对模型进行评估。
- 维数灾难:如果通过常规的最小二乘法利用线性拟合估计育种值,通常会因为分子标记间的多重共线性问题使模型失去预测能力。
- 不同预测算法从变量选择、降维和系数压缩等方法进行建模,来提升模型的预测能力。
岭回归和LASSO回归
- 岭回归(Ridge regression,RR):在最小二乘法的误差平方和最小的基础上,对系数进行限制,使离差平方和最小,同时使随机效应向量(β系数)的平方和小于一个非负常数值,该值越小就说明βj向量压缩得越厉害。
- 另一个理解:岭回归在最小二乘法的离差平方和最小的原则上,引入了一个惩罚项。
- LASSO回归是另一种方式的压缩,使离差平方和最小,同时使随机效应向量(β系数)的绝对值之和小于一个非负常数值,该值越小就说明βj向量压缩得越厉害。
- RR属于L2正则化(对所有的β进行约束,建模后保留所有预测因子),LASSO属于L1正则化(一定约束条件下会将某些预测因子系数压缩为0,从而达到变量选择的目的)。
- 当有效预测因子很多但贡献值都较小时,RR预测效果较好; 当有效预测因子较少且有效因子贡献值都较高时,LASSO预测效果好。
贝叶斯方法
- 不同于传统拟合方法,贝叶斯方法一般会根据经验给出βj的先验密度,再通过先验密度和似然函数求解βj的后验概率。
- 公式及参数:

- 固定效应:βjk服从扁平先验(即不提供任何先验信息)。
- BRR:贝叶斯岭回归,βjk服从高斯先验(即βj服从正态分布)。
- Bayesian LASSO:βjk服从双指数先验分布。
- BayesA:βjk服从scaled-t先验分布。它和Bayesian LASSO认为只有少数因子有比较显著的效应。
- BayesB和C:βjk的先验分布属于混合分布,假设有大量的βj为0,与scaled-t先验分布混合为BayesB,与高斯先验分布混合为BayesC。
- 贝叶斯模型的运算时间与迭代次数有关。
GBLUP和RRBLUP
- GBLUP公式:


- RRBLUP公式:

- 通过标记效应和个体育种值预测杂交后代的表现结果是等价的。这两个模型适合大规模建模和预测分析。
偏最小二乘法
- PLS:首先在预测因子中进行特征提取,然后进行最小二乘法线性拟合运算。
- 涉及到矩阵运算,再分子标记数量较多时对计算力要求很高,运行时间长,不适合高密度SNP建模预测。
支持向量机/支持向量回归
- SVM:为提高分类器稳定性,避免个别个体的变化对分类结果产生剧烈影响,通常会给与分类器一定数量的容错率和相应的罚分。
- 通过交叉验证确定容错率和罚分的最佳参数。
- SVM的优化与观测点的内积有关,可用不同的核函数来表示内积,如线性核函数、多项式核函数、径向核函数等。
- 支持向量回归SVR在动植物育种预测应用广泛。
- SVM用于GS建模一般易出现过拟合,不太适合做预测,可与其他模型一起作为参考。
其他方法
- 维数诅咒:引入模型的预测因子(SNP标记)越多,模型解释能力越强,但预测能力会下降。所有预测方法都围绕提升模型预测能力展开。
- 随机森林/变量选择等方法运算量大,只适用于预测因子数量较少的情况。
3. 模型预测能力验证
- 交叉验证:留一法,K折交叉验证。
- 模型预测能力的评估:计算均方误差,观测值与预测值的相关系数。
4. 局限性
基于数学建模的杂交种预测的一些假设:
- 不论是双亲群体的衍生群体(重组自交系间杂交组合还是单交群体(包括双列杂交和NCII等);
- 每个杂交组合的双亲的所有等位基因都是纯合的;
- 每个等位基因位点都是双等位基因,如果有极小比例的其他类型的等位基因,该位点会被主要等位基因覆盖;
- 杂交组合的基因型由双亲的基因型推导而来;
不考虑反交效应。
影响因素
- 控制数量性状的QTL分布情况
- 训练群体大小和选择
- 遗传力
- 表型准确性
- SNP标记密度和标记间LD效应
5. 展望
- 基于数量性状由多基因控制,受环境影响大的特点,GS在确定预测因子时可将环境因子作为固定效应,评估其方差组分,预测时可将环境因子考虑进来,提供模型的预测能力。
- 除了基因组的分子标记,转录组、代谢组数据都可作为预测因子,进行建模预测。
参考文献:
刘策, 孟焕文, 程智慧. 植物全基因组选择育种技术原理与研究进展. 分子植物育种, 2020 年,第18 卷,第16 期,第5335 - 5342 页.
西北农林科技大学园艺学院
【GS文献】植物全基因组选择育种技术原理与研究进展的更多相关文章
- 【GS文献】全基因组选择模型研究进展及展望
目录 1. GS概况 2. GS模型 1)直接法 GBLUP 直接法的模型改进 ①单随机效应 ②多随机效应 2)间接法 间接法模型 基于间接法的模型改进 3. GS模型比较 模型比较结论 4.问题及展 ...
- 全基因组选择育种(GS)简介
全基因组选择(Genomic selection, GS)是一种利用覆盖全基因组的高密度标记进行选择育种的新方法,可通过早期选择缩短世代间隔,提高育种值(Genomic Estimated Breed ...
- 【百奥云GS专栏】全基因组选择之模型篇
目录 1. 前言 2. BLUP方法 ABLUP GBLUP ssGBLUP RRBLUP 3. 贝叶斯方法 BayesA BayesB BayesC/Cπ/Dπ Bayesian Lasso 4. ...
- 【百奥云GS专栏】全基因组选择之工具篇
目录 1. 免费开源包/库 1.1 R包 1.2 Python库 2. 成熟软件 3. WEB/GUI工具 前面我们已经介绍了基因组选择的各类模型,今天主要来了解一下做GS有哪些可用的软件和工具.基因 ...
- 【GS模型】全基因组选择之rrBLUP
目录 1. 理论 2. 实操 2.1 rrBLUP包简介 2.2 实操 3. 补充说明 关于模型 关于交叉验证 参考资料 1. 理论 rrBLUP是基因组选择最常用的模型之一,也是间接法模型的代表.回 ...
- 【百奥云GS专栏】1-全基因组选择介绍
目录 什么是基因组选择? 基因组选择技术的发展 基因组选择的原理和流程 基因组选择的模型 基因组选择的展望 参考资料 什么是基因组选择? 基因组选择(Genomic Selection,简称GS)这一 ...
- Micro LED巨量转移技术研究进展
近年来,Micro LED因其功耗低.响应快.寿命长.光效率高等特点,被视为继LCD.OLED之后的新一代显示面板技术.Micro LED的英文全名是Micro Light Emitting Diod ...
- 【GS文献】植物育种中基因组选择的方法、模型及展望
目录 1. GS/GP在植物育种中的角色 2. GP模型应用 3. GP模型的准确性 4. 植物育种的GS展望 5. 小结 Genomic SelectioninPlant Breeding: Met ...
- 【GS文献】基因组选择在植物分子育种应用的最新综述(2020)
目录 1. 简介 2. BLUP类模型 3. Bayesian类模型 4. 机器学习 5. GWAS辅助的GS 6. 杂交育种 7. 多性状 8. 长期选择 9. 预测准确性评估 10. GS到植物育 ...
随机推荐
- Java版人脸检测详解上篇:运行环境的Docker镜像(CentOS+JDK+OpenCV)
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
- 2021.9.7考试总结[NOIP模拟49]
T1 Reverse $BFS$暴力$O(n^2)$ 过程中重复枚举了很多点,考虑用链表记录当前点后面可到达的第一个未更新点. 搜索时枚举翻转子串的左端点,之后便可以算出翻转后$1$的位置. $cod ...
- 排序算法:Java实现希尔排序
希尔排序的思路是先分组再整合 先对下标进行分组,比如当数组长度为20时,一开始选定一个间隔值为10 对数组进行排序,每隔10个元素比较大小并交换,以下标为间隔,1和11比较.2和12比较......1 ...
- 调整数组顺序使奇数位于偶数前面 牛客网 剑指Offer
调整数组顺序使奇数位于偶数前面 牛客网 剑指Offer 题目描述 输入一个整数数组,实现一个函数来调整该数组中数字的顺序,使得所有的奇数位于数组的前半部分,所有的偶数位于数组的后半部分,并保证奇数和奇 ...
- hdu 1078 FatMouse and Cheese(记忆搜)
N*N的矩阵,每个格子上有一个值. 老鼠起始在(1,1),每次只能水平着走或垂直着走.且最多只能走K步.且走到的格子里的值必须比上一次呆的格子里的值大. 问老鼠最多收集到多少值. 思路: 记忆搜好写. ...
- 深入剖析Redis客户端Jedis的特性和原理
一.开篇 Redis作为目前通用的缓存选型,因其高性能而倍受欢迎.Redis的2.x版本仅支持单机模式,从3.0版本开始引入集群模式. Redis的Java生态的客户端当中包含Jedis.Rediss ...
- S 锁与 X 锁的爱恨情仇《死磕MySQL系列 四》
系列文章 一.原来一条select语句在MySQL是这样执行的<死磕MySQL系列 一> 二.一生挚友redo log.binlog<死磕MySQL系列 二> 三.MySQL强 ...
- Cesium实现右键框选
思路 1.先取消地图的右键事件 2.右键框选事件,屏幕坐标转为经纬度坐标 取消地图的右键事件 //此处容易犯一个错误:以为右键事件绑定了缩放功能,伪代码即 Cesium.MouseEvent.右键事件 ...
- 【java+selenium3】模拟键盘操作 (十二)
一.键盘操作 用代码来模拟键盘的Enter或一系列的组合键,前面使用sendkeys()方法模拟键盘的输入,除此之外还可以模拟键盘组合键输入如下: 整理一些比较常用的键盘操作如下: sendKeys( ...
- webpack 之开发环境优化 HMR
webpack 之开发环境优化 HMR // webpack.config.js /** * HMR hot module replacement 热模块替换 / 模块热替换 * 作用:一个模块发生变 ...