目录 简介 GS示例代码 简介 R包sommer内置了C++,运算速度还是比较快的,功能也很丰富,可求解各种复杂模型.语法相比于lme4包也要好懂一些. 建议查看文档:vignette("v1.sommer.quick.start") 混合线性模型关键在于协方差结构的建立,有以下几类: 复合对称(Compound Symmetry,CS),所有方差相等,所有协方差也相等,对应于单变量方法.但是对于不同尺度的变量是无意义的. 方差组分(Variance Components),每个方差都…
目录 1. 免费开源包/库 1.1 R包 1.2 Python库 2. 成熟软件 3. WEB/GUI工具 前面我们已经介绍了基因组选择的各类模型,今天主要来了解一下做GS有哪些可用的软件和工具.基因组选择处在热门研究阶段,每年都有不少新工具开发出来,可分析的软件非常之多,为了便于大家更加清晰地了解,这里我将它们分为免费开源包/库.成熟软件.WEB/GUI工具三类,用户使用难度依次降低. 1. 免费开源包/库 R和Python语言作为开源软件的代表,在数据分析领域有着不可替代的优势.近几年大部分…
目录 1. 优势杂交育种预测 2. GS育种原理与模型算法 岭回归和LASSO回归 贝叶斯方法 GBLUP和RRBLUP 偏最小二乘法 支持向量机/支持向量回归 其他方法 3. 模型预测能力验证 4. 局限性 基于数学建模的杂交种预测的一些假设: 影响因素 5. 展望 1. 优势杂交育种预测 杂交育种:选育优良纯合亲本,再进行亲本配组. 杂种优势与亲本间的遗传差异有关,前人通过遗传标记计算亲本间的遗传距离.但遗传距离和杂种优势的相关性只能在一定程度上定性地评价杂交组合的表现,并不能定量地预测表现…
目录 1. 前言 2. BLUP方法 ABLUP GBLUP ssGBLUP RRBLUP 3. 贝叶斯方法 BayesA BayesB BayesC/Cπ/Dπ Bayesian Lasso 4. 机器学习 支持向量机 集成学习 深度学习 5. 其他模型 RKHS GWAS-assisted GS 非加性效应 多变量模型 多组学 6. 小结 参考资料 1. 前言 在介绍GS模型之前,我们有必要先来了解一下混合线性模型(Mixed Linear Model,MLM).混合线性模型是一种方差分量模…
目录 1. 理论 2. 实操 2.1 rrBLUP包简介 2.2 实操 3. 补充说明 关于模型 关于交叉验证 参考资料 1. 理论 rrBLUP是基因组选择最常用的模型之一,也是间接法模型的代表.回顾一下,所谓间接法是指:在参考群中估计标记效应,再结合预测群的基因型信息将标记效应累加,最终获得预测群的个体估计育种值.而直接法则是指:将个体作为随机效应,参考群体和预测群体遗传信息构建的亲缘关系矩阵作为方差协方差矩阵,通过迭代法估计方差组分,进而求解混合模型获取待预测个体的估计育种值.简言之,直接…
目录 1. GS概况 2. GS模型 1)直接法 GBLUP 直接法的模型改进 ①单随机效应 ②多随机效应 2)间接法 间接法模型 基于间接法的模型改进 3. GS模型比较 模型比较结论 4.问题及展望 文献来源: 尹立林, 马云龙, 项韬, 朱猛进, 余梅, 李新云, 刘小磊, 赵书红. 全基因组选择模型研究进展及展望[J]. 畜牧兽医学报, 2019, 50(2): 233-242. 华中农大赵书红老师于2019年发表在< 畜牧兽医学报>上的综述,主要针对动物. 1. GS概况 2009年…
目录 1. GS/GP在植物育种中的角色 2. GP模型应用 3. GP模型的准确性 4. 植物育种的GS展望 5. 小结 Genomic SelectioninPlant Breeding: Methods,Models,and Perspectives 国际玉米小麦改良中心(CIMMYT)José Crossa 2017年发表在<Trends in Plant Science>上的综述. 1. GS/GP在植物育种中的角色 过去的植物育种主要借助分子标记辅助选择法(MAS)来进行表型选择(…
目录 1. 简介 2. BLUP类模型 3. Bayesian类模型 4. 机器学习 5. GWAS辅助的GS 6. 杂交育种 7. 多性状 8. 长期选择 9. 预测准确性评估 10. GS到植物育种 11. 未来展望 2020年10月张志武老师联合多家单位的大佬撰写的植物GS育种的最新进展,目前还只是预印版(改到第二版).这篇综述涉及到GS在植物领域应用的最新进展,长达48页.不同于其他的综述描写空洞宽泛,这一篇特别对模型方法进行了介绍,正好解决了我的需求.缺点就是可能重点说明了他们自己开发…
目录 1.GWAS模型 1.1卡方检验 1.2 相关性系数的t检验 1.3 一般线性模型GLM 1.4 混合线性模型MLM 1.5 压缩混合线性模型CMLM 1.6 SUPER 1.7 FarmCPU 1.8 Blink 2.GS模型 2.1 MAS 2.2 GBLUP 2.3 GBLUP的扩展(ssBLUP,sBLUP,cBLUP) 2.4 rrBLUP 2.5 rrBLUP的扩展(Bayes类) 2.6 BLUP vs Bayes 3.GWAS和GS模型比较 最近看了不少统计基因组方面的资料…
目录 说明 1.前言 2.植物GS瓶颈 3.提高GS预测的准确性 4.GS与现代育种技术结合 5.GS开源育种网络 说明 Enhancing Genetic Gain through Genomic Selection: From Livestock to Plants 这篇是徐云碧老师2019年发表在<Plant Communications>上的综述.徐老师是农科院作科所以及CIMMYT的分子育种专家,著有<分子数量遗传学>和<分子植物育种>,提出环境型.遗传增益等…
目录 1.GS研究 2.数量遗传发展 GS应用主要在国外大型动物和种企,国内仍以学术为主.近期整理相关学术文献,了解到一些相关研究人员,记录下备忘查询,但不可能全面. 1.GS研究 Theo Meuwissen(挪威生命科学大学) GS概念提出者,号称"基因组选择之父",贝叶斯方法为主,但是做动物的,所以可略过. https://www.researchgate.net/scientific-contributions/Theo-H-E-Meuwissen-2120554457 Ign…
综述:Genomic Selection in the Era of Next Generation Sequencing for Complex Traits in Plant Breeding 要点: MAS仅对数量较少的主效QTL有效,而GS适用于大量微效QTL控制的复杂数量性状.GS根据分布在整个基因组中的大量标记信息来估计个体的遗传价值,而不是像MAS中那样基于少量标记. GS由Meuwissen(2001)等人提出,一开始应用于动物,最近才应用作物育种.主要是因为NGS的成本下降(尤…
最近打算开始写一个多组学(包括宏基因组/16S/转录组/蛋白组/代谢组)关联分析的R包,避免重复造轮子,在开始之前随便在网上调研了下目前已有的R包工具,部分罗列如下: 1. mixOmics 应该是在多组学领域知名度最高的一个R包,有专门的团队,做了十余年了,引用量也比较高. 官网:http://mixomics.org/ 文章:mixOmics: An R package for 'omics feature selection and multiple data integration Gi…
R分析空间数据(Spatial Data) R机器学习包(Machine Learning) R多元统计包(Multivariate Statistics) R药物(代谢)动力学数据分析包 R计算计量经济学包(Computational Econometrics)  R机器学习包(Machine Learning) Machine Learning & Statistical Learning (机器学习 & 统计学习)  网址:http://cran.r-project.org/web/…
看完一篇介绍文章后,第一个直觉就是这算法已经配得上工业级属性.日前看到微软已经公开了这一算法,而且已经发开python版本,本人觉得等hadoop+Spark这些平台配齐之后,就可以大规模宣传啦~如果R包一发我一定要第一时间学习并更新在本帖下~ 哈哈 看好它是因为支持分布式.GPU运算,而且占用内存小,这几个特制已经足以让她从学界走到工业界,之前的XGboosting更多的使用场景在学术.竞赛.之前我也有写过,感觉局限挺多: R语言︱XGBoost极端梯度上升以及forecastxgb(预测)+…
机器学习数据集,主数据集不能通过,人脸数据集介绍,从r包中获取数据集,中国河流数据集   选自Microsoft www.tz365.Cn 作者:Lee Scott 机器之心编译 参与:李亚洲.吴攀.杜夏德 要学习怎么使用微软 Azure 机器学习,最重要的是获取样本数据集和进行实验. 在微软,我们有大量的样本数据集可用.这些数据集已经在 Azure Cortana Intelligence Gallery 中的样本模型中得到了应用. 其中一些数据集可以通过 Azure Blob 存储获取,所以…
[下面列出每个步骤最有用的一些R包] .数据导入 以下R包主要用于数据导入和保存数据: feather:一种快速,轻量级的文件格式:在R和python上都可使用 readr:实现表格数据的快速导入 readxl:读取Microsoft Excel电子表格数据 openxlsx:读取Microsoft Excel电子表格数据 googlesheets:读取google电子表格数据 haven:读取SAS,SPSS和Stata统计软件格式的数据 httr:从网站开放的API中读取数据 rvest:网…
转载--https://www.analyticsvidhya.com/blog/2017/03/create-packages-r-cran-github/ 什么是 R 包?我开始创建 R 包的原因是?创建包的好处和挑战必要条件开始创建你的第一个包发布包向CRAN 做贡献后的体验附加提示Additional resources 1. 什么是 R 包? R 包就是一个可重复使用的 R 函数,附带有关如何使用的标准.简要说明文档.有时,包还附带简单的数据. 直至今日,CRAN 上有 10000多个…
一:导入R包及需要画热图的数据 library(pheatmap) data<- read.table("F:/R练习/R测试数据/heatmapdata.txt",head = T,row.names=1,sep="\t") 二:画图 1)pheatmap(data)#默认参数 2)pheatmap(data,clustering_distance_rows = "correlation")#聚类线长度优化 3)pheatmap(data…
2013-07-15 21:41:04   #本文的目的在于介绍回归建模时变量选择和正则化所用的R包,如glmnet,ridge,lars等.算法的细节尽量给文献,这个坑太大,hold不住啊. 1.变量选择问题:从普通线性回归到lasso 使用最小二乘法拟合的普通线性回归是数据建模的基本方法.其建模要点在于误差项一般要求独立同分布(常假定为正态)零均值.t检验用来检验拟合的模型系数的显著性,F检验用来检验模型的显著性(方差分析).如果正态性不成立,t检验和F检验就没有意义. 对较复杂的数据建模(…
目录 什么是基因组选择? 基因组选择技术的发展 基因组选择的原理和流程 基因组选择的模型 基因组选择的展望 参考资料 什么是基因组选择? 基因组选择(Genomic Selection,简称GS)这一概念由挪威生命科学大学的Theo Meuwissen 教授于2001年提出.它是一种利用覆盖全基因组的高密度分子标记进行选择育种的新方法,可通过构建预测模型,根据基因组估计育种值(Genomic Estimated Breeding Value, GEBV)进行早期个体的预测和选择,从而缩短世代间隔…
中国农业大学等多家单位2017年合作发表在<遗传>杂志上的综述,笔记之. 作者中还有李宁院士,不胜唏嘘. 1.概述 GS的两大难题:基因组分型的成本,基因组育种值(genomic estimted breeding value, GEBV)的准确性. 基于个体的基因组估计育种值GEBV比传统基于系谱的估计育种值(estimted breeding value, EBV)准确性更高. GS实施示意图: 基于单点SNP标记的GEBV估计方法 一类基于估计等位基因效应来计算GEBV: ①最小二乘法…
1.安装,加载所用到到R包 用BiocManager安装,可同时加载依赖包 source("https://bioconductor.org/biocLite.R") BiocManager::install("clusterProfiler") library(clusterProfiler) ##富集分析library(topGO) ###画GO图library(AnnotationHub) ##获取数据库library(BiocFileCache) ##依赖包…
全基因组选择(Genomic selection, GS)是一种利用覆盖全基因组的高密度标记进行选择育种的新方法,可通过早期选择缩短世代间隔,提高育种值(Genomic Estimated Breeding Value, GEBV)估计准确性等加快遗传进展,尤其对低遗传力.难测定的复杂性状具有较好的预测效果,真正实现了基因组技术指导育种实践. 原理 常规育种手段主要利用性状记录值.基于系谱计算的个体间亲缘关系,通过最佳线性无偏估计(best linear unbiased predication…
转自 http://bnuzhutao.cn/archives/901 一般 R 语言的书籍上,介绍安装 R 包的方法都是这样的: install.packages("packagename"); 一般而言这不会成功,因为它默认会安装到系统目录下面,而普通用户在这个目录里并没有写入的权限. 因此,需要在 install.packages 这个函数里面指定安装的路径,例如想安装到 /home/myname/R 这个目录,就这么写: install.packages("packa…
R语言的使用,很大程度上是借助各种各样的R包的辅助,从某种程度上讲,R包就是针对于R的插件,不同的插件满足不同的需求,截至2013年3月6日,CRAN已经收录了各类包4338个. 一. R语言包的安装 1.通过选择菜单: 程序包->安装程序包->在弹出的对话框中,选择你要安装的包,然后确定. 2.使用命令 install.packages("package_name","dir") package_name:是指定要安装的包名,请注意大小写. dir:包…
包(package)是多个函数的集合,常作为分享代码的基本单元,代码封装成包可以方便其他用户使用.越来越多的R包正在由世界上不同的人所创建并分发,这些分发的R包,可以从CRAN 或 github 上获取,由于向 CRAN 提交包审核非常严格,有些开发者并没有将自己开发的R包提至CRAN的意向,通过 devtools 可以轻松从 github上下载安装.包的生命周期一般会经历 source.bundled.binary.installed和in-memory五个阶段.参考资料 (http://r-…
本文在Creative Commons许可证下发布 自由软件的问题是开发人员没有稳定的资金来源支持,可能更新上做不到持续.经过考证和圈内朋友的帮助,现在把R包中高质量.持续更新的跟大数据事业相关的R包罗列如下:…
参考  设置环境变量R_LIBS将R包安装到自定义路径   实际上是可以解决问题的, #环境变量完成以后,启动(重启)R,运行 .libPaths() 加载R包时,发现路径仍然未变成自定义的. 那么参考  quantreg软件包加载失败.是要改路径么?新手求帮忙 开启R的时候用管理者身份打开[鼠标右键RStudio→以管理者身份运行],再运行,就会发现路径自定义成功. .libPaths()…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 一.基本概念 根据美国数据库营销研究所Arthur Hughes的研究,客户数据库中有三个神奇的要素,这三个要素构成了数据分析最好的指标:最近一次消费(Recency).消费频率(Frequency).消费金额(Monetary). RFM模型:R(Recency)表示客户最近一次购买的时间有多远,F(Frequency)表示客户在最近一段时间…