实验材料

构建的群体,或自然群体,如各地方品种。

RAD文库构建

提取DNA后,构建文库,简要步骤如下:

① 限制性内切酶TaqI酶切;

② 连接P1接头;

③ DNA随机打断片断化;

④ 目的片段回收与末端修复;

⑤ 连接P2接头;

⑥ RAD片段富集;

⑦ 上机测序。

参考:Rapid and cost-effective polymorphism identification and genotyping using restriction site associated DNA (RAD) markers

测序reads过滤

根据识别标签序列得到每个个体的测序reads,使用trimmomatic进行过滤(其他质控软件,如fastqc,multiQC等)

设置过滤参数为:SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:50。 过滤标准:两端质量低于5的碱基进行切除,并以5bp为窗口进行滑动过滤,对平均质量低于20的窗口进行切除。

比对和变异检测

BWA (其他比对软件如bowtie2/soap2/MAQ等)将过滤后的个体clean reads比对到参考基因组序列上。样本比对率反映的是样本测序数据与参考基因组的相似性,覆盖深度和覆盖度能够直接反映测序数据的均一性与参考序列的同源性。

使用GATK(或samtools+bcftools)Haplotype Caller模块进行变异检测,获得群体变异集文件(VCF 格式)。对变异进行过滤:过滤参数为缺失率小于或等于0.2、杂合率小于或等于0.2、最小等位基因频率(MAF) 大于或等于0.05,最终得到高质量的基因型数据。

聚类分析

群体分析三幅图:群体结构图(祖先成分堆叠图)、PCA、系统发生树。

在获得高质量的标记数据以后,利用vcftools将vcf文件处理得到plink.ped和plink.map文件(整理为plink软件所需格式)。

使用plink 软件随机选择连锁不平衡(LD)小于0.1,且相邻间隔在300kb以上的SNP位点,最后得到一个包含3420 个SNP位点的标记集,一般是生成.bed文件。

1.祖先成分堆叠图

使用ADMIXTURE对此 SNP位点集(bed文件)进行群体结构分析(Structure),利用交叉验证过程确定确定合适的祖先数或亚群(K值)。若不知道理想的K值,可用ADMIXTURE计算,一般当cross-validation error值最低时所对应的K值为最合适的K值。

考虑到样本所归属的分类单元,即看看哪几个物种聚在一起,对合适的K值利用Structure软件(速度慢,其他软件如frappe,ADMIXTURE也可做群体结构图,并且很快)聚类图,一些R包如hapmap也是可以做群体结构图的。

2.PCA

利用GCTA对SNP数据集进行样本的PCA分析(其他软件如EIGENSOFT中的smartpca)。GCTA可以直接读取.bed , .bim , .fam文件,利用–make-grm 生成个体对之间的遗传关系矩阵,并将GRM的下三角元素保存为二进制文件.grm.id , .grm.bin , .grm.N.bin。使用 –pca 设置要生成主成分的数目,一般来说就可以刻画出群体结构。这一步会生成 .eigenval 和 .eigenvec 两个文件。.eigenval文件为各主成分可解释遗传信息的比例,.eigenvec文件为每个样本在top4主成分上的分解值。

3.系统发育树

构树的方法有非加权分组平均法(UPGMA,已经很少用)、最小进化法(ME)、邻接法(NJ)、最大简约法(MP)、最大似然法(ML)等。

构树软件如FastTree/MEGA/cluster X/phylip,美化可以用FigTree/ggtree/treeview/GraPhIAn。

NJ法是基于最小进化原理经常被使用的一种算法,它不检验所有可能的拓扑结构,能同时给出拓扑结构和分支长度。

GWAS的群体遗传分析也是包含这三个图,RADseq毕竟是简化基因组,得到的SNP有限,做这种群体分析效果肯定没有GWAS好。

Ref:Admixture:一款快速分析群体遗传结构的软件

群体结构分析三种常用方法(下篇)

群体结构分析三种常用方法 (上篇)

基于RAD高通量测序探讨中国85种杜鹃花属植物的分类

http://www.360doc.com/content/17/1120/01/33459258_705424795.shtml

重测序(RADseq)做群体遗传分析套路的更多相关文章

  1. 【转】群体研究套路:开心果denovo+重测序+转录组+群体进化+选择位点

    转自公众号Eric生信小班.学习群体遗传套路 中科院昆明动物园吴东东研究团队联合国外研究团队2019年在Genome Biology发表题为Whole genomes and transcriptom ...

  2. 【豆科基因组】木豆Pigeonpea (Cajanus cajan) 292个自然群体重测序2017NG

    目录 一.来源 二.结果 一.来源 Whole-genome resequencing of 292 pigeonpea accessions identifies genomic regions a ...

  3. 【豆科基因组】普通豆/菜豆/四季豆Common bean (Phaseolus vulgaris L.) 683个自然群体重测序2020NG

    目录 一.来源 二.结果 683份材料重测序 地方种landraces和育种品系breeding lines的多样性 表型和基因-环境互作(G by E) 菜豆产量潜力相关的MTAs(显著关联位点) ...

  4. 【豆科基因组】鹰嘴豆Chickpea (Cicer arietinum L.)429个自然群体重测序2019NG

    目录 一.来源 二.结果 材料测序.变异检测.群体结构和LD衰减 驯化后经历选择的候选基因组区域 起源中心.迁移路线和多样性 GWAS 一.来源 Resequencing of 429 chickpe ...

  5. 【转】NG:垂枝桦基因组图谱构建(2+3组装)及重测序分析

    转自希望组公众号.学习二代+三代组装策略的流程 垂枝桦(Betula pendula)是一种速生乔木,能在短短一年时间内开花,木质坚实,可做细工.家具等,经济价值极高.近日,芬兰研究人员对垂枝桦自交系 ...

  6. 全基因组测序 从头测序(de novo sequencing) 重测序(re-sequencing)

    全基因组测序 全基因组测序分为从头测序(de novo sequencing)和重测序(re-sequencing). 从头测序(de novo)不需要任何参考基因组信息即可对某个物种的基因组进行测序 ...

  7. 植物基因组|注释版本问题|重测序vs泛基因组

    生命组学: 细菌和其他物种比,容易发生基因漂移,duplication和重排. 泛基因组学研究的一般思路是通过comparison找到特殊基因区域orspecific gene,研究其调控机制(即通过 ...

  8. 从PMP培训归来,跟大家聊聊做项目的套路

    管理也是一些套路的传承,很多人说不去学专门的管理,照样把工作做得很好.是的,不是散打乱打就不能赢,只是会吃点亏而已.如果你有了套路在心中,那么必定会让自己车到山前开路,让事情更好办. 所以,我去学了几 ...

  9. De novo 测序基础知识

    名词解释 De novo:拉丁文,从头开始的意思,de nove测序则是指在不需要任何参考序列的情况下对某一物种进行基因组测序,然后将测得的序列进行拼接.组装,从而绘制该物种的全基因组序列图谱. 重测 ...

随机推荐

  1. openmp学习心得(二)----常见的运行时库函数

    omp_set_dynamic();如果设置了动态调整,并行区域会根据系统的资源状况,动态分配线程的数量.好像仅仅有0和非0的区别,设置为0不进行动态分配. omp_get_num_threads,o ...

  2. Windows平台编译器相关的几个预定义宏

    WIN32 是在windows.h 中定义的宏,包含winodws.h则定义该宏 _WIN32/_WIN64跟windows平台有关的宏,_WIN32在windows   32位和64位下都有该宏,_ ...

  3. Linux基础入门级命令文档

    Linux系统上命令的使用格式,及常用命令示例 1.命令提示符 登录系统后,第一眼看到的内容是: [root@node01 ~]# 上图就是 Linux 系统的命令提示符.那么,这个提示符的含义是什么 ...

  4. git merge远程合并

    当某个分支上的开发工作完成后需要将其合入主分支master 但是在提交合并前我们自己最好做一次衍合,目的是检测是否有冲突的风险,如果有应该在本分支先解决冲突然后在提交合并. 否则解决冲突的工作就全部转 ...

  5. LOTO示波器配合VI曲线测试仪在电路板维修中的应用

    LOTO示波器配合VI曲线测试仪在电路板维修中的应用 市面上的VI曲线测试仪价格都在2000元到万元不等,同时大多携带不方便,有个别产品可以携带,但是功能单一(比如无法保存曲线,对比曲线等),那么LO ...

  6. 记一次线上环境 ES 主分片为分配故障

    故障前提 ElasticSearch 版本:5.2 集群节点数:5 索引主分片数:5 索引分片副本数:1 线上环境ES存储的数据量很大,当天由于存储故障,导致一时间 5个节点的 ES 集群,同时有两个 ...

  7. 【数据结构&算法】05-线性表之数组

    目录 前言 线性结构与非线性结构 数组 数组的两个限制 数组的随机访问特性 数组的操作 插入操作 删除操作 数组越界 容器 数组下标 前言 本笔记主要记录数组的一些基础特性及操作. 顺便解答下为什么大 ...

  8. 【浏览器】聊聊DOM

    [浏览器]聊聊DOM 博客说明 文章所涉及的资料来自互联网整理和个人总结,意在于个人学习和经验汇总,如有什么地方侵权,请联系本人删除,谢谢! 说明 作为前端开发,在以前的工作中大多是和DOM打交道,到 ...

  9. java eclipse调试提示Source not found 或 一闪而过 解决方法

    Web工程Eclipse  debug方式启动,在断点的位置被成功拦截,但是没有跳转到工程的代码处,提示如下: 当然这个时候如果我继续按F5的话呢,程序又会接着正常运行了.到这里那就是说程序本身是没有 ...

  10. 『与善仁』Appium基础 — 8、Appium自动化测试框架介绍

    目录 1.主流的移动端自动化测试框架 (1)Robotium (2)Macaca (3)Appium 2.自动化测试工具的选择 3.Appium简介 提示:我们前面说的Android环境搭建和adb命 ...