variant的过滤 | filtering and prioritizing genetic variants
WGS和WES测序和分析会产生大量的variant数据。
显然直接分析全部的variant是非常不靠谱的。
做疾病的话,有一些常用的过滤套路。
variant作用于基因表达主要分两大类:
1. coding,可以直接影响RNA的形成,以及后面蛋白的折叠组装;
2. non-coding,现在最流行的就是enhancer这个媒介,已经有比较好的结果了。
过滤的必要性
首先GWAS已经做了,要理解GWAS产生了哪些结果,GWAS的局限性在哪?
Our previous meta-analysis of genome-wide association studies estimated that common variants together account for a small proportion of heritability estimated from family studies.4 Rare variants might therefore contribute significantly to the missing heritability.
Most of these variants (77.5%) were novel or rare (MAF < 1%).
common variants是很容易通过GWAS分析找到的,因为出现的频率较高,很少的样本就有很大的power来把它们检测出来,但common variant通常都是在非编码区的,通过非常复杂的调控来影响疾病,而且common variant的解释度很低,并不是疾病的主导因素。所以,目前都转向了rare variants,rare的通常都在编码区,直接改变了蛋白,影响疾病的方式比较直接,但显然我们需要非常大的样本量才有足够的power来检测出rare variants。
The analysis showed the strongest association of 328 variants with HSCR (P < 5 10–8), all of which mapped to the known disease susceptibility loci of RET and NRG1 (Figure 1A, upper panel).
GWAS直接找到了328个显著的variants,但显然它们的LD高度相关,最终也就是两个gene而已。而且这两个基因早就已知了,所以这个GWAS在初级层面没有任何新的有价值的发现。
Among the 936 WGS samples, a total of 4985 protein-truncating URVs were detected. 这基本就是我需要用到的数据了。
关于PCR扩增时候产生的错误,以及测序质量产生的错误。
用DP、GQ可以过滤一大部分,还有后面的BQSR也可以矫正。
可能用到的数据库:
1. 1000 genome,测得人太少,才千把个,到某个群体就更少了
2. gnomAD,125,748 exome sequences and 15,708 whole-genome sequences,感受一下这个霸气的测序量
3. ExAC,外显子测序,60,706 unrelated individuals
4. ensemble
注意的问题:
1. 疾病的人群,我们关注的是East Asian
2. 疾病的发病率,highest among Asians (2.8/10,000 live births),一般设在千分之5比较靠谱
比较好用的变异注释工具(不同工具注释出来的结果差异还是很大的,见paper)
perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar refGene humandb/
annotate_variation.pl -out ex1 -build hg19 example/ex1.avinput humandb/
convert2annovar.pl -format vcf4 HK152C.vcf > HK152C.avinput
annotate_variation.pl -out HK152C -build hg19 HK152C.avinput /home/lizhixin/softwares/annovar/humandb/
这是实际的时候,需要把vcf转成特定的格式。
注释出来的functional consequences结果:nonsynonymous SNV, synonymous SNV, frameshift insertion, frameshift deletion, nonframeshift insertion, nonframeshift deletion, frameshift block substitution, nonframshift block substitution
什么是nonframeshift deletion?看这里,就是以3个为一组,删除了,并没有影响阅读框架。
annovar也可以用来过滤variants
annotate_variation.pl -downdb -webfrom annovar -build hg19 gnomad211_exome humandb/
annotate_variation.pl -downdb -webfrom annovar -build hg19 gnomad211_genome humandb/
java -jar /home/lizhixin/softwares/kggseqhg19/kggseq.jar --buildver hg19 --vcf-file HSCR.WGS.2_5.variants.vcf.gz --db-filter 1kgeas201305,gadexome,gadgenome --rare-allele-freq 0.005 --o-vcf
'--rare-allele-freq c' will excluded variants with alternative allele frequency EQUAL to or over c in the reference datasets
过滤的标准
- allele frequency,如:把高于千分之5的过滤掉
- 已知基因集
- 杂合纯合
- protein-truncating (stopgain, splicing, or frameshift)
example: rs2435357
gnomAD,这还能用allele frequency来过滤吗?这个是common variants,在非编码区,effect size是非常小的。
Variant Annotation 参见paper
Annotation was done using KGGseq for protein function against the RefGene, pathogenicity, and population frequencies.
We defined protein-truncating variants as those that lead to (1) gain of the stop codon, (2) frameshift and (3) alteration of the essential splice sites.
Damaging variants include all proteintruncating variants and missense or in-frame variants predicted to be deleterious by KGGseq. Benign variants are missense variants or in-frame variants predicted benign by KGGseq.
Finally, protein-altering variants comprise both damaging and benign variants. Rare variants are those whose minor allele frequency (MAF) is <0.01 in public databases. Ultra-rare variants (URVs) are defined as a singleton variant, that is, one that appeared only once in our whole data set, not present in dbSNP138 or public databases
参见KGGseq的这个命令:Gene feature filtering
variant的类型:
- Putative LoF variants
- Nonsynonymous and missense variants
- Synonymous variants
- Exonic variants
A frameshift mutation is a genetic mutation caused by a deletion or insertion in a DNA sequence that shifts the way the sequence is read.
a transcript is defined by its exons, introns and UTRs and their locations
牢记经典的基因结构模型非常重要:
梳理一下:
在基因组上,有promoter和enhancer,他们在转录因子的作用下启动转录过程,然后就进入基因的结构,基因的前后都有UTR,就是不转录的区域,然后就是由Exon和Intron交替排列的核心区域。intron里面往往有很多调控元件,如enhancer。


参考:
A practical guide to filtering and prioritizing genetic variants
Choice of transcripts and software has a large effect on variant annotation
Gene Structure - mRNA和蛋白是如何转化而来的
Regulation of Gene Expression: Operons, Epigenetics, and Transcription Factors - 调控是如何进行的
Eukaryotic Gene Regulation part 1
细节操作:
Extract subset of samples from multigenome vcf file
拆分样本,独立注释:
for i in HK152C HK154C HK162C HK175C HK180C; do
echo $i
vcf-subset -e -c $i hscr2zxl.sel.vcf.gz > ${i}.vcf # | bgzip -c
done
无义介导的mRNA降解(nonsense-mediated mRNA decay,NMD)
Nonsense-mediated RNA decay in the brain: emerging modulator of neural development and disease
variant的过滤 | filtering and prioritizing genetic variants的更多相关文章
- LINQ Operators之过滤(Filtering)
转:http://www.cnblogs.com/lifepoem/archive/2011/11/16/2250676.html 在本系列博客前面的篇章中,已经对LINQ的作用.C# 3.0为LIN ...
- LINQ之路11:LINQ Operators之过滤(Filtering)
在本系列博客前面的篇章中,已经对LINQ的作用.C# 3.0为LINQ提供的新特性,还有几种典型的LINQ技术:LINQ to Objects.LINQ to SQL.Entity Framework ...
- 变异的功能 | variants function | coding | non-coding
variant主要分为两类: coding noncoding 这两大类的分析方法截然不同,coding主要直接影响了mRNA和蛋白:而noncoding,主要是影响调控. coding编码区如何分析 ...
- 利用maven中resources插件的copy-resources目标进行资源copy和过滤
maven用可以利用如下配置进行资源过滤,pom.xml的配置如下: <build> <!-- 主资源目录 --> <resources> <resource ...
- 三 drf 认证,权限,限流,过滤,排序,分页,异常处理,接口文档,集xadmin的使用
因为接下来的功能中需要使用到登陆功能,所以我们使用django内置admin站点并创建一个管理员. python manage.py createsuperuser 创建管理员以后,访问admin站点 ...
- drf 认证、权限、限流、过滤、排序、分页器
认证Authentication 准备工作:(需要结合权限用) 1. 需要使用到登陆功能,所以我们使用django内置admin站点并创建一个管理员. python manage.py creates ...
- DRF之权限认证,过滤分页,异常处理
1. 认证Authentication 在配置文件中配置全局默认的认证方案 REST_FRAMEWORK = { 'DEFAULT_AUTHENTICATION_CLASSES': ( 'rest_f ...
- drf07 过滤 排序 分页 异常处理 自动生成接口文档
4. 过滤Filtering 对于列表数据可能需要根据字段进行过滤,我们可以通过添加django-fitlter扩展来增强支持. pip install django-filter 在配置文件sett ...
- drf之组件(认证、权限、排序、过滤、分页等)和xadmin、coreapi
认证Authentication 可以在配置文件中配置全局默认的认证方案 REST_FRAMEWORK = { 'DEFAULT_AUTHENTICATION_CLASSES': ( 'rest_fr ...
随机推荐
- DataPipeline丨构建实时数据集成平台时,在技术选型上的考量点
文 | 陈肃 DataPipeline CTO 随着企业应用复杂性的上升和微服务架构的流行,数据正变得越来越以应用为中心. 服务之间仅在必要时以接口或者消息队列方式进行数据交互,从而避免了构建单一数 ...
- XML简述
XML简述 本文主要内容都是在中国大学MOOC上学习的,这里做个记录. 课程:Java核心技术(进阶),华东师范大学 陈良育老师 感谢陈良育老师,在他的慕课上受益匪浅. XML基本概念 XML(eXt ...
- Java JDBC结果集的处理
结果集指针的移动 while (resultSet.next()){ //...... } 指针最初指向第一条记录之前,next()是指向下一个位置,返回的是boolean值,true表示有内容(记录 ...
- Solr基础理论【倒排索引,模糊查询】
一.简介 现有的许多不同类型 的技术系统,如关系型数据库.键值存储.操作磁盘文件的map-reduce[映射-规约]引擎.图数据库等,都是为了帮助用户解决颇具挑战性的数据存储与检索问题而设计的.而搜索 ...
- RabbitMQ基本概念(一)-RabbitMQ的优劣势及产生背景
本篇并没有直接讲到技术,例如没有先写个Helloword.我想在选择了解或者学习一门技术之前先要明白为什么要现在这个技术而不是其他的,以免到最后发现自己学错了.同时如果已经确定就是他,最好先要了解下技 ...
- Vmware克隆Centos6.5虚拟机网卡无法启动问题
1.编辑eth0的配置文件:vi /etc/sysconfig/network-scripts/ifcfg-eth0,删除HWADDR地址那一行及UUID的行如下: #HWADDR=:0c::::9f ...
- Exploit Kit——hacker入侵web,某iframe中将加载RIG EK登录页面,最终下载并执行Monero矿工
RIG Exploit Kit使用PROPagate注入技术传播Monero Miner from:https://www.4hou.com/technology/12310.html 导语:Fire ...
- jmeter中设置线程数与设置集合点的区别
1.设置线程数: 表示10秒内启动50个线程, 运行结果如下:10秒内启动了50个线程 2.设置集合点: Number of Simulated Users to Group by:50,表示集合50 ...
- 201671030102陈飞 实验十四 团队项目评审&课程学习总结
项目 内容 这个作业属于哪个课程 2016级计算机科学与工程学院软件工程(西北师范大学) 这个作业的要求在哪里 实验十四 团队项目评审&课程学习总结 课程学习目标 1.掌握软件项目评审会议流程 ...
- 项目Beta冲刺(团队7/7)
项目Beta冲刺(团队) --7/7 作业要求: 项目Beta冲刺(团队) 1.团队信息 团队名 :男上加男 成员信息 : 队员学号 队员姓名 个人博客地址 备注 221600427 Alicesft ...