xgene:WGS,突变与癌,RNA-seq,WES
人类全基因组测序06
SNP(single nucleotide polymorphism):有了10倍以上的覆盖深度以后,来确认SNP信息,就相当可靠了。
一个普通黄种人的基因组,与hg19这个参考基因组序列相比,会有350万个左右的SNP。又有大概2万个是落在外显子上的,而非同义的SNP有大概9千个。
所谓非同义的SNP,就是这些SNP是会引起蛋白质的序列变化的。
indel:(insertion & deletion)是指小于50个bp以内的微小的插入、和缺失突变。一个普通黄种人的基因组和hg19相比,约有50万个Indel。其中落在外显子上的,大概在1千个左右。
那么Indel如果一旦落在外显子区域,它一定会引起蛋白质序列变化的。
如果它引起的是移码突变,那么在移码位点之后,所有氨基酸序列就和原来的序列完全不同。
如果它(基因)还能保持原来的阅读框,也会引起蛋白质中若干个氨基酸的增或者减。
SV: structure variation 染色体结构变异
1、 染色体内部的位移
2、 染色体之间的位移
3、 大片段的缺失
4、 大片段的插入
5、 大片倍的加倍
6、 大片段的倒位
CNV :copy number variation 拷贝数变异,是指染色体片段的拷贝数变异:包括拷贝数增加,也包括拷贝数减少。
实际上,CNV是和结构变异(也就是SV)紧密相关的。SV 中的大片段的增加、和大片段的缺失,会直接导致CNV的变化。
突变种类与癌症04
基因拷贝数异常:
例如:HER2基因,如果HER2基因的拷贝数增加到6个,或者更多,它就比较容易引发乳腺癌。
赫赛汀(Herceptin)这个药,可以抑制HER2蛋白的活性,所以赫赛洒就对于由HER2基因拷贝数异常增加引发的乳腺癌,有非常好的治疗作用。
染色体结构变异:
强启动子替换了弱启动子,改变了某个基因在天然条件下的表达量。
例如:EML4-ALK的融合基因。ALK是一个推动细胞生长、增殖的这样一个基因。在野生型的条件下,它的表达量是比较低的。还有一个基因叫EML4基因,这个基因有一个强启动子。
有一个药物,叫克里唑替尼(crizotinib)。这个药对EML4-ALK融合基因导致的肺癌有非常良好的疗效。
基因的点突变:
例如:BRAF基因的V600E突变。BRAF本身是个激酶,是打开下游细胞增殖通道的一个开关。当BRAF的第600个氨基酸,从缬氨酸被突变到了谷氨酸之后,它的酶活性就被持续地活化,它就持续地打开下游促进细胞分裂的这个信号通路。
维罗非尼(vemurafenib)这个药物正好能够抑制BRAF的这个激酶的活性,所以它能够有效治疗有BRAF V600E突变的肿瘤。
抑癌基因突变成无效基因
突变在大多数情况下,是使一个基因失去活性。只有在少数情况下,会增强一个基因的活性。
例如:TP53这个基因的最重要的一个功能,是在细胞受到伤害之后,TP53会引导细胞进行凋亡。
如果一旦TP53发生了突变,失去了功能,或者这个细胞彻底就把TP53这个基因搞丢了之后,细胞就不容易进入凋亡。 当它不容易进入凋亡呢,它也就有更大可能性变成肿瘤。 已经在很多的科学实验中发现,大概在50%的肿瘤里面,有TP53基因突变的情况存在。
RNA -seq:07
RNA-seq目的、用处::可以帮助我们了解,各种比较条件下,所有基因的表达情况的差异。
比如:正常组织和肿瘤组织的之间的差异;检测药物治疗前后,基因表达的差异;检测发育过程中,不同的发育阶段,不同的组织之间的基因表达差异 等
在所有检测的差异类型中,最常用的一种检测就是:检测所有mRNA的表达量的差异。
还可以检测 RNA 的结构上的差异。例如:mRNA的剪接方式的差异,即“可变剪接”;还可以检测“融合基因”,同时还可以检测基因单点突变导致的SNP。
测序方法、步骤:人的细胞或组织,一般抽提到的总RNA当中,95%都是核糖体RNA。剩下的2%到3%是mRNA。还有2%到3%是Long non-coding RNA、或者tRNA、microRNA等
先把核糖体RNA先去掉。然后再进行建库测序。比如利用Poly(A)尾巴 抓出mRNA ,镁离子溶液打断,逆转录成cDNA ,再建库扩增,测序
表达量指标:目前最常用的是RPKM值,对基因表达量进行相对定量的一个指标。RPKM是 Reads Per Kilobase of exon model perMillion mapped reads。

除以这个外显子的长度,它的目的:是修正这个mRNA长度所引起的mRNA的Read数的偏差。
火山图:针对全转录组的分析,表达的是一次看到一个整体的样本(表达)差异的情况。
横轴表示某个基因的表达量是上升或下降。纵轴是表示这种差异的置信程度。这其中的每个点,就是两个样本当中同一个基因的mRNA表达量的变化。
聚类分析图:它是通过多个样本的全基因表达谱对比,来找到它们之间的相似性,和相近关系。
一张聚类分析的图,横轴是样本,纵轴是基因。
应用:我们可以分析疾病的亚型;还可以通过对多个基因在特定疾病当中的表达倾向性,来找出可能的、新的、诊断用的Biomark。
GO(gene ontology)分析:
GO主要描述基因的三个属性:
第一,是这个基因,它参与的生物过程
第二,是这个基因产物的功能
第三、是这个基因产物在细胞器内的空间定位
差异基因GO富集柱状图:可以直观的反映出在生物过程、细胞组分、和分子功能富集的差异基因的个数分布情况。 柱子越高,则表示这个亚类当中突变越多。
有向无环图,是差异基因GO富集分析的图形化展示方式,从上到下,它所定义的功能范围越来越小、越来越精准。 它的分支,表示包含关系。而这个圈圈的颜色越深呐,表示这个富集关系程度越高。
通路(Pathway)分析:在系统水平上完成生物的某一功能的基本单元、或者局部子网络。
散点图是KEGG富集分析结果的图形化展示方式。
在图中,KEGG富集程度通 Rich factor、Qvalue 和 富集到此通路上的基因个数 来衡量。
富集因子越大,则表示富集的程度越大。 qValue是校正之后的pValue,它越接近于0表示富集程度越显著。点面积越大呐,则富集的基因数越多。
RNA-seq中,可以测到mRNA上的各种结构上的变异,即RNA序列的变异。要求测序深度要更深。因为这样才能得到较完整的覆盖,更有把握判断 新的剪接点、一个断点、哪儿碱基发生了突变等。
结构变异分析:
可变剪接:一般一个人的组织样本当中,可以通过高通量测序,发现有5000个到20000个左右的可变剪接。
基因融合:融合基因的示意图,圆形 圆内弧线连接图
点突变(SNP):泡泡图,泡泡越大 突变频率越高,由大到小逆时针排列
外显子组测序08
外显子测序的核心技术,是这些针对人外显子序列设计的捕获探针库;这些探针的序列,都和人外显子的DNA序列相互补。
实验原理、步骤:
超声打碎,建成文库;
杂交,探针上有生物素;
用磁珠(其上有链霉亲和素与生物素结合)混合;
磁铁吸附磁珠,去上清液,把DNA文库从磁珠上洗脱
PCR,HiSeq测序
数据分析:比对 到人的基因组上;把比对到基因组的序列进行 突变分析
一般用Agilent SureSelect 50M的试剂盒进行外显子建库、捕获。再用HiSeq 2500 V4 PE125的方法进行测序,测10个G的数据量。
在外显子测序中,要扣掉4种因素引起的无效数据:
第一个是因为杂交捕获的过程它不是十分精确的。基因组中有许多序列有一定的同源性的。这些片段,在杂交过程当中,也会被杂交捕获下来,但不是基因的外显子。
第二个,是捕获下来的一个片段,很可能它只有一部分的序列是落在目标区域,还有一部分序列是突出在目标范围之外的。这个落在目标区的数据,占全部被测到的数据的比例,即“捕获效率”(capture efficiency)。那么AgilentSureSelect这个试剂盒呐,它的捕获效率,大约是65~70%。
第三个影响有效数据比例的因素,是Duplication。用Agilent SureSelect试剂盒进行建库、捕获,实测10个G的数据,发现duplication大约在5%左右。
第四个,是目前主流的测序方法是HiSeq V4 PE125这种方法。也就是:双端各测125个碱基,那么Agilent的建库方法中当呐
WES在肿瘤测序中的优势:
外显子测序,可测Germline突变(胚胎形成时就带有的突变),也可测体细胞突变(Somatic Mutation)
因为肿瘤中的突变呐,往往都是 low allele frequency(低等位基因频率) 的体细胞突变。所以,外显子组测序“深度测序”,显出比较明显的优势来。
- 测肿瘤中的体细胞突变,一般是拿手术切下来的肿瘤组织DNA、和病人外周血中的白细胞基因组DNA,进行外显子测序。
- 一般肿瘤的测100~200X的深度,白细胞的(DNA)测100X的深度。
- 从白细胞DNA得到这个病人的Germline基因组序列,拿肿瘤的DNA序列与之做对比,找出其中的体细胞突变。
外显子组测序,主要能够得到的信息是点突变和插入缺失突变,也就是SNP、Indel信息。
找到突变之后,就可以进一步地做GO和Pathway分析。
- 外显子测序对基因组的结构,变异--SV(Structure Variation),是不敏感的。因为外显子测序,只测了基因组上1~2%的很小一部分区域,当 SV 的断点不落在外显子区域的时侯,外显子测序是看不到这些断点的
- 外显子测序对拷贝数变异(CNV,copy numbervariation),不是很敏感。不敏感的原因呐,是因为杂交捕获过程啊,是一个含了很高偶然性的过程。
- 往往是这样做的:用全基因测序来找到肿瘤样本中的结构,变异(SV)和拷贝数变异(CNV),再用来外显子组测序来找肿瘤样本中的、低频的SNP和Indel体细胞突变。
Panel,往往是指针对若干个基因设计一个捕获试剂盒。诊断公司为诊断特定的疾病,设计了许多特定的、针对性的Panel。
这一类的Panel,它的建库、捕获、和测序原理,与外显子组测序是完全一样的。
xgene:WGS,突变与癌,RNA-seq,WES的更多相关文章
- RNA -seq
RNA -seq RNA-seq目的.用处::可以帮助我们了解,各种比较条件下,所有基因的表达情况的差异. 比如:正常组织和肿瘤组织的之间的差异:检测药物治疗前后,基因表达的差异:检测发育过程中,不同 ...
- RNA seq 两种计算基因表达量方法
两种RNA seq的基因表达量计算方法: 1. RPKM:http://www.plob.org/2011/10/24/294.html 2. RSEM:这个是TCGAdata中使用的.RSEM据说比 ...
- RNA测序相对基因表达芯片有什么优势?
RNA测序相对基因表达芯片有什么优势? RNA-Seq和基因表达芯片相比,哪种方法更有优势?关键看适用不适用.那么RNA-Seq适用哪些研究方向?是否您的研究?来跟随本文了解一下RNA测序相对基因表达 ...
- 链终止法|边合成边测序|Bowtie|TopHat|Cufflinks|RPKM|FASTX-Toolkit|fastaQC|基因芯片|桥式扩增|
生物信息学 Sanger采用链终止法进行测序 带有荧光基团的ddXTP+其他四种普通的脱氧核苷酸放入同一个培养皿中,例如带有荧光基团的ddATP+普通的脱氧核苷酸A.T.C.G放入同一个培养皿,以此类 ...
- featureCounts 软件说明
featuresCounts 软件用于定量,不仅可以支持gene的定量,也支持exon, gene bodies, genomic bins, chromsomal locations的定量: 官网 ...
- Advances in Single Cell Genomics to Study Brain Cell Types | 会议概览
单细胞在脑科学方面的应用 Session 1: Deciphering the Cellular Landscape of the Brain Using Single Cell Transcript ...
- 常用数据库ID格式
转自:http://www.biotrainee.com/thread-411-1-1.html 常用数据库 ID ID 示例 ID 来源 ENSG00000116717 Ensemble ID GA ...
- 常用生物信息 ID 及转换方法
众多不同的数据库所采用的对 Gene 和 Protein 编号的 ID 也是不同的, 所以在使用不同数据库数据的时候需要进行 ID 转换. 常用数据库 ID ID 示例 ID 来源 ENSG00000 ...
- 在非小细胞肺癌中,MET基因的14号外显子突变和年龄,依赖于癌症阶段的CNV,C-MET过表达的关系
背景:c-MET是肝细胞生长因子的酪氨酸激酶受体.MET 14号外显子编码部分c-MET的胞内跨膜结构域,包括重要的调节原件,比如酪氨酸1003,一个降解c-MET的相关酶的结合位点. 拥有MET 1 ...
随机推荐
- PageHelper
https://pagehelper.github.io/ Mybatis分页插件PageHelper简单使用 SpringBoot之分页PageHelper
- Spring Boot启动原理解析
Spring Boot启动原理解析http://www.cnblogs.com/moonandstar08/p/6550758.html 前言 前面几章我们见识了SpringBoot为我们做的自动配置 ...
- 关于spring的bean
1 spring bean的单例和多例 singleton 单例指的是,在需要该bean的地方,spring framework返回的是同一个值. prototype 多例指的是,在需要该bean的地 ...
- special points about git
1 about "origin/master tracks the remote branch" 1.1 what does tracking mean? after " ...
- JAVA Socket基础(简单实现)
学习Socket需要了解的几个概念: Socket 指的是互联网连接中的各个终结点.互联网连接是怎么创建的,通过IP地址加端口号,进行互通. A电脑(192.168.3.125:80)>> ...
- Nodejs学习笔记 --- 调用命令方法ld_process.exec()和child_process.execFile()
本文主要记录项目中使用NodeJS实现在线构建项目时,通过代码自动调用命令行. 参考资料&内容来源: Nodejs官网:http://nodejs.cn/api/child_process.h ...
- 我的Java开发学习之旅------>Workspace in use or cannot be created, choose a different one.--错误解决办法
今天使用Eclipse时,突然卡死了,然后我强制关闭了Eclipse,再重新打开的时候就报错了,错误如下: Workspace in use or cannot be created, choose ...
- 流畅的python学习笔记:第十三章:重载运算符__add__,__iadd__,__radd__,__mul__,__rmul__,__neg__,__eq__,__invert__,__pos__
在前面第十章以及第一章的时候介绍了Vector对象的运算符重载.第十三章专门介绍运算符重载.这里我们看几个之前没讲过的运算符__neg__,__pos__,__invert__ class Vecto ...
- linux日志系统介绍 —— syslog(),openlog(),closelog()
函数使用介绍 这里面的三个函数openlog, syslog.closelog是一套系统日志写入接口.另外那个vsyslog和syslog功能一样,仅仅是參数格式不同. 通常.sysl ...
- FI模块与SD、MM的接口配置方法
[转自 http://blog.itpub.net/195776/viewspace-1023910/] 1 FI/SD 借口配置FI/SD通过tcode VKOA为billing设置过帐科目,用户可 ...