在TCGA中,一个患者可能会对应多个样本,如TCGA-A6-6650可以得到3个样本数据:

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
TCGA-A6-6650-01B-02R-A277-07
大家知道一般在做TCGA数据分析的时候样本名实际上只保留到前四个元素(以”-“分割),例如TCGA-A6-6650-01。所以实际上上示3个样本一般只保留一个,那该怎么取舍呢?

在取舍之前,当然要先搞清楚样本命名方式:

我们将此示图以”-“分割,具体拆开解读一下:

TCGA:Project, 所有TCGA样本名均以这个开头,标志
A6:Tissue source site,组织来源编码,如A6就表示来源于Christiana Healthcare中心的结肠癌组织。更多编码所代表的意义详见:
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes
6650:Participant, 参与者编号
01:Sample, 这两个数字可以说是最关键、最被大家注意的,其中编号01~09表示肿瘤,10~19表示正常对照,如下:
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes
所以在TCGA样本名中,这个位置最常见的就是01和11,当然偶尔也会有其他的数字
A:Vial, 在一系列患者组织中的顺序,绝大多数样本该位置编码都是A; 很少数的是B,表示福尔马林固定石蜡包埋组织,已被证明用于测序分析的效果不佳,所以不建议使用-01B的样本数据:
所以命名至此,已经可以开始用于区别不同的样本了,以下将是更细节的描述:

11:Portion, 同属于一个患者组织的不同部分的顺序编号,同一组织会分割为100-120mg的部分,分别使用
R:Analyte, 分析的分子类型,对应关系如下所示:
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/portion-analyte-codes
1774:Plate, 在一系列96孔板中的顺序,值大表示制板越晚
07:Center, 测序或鉴定中心编码,更多编码详见:
https://tcga-data.nci.nih.gov/datareports/codeTablesReport.htm?codeTable=center
一个借鉴的图片:

更多内容详见:
https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode
http://docs.cavatica.org/docs/tcga-grch38-metadata

所以现在看这三个样本:

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
TCGA-A6-6650-01B-02R-A277-07
其区别就在于,前两个使用的是患者的冰冻组织做的测序,而第三个用的是福尔马林固定石蜡包埋组织;而前两个样本的区别在于同一组织后续使用了不同的96孔板。

理解了命名规则及三者命名上的主要区别后,现在可以重点解决如何从一个患者的多个样本中挑选样本的问题了,首先排除TCGA-A6-6650-01B-02R-A277-07,因为是-01B,福尔马林固定石蜡包埋组织!剩下的两个:

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
先看看GDAC firehose遇到这种情况怎么解决,总结起来就是:

1、对RNA数据来说,Analyte为R的优先级最该,其次是R和T,而对于DNA层面的分析来说,D的优先级最高。
2、如果Analyte相同,那就选择Portion和/或Plate值更大的。
所以按照GDAC firehose的方法,最终保留TCGA-A6-6650-01A-11R-A278-07,因为其相对于TCGA-A6-6650-01A-11R-1774-07的板号(Plate)更晚:
https://github.com/BioinformaticsFMRP/TCGAbiolinks/issues/163
虽然看起来可能这么选比较准确,但是稍微有些麻烦~

然后是cBioPortal中的处理方式:

随机选择了一个,理由很简单啊,来源于同一个患者的癌组织样本差别不大,小编随机测试了两个样本,表达相关性值是大于0.8的。
---------------------
作者:Mr番茄蛋
来源:CSDN
原文:https://blog.csdn.net/qq_35203425/article/details/80851862
版权声明:本文为博主原创文章,转载请附上博文链接!

TCGA样本命名详解的更多相关文章

  1. linux命名详解及其软件安装实例

    始于cd,ls命令 好啦,步入正题,我使用的linux连接工具为xshell,mRemoteNG,对两款工具不做介绍啦,你可以百度一下,实在不会入左上方群. 进入之后,便是上面的界面黑乎乎一片,对于初 ...

  2. Django url配置 正则表达式详解 分组命名匹配 命名URL 别名 和URL反向解析 命名空间模式

    Django基础二之URL路由系统 本节目录 一 URL配置 二 正则表达式详解 三 分组命名匹配 四 命名URL(别名)和URL反向解析 五 命名空间模式 一 URL配置 Django 1.11版本 ...

  3. HanLP分词命名实体提取详解

    HanLP分词命名实体提取详解   分享一篇大神的关于hanlp分词命名实体提取的经验文章,文章中分享的内容略有一段时间(使用的hanlp版本比较老),最新一版的hanlp已经出来了,也可以去看看新版 ...

  4. 2. 知识图谱-命名实体识别(NER)详解

    1. 通俗易懂解释知识图谱(Knowledge Graph) 2. 知识图谱-命名实体识别(NER)详解 3. 哈工大LTP解析 1. 前言 在解了知识图谱的全貌之后,我们现在慢慢的开始深入的学习知识 ...

  5. Redis 配置文件 redis.conf 项目详解

    Redis.conf 配置文件详解 # [Redis](http://yijiebuyi.com/category/redis.html) 配置文件 # 当配置中需要配置内存大小时,可以使用 1k, ...

  6. redis.conf 配置详解

    # Redis 配置文件 # 当配置中需要配置内存大小时,可以使用 1k, 5GB, 4M 等类似的格式,其转换方式如下(不区分大小写) # # 1k => 1000 bytes # 1kb = ...

  7. Redis for Windows(C#缓存)配置文件详解

    Redis for Windows(C#缓存)配置文件详解   前言 在上一篇文章中主要介绍了Redis在Windows平台下的下载安装和简单使用http://www.cnblogs.com/aehy ...

  8. reids配置参数详解

    转自:http://www.jb51.net/article/60627.htm reids配置参数详解 #daemonize no  默认情况下, redis 不是在后台运行的,如果需要在后台运行, ...

  9. 基于双向BiLstm神经网络的中文分词详解及源码

    基于双向BiLstm神经网络的中文分词详解及源码 基于双向BiLstm神经网络的中文分词详解及源码 1 标注序列 2 训练网络 3 Viterbi算法求解最优路径 4 keras代码讲解 最后 源代码 ...

随机推荐

  1. opencart3图片Google Merchant Center验证通过不了的解决方法

    最近在做一个opencart项目,有对接Google Merchant Center,但是一直提示产品图片验证无法通过,ytkah看了一下图片路径,/image/cache/catalog/demo/ ...

  2. python基础-->流程控制-->分支结构-->单项分支-->双向分支

    # ###流程控制 ''' 流程:代码执行过程 流程控制:对代码执行过程的管控 顺序结构:代码默认从上到下依次执行 分支结构:对代码执行过程的管控 循环机构: while for ..in.... 分 ...

  3. 正则re

    1.简介 其实re在基本模块里已经介绍过,但是在爬虫中re是非常重要的,所以在这里再进行详细描述. re在解析html内容时是效率最高的,但是也是最难的,一般来说,都是结合xpath和re使用,这样解 ...

  4. 使用@Autowired时,取值为null

    如果取不到,可以考虑其他方式 场景: @Autowired private StringRedisTemplate redisTemplate; 想使用redisTemplate,但是使用时为null ...

  5. Android Studio旧版(内含SDK)安装和环境变量配置 转自I-T枭

    win10下Android Studio和SDK下载.安装和环境变量配置 ------made by siwuxie095 转自I-T枭https://me.csdn.net/hahahhahahah ...

  6. leetcode143. Reorder List

    用快慢双指针,可以使慢指针到达中间的时候快指针到达最后一个元素(奇数),或者倒数第二个元素(偶数).慢指针后面的元素是后半个链表,把后半个链表进行reverse,然后再插在原来的链表中就可以了 /** ...

  7. DS18B20初上电显示85℃问题

    以前用的温度采集都是用的AD,这次改为了DS18B20,看了资料,没有很复杂的部分,重要的就是时序.板子出来后初步测试也能正常读取温度,然而有个问题比较奇怪,就是在板子初上电时读取温度总是显示为+85 ...

  8. github仓库的初步使用

    github是被戏称为男人们的朋友圈,在github里可以很方便的和同伴合作.以下是github初步建立的步骤.(由于我已经安装好了,所有没有插入图片,如果有未降到的问题先自行百度,如果我后续碰到有关 ...

  9. 捕鱼达人Demo版下载

    链接:https://pan.baidu.com/s/1ihHhikpFXiNJMxa26E8qBw 提取码:npj6

  10. Spring Boot:快速入门(二)

    学习完成怎么搭建一个独立Spring Boot项目后,上面是整理出来的一些相关文件以及用途. 原本是一个Excel文件,拷贝到博客园就成了图片,当做几个笔记了,用到的时候可以查阅,也欢迎转载,收藏. ...