TCGA样本命名详解

在TCGA中，一个患者可能会对应多个样本，如TCGA-A6-6650可以得到3个样本数据：

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
TCGA-A6-6650-01B-02R-A277-07
大家知道一般在做TCGA数据分析的时候样本名实际上只保留到前四个元素（以”-“分割），例如TCGA-A6-6650-01。所以实际上上示3个样本一般只保留一个，那该怎么取舍呢？

在取舍之前，当然要先搞清楚样本命名方式：

我们将此示图以”-“分割，具体拆开解读一下：

TCGA：Project, 所有TCGA样本名均以这个开头，标志
A6：Tissue source site，组织来源编码，如A6就表示来源于Christiana Healthcare中心的结肠癌组织。更多编码所代表的意义详见：
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes
6650：Participant, 参与者编号
01：Sample, 这两个数字可以说是最关键、最被大家注意的，其中编号01~09表示肿瘤，10~19表示正常对照，如下：
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes
所以在TCGA样本名中，这个位置最常见的就是01和11，当然偶尔也会有其他的数字
A：Vial, 在一系列患者组织中的顺序，绝大多数样本该位置编码都是A; 很少数的是B，表示福尔马林固定石蜡包埋组织，已被证明用于测序分析的效果不佳，所以不建议使用-01B的样本数据：
所以命名至此，已经可以开始用于区别不同的样本了，以下将是更细节的描述：

11：Portion, 同属于一个患者组织的不同部分的顺序编号，同一组织会分割为100-120mg的部分，分别使用
R：Analyte, 分析的分子类型，对应关系如下所示：
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/portion-analyte-codes
1774：Plate, 在一系列96孔板中的顺序，值大表示制板越晚
07：Center, 测序或鉴定中心编码，更多编码详见：
https://tcga-data.nci.nih.gov/datareports/codeTablesReport.htm?codeTable=center
一个借鉴的图片：

更多内容详见：
https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode
http://docs.cavatica.org/docs/tcga-grch38-metadata

所以现在看这三个样本：

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
TCGA-A6-6650-01B-02R-A277-07
其区别就在于，前两个使用的是患者的冰冻组织做的测序，而第三个用的是福尔马林固定石蜡包埋组织；而前两个样本的区别在于同一组织后续使用了不同的96孔板。

理解了命名规则及三者命名上的主要区别后，现在可以重点解决如何从一个患者的多个样本中挑选样本的问题了，首先排除TCGA-A6-6650-01B-02R-A277-07，因为是-01B，福尔马林固定石蜡包埋组织！剩下的两个：

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
先看看GDAC firehose遇到这种情况怎么解决，总结起来就是：

1、对RNA数据来说，Analyte为R的优先级最该，其次是R和T，而对于DNA层面的分析来说，D的优先级最高。
2、如果Analyte相同，那就选择Portion和/或Plate值更大的。
所以按照GDAC firehose的方法，最终保留TCGA-A6-6650-01A-11R-A278-07，因为其相对于TCGA-A6-6650-01A-11R-1774-07的板号(Plate)更晚：
https://github.com/BioinformaticsFMRP/TCGAbiolinks/issues/163
虽然看起来可能这么选比较准确，但是稍微有些麻烦~

然后是cBioPortal中的处理方式：

随机选择了一个，理由很简单啊，来源于同一个患者的癌组织样本差别不大，小编随机测试了两个样本，表达相关性值是大于0.8的。
---------------------
作者：Mr番茄蛋
来源：CSDN
原文：https://blog.csdn.net/qq_35203425/article/details/80851862
版权声明：本文为博主原创文章，转载请附上博文链接！

TCGA样本命名详解的更多相关文章

linux命名详解及其软件安装实例
始于cd,ls命令好啦,步入正题,我使用的linux连接工具为xshell,mRemoteNG,对两款工具不做介绍啦,你可以百度一下,实在不会入左上方群. 进入之后,便是上面的界面黑乎乎一片,对于初 ...
Django url配置正则表达式详解分组命名匹配命名URL 别名和URL反向解析命名空间模式
Django基础二之URL路由系统本节目录一 URL配置二正则表达式详解三分组命名匹配四命名URL(别名)和URL反向解析五命名空间模式一 URL配置 Django 1.11版本 ...
HanLP分词命名实体提取详解
HanLP分词命名实体提取详解分享一篇大神的关于hanlp分词命名实体提取的经验文章,文章中分享的内容略有一段时间(使用的hanlp版本比较老),最新一版的hanlp已经出来了,也可以去看看新版 ...
2. 知识图谱-命名实体识别（NER）详解
1. 通俗易懂解释知识图谱(Knowledge Graph) 2. 知识图谱-命名实体识别(NER)详解 3. 哈工大LTP解析 1. 前言在解了知识图谱的全貌之后,我们现在慢慢的开始深入的学习知识 ...
Redis 配置文件 redis.conf 项目详解
Redis.conf 配置文件详解 # [Redis](http://yijiebuyi.com/category/redis.html) 配置文件 # 当配置中需要配置内存大小时,可以使用 1k, ...
redis.conf 配置详解
# Redis 配置文件 # 当配置中需要配置内存大小时,可以使用 1k, 5GB, 4M 等类似的格式,其转换方式如下(不区分大小写) # # 1k => 1000 bytes # 1kb = ...
Redis for Windows(C#缓存)配置文件详解
Redis for Windows(C#缓存)配置文件详解前言在上一篇文章中主要介绍了Redis在Windows平台下的下载安装和简单使用http://www.cnblogs.com/aehy ...
reids配置参数详解
转自:http://www.jb51.net/article/60627.htm reids配置参数详解 #daemonize no 默认情况下, redis 不是在后台运行的,如果需要在后台运行, ...
基于双向BiLstm神经网络的中文分词详解及源码
基于双向BiLstm神经网络的中文分词详解及源码基于双向BiLstm神经网络的中文分词详解及源码 1 标注序列 2 训练网络 3 Viterbi算法求解最优路径 4 keras代码讲解最后源代码 ...

随机推荐

学号 20175201张驰《Java程序设计》第8周学习总结
学号 20175201张驰 <Java程序设计>第8周学习总结教材学习内容总结第十五章知识总结: 1.泛型类声明:可以使用"class 名称"声明一个类,例如:c ...
DAX/PowerBI系列 - 建模视图可以多个分页
PowerBI 十一月的更新终于有了一个解决密集恐惧症患者的方法,建模视图每个tab专注于一个领域,更加简洁. ps: Microstrategy早就有了.
3.2.2 SpringMVC配置式开发
SpringMVC配置式开发 1. SpringMVC运行原理(执行过程) 2. 需求用户提交一个请求, 服务端处理器接收到请求后, 给出一条信息,在相应页面中显示该条信息 3. 开发步骤 (1) ...
jmeter-PC注册遇到的问题与解决
2019-04-26问题:
python commands包不支持windows环境与如何在windows下使用的简易方法
commands模块不支持windows环境,让我们来看看. >>> import commands >>> print commands.getoutput('d ...
安利一个vps,7美元/年。
黑色星期五.给大家安利一个vps,7美元/年.配置如下:2 个虚拟化 CPU 2 GB (2048 MB) 专属内存 50 GB RAID-10 受保护硬盘存储 3000 GB (3TB) 月流量 1 ...
关于Linux与Windows的在服务器的一些区别
我们平时说学习运维要依托于Linux系统,因为在服务器领域Linux基本取得了市场,那么Linux在服务器领域与Windows相比有哪些优势呢?我们来看下:我们选择服务器主要是成本,安全稳定,这两大方 ...
JavaScript Object中的函数assign
Object函数提供了一个叫做assign的函数,用来合并多个对象. Object.assign(...): 你可以传递多个对象给该函数,这些对象中的自有且可枚举的属性,会被拷贝给第一个对象. var ...
GIL
GIL(Global Interpreter Look):全局解释器锁,为了避免线程竞争资源造成数据错乱. 其实每个py程序都必须有解释器参加,解释器就是一堆代码,就等于多线程要竞争同一个解释器的代码 ...
C# 弹出确定、取消窗口
if (MessageBox.Show("确定要退出吗?", "", MessageBoxButtons.OKCancel, MessageBoxIcon.Qu ...

TCGA样本命名详解

TCGA样本命名详解的更多相关文章

随机推荐

热门专题