做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾!?--转载
关于数据挖掘发表文章,我们知道很多人是看不上、瞧不起、嗤之以鼻的。大抵是因为这些人平时只发 CNS 主刊,所以才认为通过数据挖掘这种用「别人的数据」或者叫「干实验」来发文章是“「垃圾」,没有什么价值。
真的是这样吗?今天我们要介绍的就是一篇做数据挖掘的 Cancer Cell 杂志的文章(IF: 27.4),大家来看看文章怎么样。
A Comprehensive Pan-Cancer Molecular Study of Gynecologic and Breast Cancers. Cancer Cell. 2018 Apr 1. pii: S1535-6108(18)30119-3.
1
文章数据挖掘的情况
肿瘤类型:妇科肿瘤和乳腺癌;
数据来源:主要是 TCGA 数据库,1,087 例 BRCA(invasive breast carcinoma,乳腺癌), 308 例 CESC (cervical squamous cell carcinoma and endocervical adenocarcinoma, 宫颈癌 ), 579 例 OV(high-grade serous ovarian cystadenocarcinoma,卵巢癌),548 例 UCEC(uterine corpus endometrial carcinoma,子宫内膜子宫内膜癌)和 57 例 UCS(uterine carcinosarcoma ,子宫癌肉瘤),共 2,579 例,统称为 “Pan-Gyn” 泛妇科肿瘤。
数据类型:临床信息(clinical),拷贝数变异(somatic
copy-number alterations SCNAs), 突变(mutations),DNA甲基化(DNA methylation),mRNA,miRNA,lncRNA和蛋白的表达(expression of mRNA, microRNA, long non-coding RNA, and proteins)。
2
文章的研究工作
1. 找到了分子特征(molecular features),用以区分 “Pan-Gyn” 与 TCGA 中其它肿瘤;
23 个基因在 Pan-Gyn 和 Non-Gyn 中的突变和扩增频率
2. 鉴定到高白细胞浸润(high leukocyte infiltration)这一免疫应答的肿瘤亚型;
3. 建立了基因和 lncRNA 的相互作用 network(interaction network );
4. 建立了决策树(Decision tree),将临床相关预后的肿瘤亚型进行再分组;
由于内容比较多,这篇文章我们就简单介绍到这里。
3
趋势文章
细心的同学会发现 Pubmed 的趋势文章(Trending Articles),最近有很多从各个角度分析 TCGA 数据的高分文章。
比如 4 月 5 日 Cell 主刊的六连发:
1. 分析泛肿瘤中增强子(Enhancer)表达:
A Pan-Cancer Analysis of Enhancer Expression in Nearly 9000 Patient Samples.Cell. 2018 Apr 5;173(2):386-399.e12.
2. 分析肿瘤驱动(Driver )基因和突变:
Comprehensive Characterization of Cancer Driver Genes and Mutations.Cell.2018 Apr 5;173(2):371-385.e18.
3. 分析肿瘤信号通路:
Oncogenic Signaling Pathways in The Cancer Genome Atlas.Cell. 2018 Apr 5;173(2):321-337.e10.
4. 分析患者生存预后结果的
An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics.Cell. 2018 Apr 5;173(2):400-416.e11.
5. 分析肿瘤发病生殖系变异(Pathogenic Germline Variants):
Pathogenic Germline Variants in 10,389 Adult Cancers.Cell. 2018 Apr 5;173(2):355-370.e14.
6. 分析细胞来源用于肿瘤分类:
Cell-of-Origin Patterns Dominate the Molecular Classification of 10,000 Tumors from 33 Types of Cancer.Cell. 2018 Apr 5;173(2):291-304.e6.
又比如 4 月 3 日 Cell Reports 的五连发:
1. 从DNA损伤修复角度分析基因组和分子图谱:
Genomic and Molecular Landscape of DNA Damage Repair Deficiency across The Cancer Genome Atlas.Cell Rep. 2018 Apr 3;23(1):239-254.e6.
2. 分析肾癌整体分子特性:
The Cancer Genome Atlas Comprehensive Molecular Characterization of Renal Cell Carcinoma.Cell Rep. 2018 Apr 3;23(1):313-326.e5.
3. 分析鳞癌的基因组、通路和免疫特性:
Genomic, Pathway Network, and Immunologic Features Distinguishing Squamous Carcinomas.Cell Rep. 2018 Apr 3;23(1):194-212.e6.
4. 从泛素化通路角度分析:
Integrated Genomic Analysis of the Ubiquitin Pathway across Cancer Types.Cell Rep. 2018 Apr 3;23(1):213-226.e3.
5. 从lncRNA角度分析,并通过实验验证:
Pan-Cancer Analysis of lncRNA Regulation Supports Their Targeting of Cancer Genes in Each Tumor Context.Cell Rep. 2018 Apr 3;23(1):297-312.e12.
这是怎么肥事?
其实,这个是 CELL Press 的 “The Pan-Cancer Atlas” 的主题系列:
总体上包括了 Cell-of-Origin,Oncogenic Processes、Signaling Pathway 和 Resources 四部分,前三部分收录了 Flagship Paper(旗舰文章)和 Companion Papers。
做数据挖掘,就算发 20 几分的 CNS 子刊,也是垃圾!?--转载的更多相关文章
- 在使用R做数据挖掘时,最常用的数据结构莫过于dataframe了,下面列出几种常见的dataframe的操作方法
原网址 http://blog.sina.com.cn/s/blog_6bb07f83010152z0.html 在使用R做数据挖掘时,最常用的数据结构莫过于dataframe了,下面列出几种常见的d ...
- 2015.7.7——跌停板做T,就算要搏跌停反弹也要看卖一档压力啊
1.今天中色股份和以往不同买卖盘为正!————今天要重新观察这种新常态下的盘面运作 是否会出现如2015.7.6中描述的“前期错过了皮城中的黄金买点,...其实只要买卖盘为负,后期还会有再次尝试该低点 ...
- 两个offer如何做选择?年薪20万vs年薪15万
(附注:本文转载于:http://www.eoeandroid.com/thread-296678-1-1.html) 前些天和一个年轻的朋友谈跳槽.朋友说她需要在两个offer里面做选择.一个是年薪 ...
- 利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程
项目内容 本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析 词云可视化 2. ...
- 20个命令行工具监控 Linux 系统性能(转载)
1. top — Linux 系统进程监控 top 命令是性能监控程序,它可以在很多 Linux/Unix 版本下使用,并且它也是 Linux 系统管理员经常使用的监控系统性能的工具.Top 命令可以 ...
- 20个命令行工具监控 Linux 系统性能【转载】
对于每个系统管理员或网络管理员来说,每天要监控和调试 Linux 系统性能问题都是非常困难的工作.我已经有5年 Linux 管理员的工作经历,知道如何监控系统使其保持正常运行.为此,我们编写了对于 L ...
- Android内存管理(11)*常见JVM回收机制「Java进程内存堆分代,JVM分代回收内存,三种垃圾回收器」
参考: http://www.blogjava.net/rosen/archive/2010/05/21/321575.html 1,Java进程内存堆分代: 典型的JVM根据generation(代 ...
- 为了讲明白继承和super、this关键字,群主发了20块钱群红包
摘要:以群主发红包为例,带你深入了解继承和super.this关键字. 本文分享自华为云社区<群主发红包带你深入了解继承和super.this关键字>,作者:共饮一杯无 . 需求 群主发随 ...
- 5年从DBA到运维架构总监 — 做对了什么
本文来自宝宝树运维总监刘秋岐的分享.随着MySQL的不断成熟,逐渐被用于更多大规模的网站和应用了,比如说当前最火的Facebook.淘宝.阿里.兰亭集势.宝宝树这样的大型的网站都在使用MySQL数据库 ...
随机推荐
- 使用纳米 Protocol buffers 作为序列化数据
使用纳米 Protocol buffers 作为序列化数据 Protocol Buffers 是 Google 公司开发的一种数据描述语言,类似于XML能够将结构化数据序列化. 但是它更小, 更快, ...
- 常用邮箱POP3 STMP服务器与端口号设置
一.常用邮箱POP3 STMP服务器与端口号设置: [网易 163.126免费邮箱目前不直接开放smtp.pop3服务.有需要的用户可通过购买随身邮或邮箱伴侣及加入会员中心获得.从2006年11月16 ...
- 3.2.1 SpringMVC入门
一. SpringMVC入门 1. MVC介绍 MVC全名 是Model View Controller, 是模型(model) - 视图(view) - 控制器(controller) 的缩写, 它 ...
- 【Mac】-NO.133.Mac.1 -【重置忘记macos root密码】
Style:Mac Series:Java Since:2018-09-10 End:2018-09-10 Total Hours:1 Degree Of Diffculty:5 Degree Of ...
- JS 变量和函数提升 全局变量和局部变量
变量提升 1. var a = 10; function test() { a = 100; console.log(a); console.log(this.a); var a; console.l ...
- Spring Boot:快速入门
上一篇讲述什么是Spring Boot,这一篇讲解怎么使用IDE工具快速搭建起来独立项目. 一.构建方式 快速搭建项目有三种方式,官方也有答案给到我们: 二.构建前准备 想要使用IDE运行起来自己的S ...
- 【错误总结1:unity StartCoroutine 报 NullReferenceException 错误】
今天在一个项目中,写了一个单例的全局类,该类的作用是使用协程加载场景.但在StartCoroutine 这一步报了NullReferenceException 的错.仔细分析和搜索之后,得到错误原因. ...
- 网络库压力测试:mongols VS evpp
evpp是360出品的一个网络库,基于libevent,进行了许多改造,对c++11友好.据称比libevent性能要好. 到底有多好呢?360开发人员有自己的测试,信不信由你. evpp源码下有个h ...
- 【数据结构】算法 LinkList (Remove Nth Node From End of List)
删除链表中倒数第n个节点 时间复杂度要控制在O(n)Solution:设置2个指针,一个用于确定删除节点的位置,一个用于计算倒数间距n.移动时保持2个指针同时移动. public ListNode r ...
- Windbg程序调试系列5-高CPU问题分析
上篇博客中给大家分享了使用Windbg进行Live Debugging: Windbg程序调试系列4-Live Debugging 本篇中我们继续,跟大家分享常见的应用程序高CPU使用率问题分析. 先 ...