原创博客,未经允许,不得转载. 生存分析,survival analysis,顾名思义是用来研究个体的存活概率与时间的关系.例如研究病人感染了病毒后,多长时间会死亡:工作的机器多长时间会发生崩溃等.  这里“个体的存活”可以推广抽象成某些关注的事件. 所以SA就成了研究某一事件与它的发生时间的联系的方法.这个方法广泛的用在医学.生物学等学科上,近年来也越来越多人用在互联网数据挖掘中,例如用survival analysis去预测信息在社交网络的传播程度,或者去预测用户流失的概率. R里面有很成熟…
生存分析与R 2018年05月19日 19:55:06 走在码农路上的医学狗 阅读数:4399更多 个人分类: R语言   版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/weixin_40466280/article/details/80377317 生存分析与R 生存分析是将事件的结果和出现这一结果所经历的时间结合起来分析的一类统计分析方法.不仅考虑事件是否出现,而且还考虑事件出现的时间长短,因此这类方法也被称为事件时间分析(time-to-…
R语言数据集的字段含义 作者:马文敏 选择一种数据结构来储存数据 将数据输入或导入到这个数据结构中 数据集的概念 数据集通常是有数据结构的一个矩形数组,行表示规则,列表示变量. 不同的行业对数据集的行和列的叫法不同 统计学家称他们为观测和变量 数据库分析为记录和字段 示例分析者叫他们示例 R语言可以处理的数据类型有很多种包括数据型,字符型,逻辑性,原生性. 2.数据结构 R语拥有很多用于储存数据的对象类型,包括标量,向量,矩阵,数组,数据框和列表. 向量 向量数据必须要有相同的类型和模式的数据,…
线性函数拟合(y=a+bx) 1.       R运行实例 R语言运行代码如下:绿色为要提供的数据,黄色标识信息为需要保存的. x<-c(0.10,0.11, 0.12, 0.13, 0.14, 0.15,0.16, 0.17, 0.18, 0.20, 0.21, 0.23) y<-c(42.0,43.5, 45.0, 45.5, 45.0, 47.5,49.0, 53.0, 50.0, 55.0, 55.0, 60.0) data1=data.frame(x=x,y=y)  #数据存入数据框…
在数据分析中,整理数据的本质可以归纳为:对数据进行分割(Split),然后应用(Apply)某些处理函数,最后将结果重新组合(Combine)成所需的格式返回,简单描述为:Split - Apply - Combine.这个过程可以通过Basic包的apply家族函数来实现,apply家族函数包括了apply.sapply.lapply.tapply.aggregate等,可以应用于数据分析的各个阶段.plyr包是apply家族函数的升级,使用plyr包可以实现:在一个函数内同时完成“Split…
一.运行R语言可以做哪些事? 1.探索性数据分析(将数据绘制图表) 2.统计推断(根据数据进行预测) 3.回归分析(对数据进行拟合分析) 4.机器学习(对数据集进行训练和预测) 5.数据产品开发 二.R语言包的使用 1.安装包 install.packages()//安装https://cran.r-project.org/ install_github()//从github安装 2.使用包 加载包library(caret)//括号为包的名字 data()//R自带的数据集(针对导入的包) ?…
R是向量化的语言,最突出的特点是对向量的运算不需要显式编写循环语句,它会自动地应用于向量的每一个元素.对象是R中存储数据的数据结构,存储在内存中,通过名称或符号访问.对象的名称由大小写字母.数字0-9.点号和下划线组成,名称是区分大小写的,并且不能以数字开头,特殊的对象名称可以通过界定符 `` 来转为合法的对象名称,注意,点号( . ) 被视为没有特殊含义的单字符. R语言非常灵活,例如: R语言区分大小写,不管是变量名和函数名,都是大小写敏感的. 直接给变量赋值,R中不能显式声明变量和类型:…
R 语言基本数据结构 首先让我们先进入 R 环境下: sudo R 赋值 R 中可以用 = 或者 <- 来进行赋值 ,<- 的快捷键是 alt + - . > a <- c(2,5,8) > a [1] 2 5 8 筛选 我们可以用下标来筛选,例如: > a[1:2] [1] 2 5 注意 R 语言的下标是从 1 开始的. 当然我们也可以用逻辑进行筛选,例如: > a[a>4] [1] 5 8 为了了解这个式子的原理,我们先看看 a>4 是什么: &g…
导言:     较早之前就听说R是一门便捷的数据分析工具,但由于课程设计的原因,一直没有空出足够时间来进行学习.最近自从决定本科毕业出来找工作之后,渐渐开始接触大数据行业的技术,现在觉得是时候把R拿下了:用了3天时间,除了对R先有一个大概认识之外,也着手敲指令.由于计算机专业的底子还不错,而且先后接触过不下10种编程语言,感觉R语言入门上手还是挺简单的.下面是自己汇总的一些简单入门代码供大家参考,感兴趣的朋友也可逐行敲打测试. 1. 介绍变量.顺序结构.分支结构.循环结构.函数使用.获取帮助等知…
R语言是针对统计分析和数据科学的功能全面的开源语言,R的官方网址:http://www.r-project.org/  在Windows环境下安装R是很方便的 R语言的两种运行模式:交互模式和批处理模式:顾名思义交互模式是一条输入一条输出,而批处理模式则可让处理过程自动化 批处理模式演示: pdf("demo.pdf") #创建demo.pdf文件 hist(rnorm(1000)) #调用hist()画直方图,调用rnorm()生成随机数 dev.off() #将实际文件输出到磁盘上…
<R语言基础语法入门>: http://www.xueqing.tv/upload/april-training/day1/index.html#1…
问题: 一组学生参加了数学.科学和英语考试.为了给所有的学生确定一个单一的成绩衡量指标,需要将这些科目的成绩组合起来.另外,还想将前20%的学生评定为A,接下来20%的学生评定为B,以此类推.最后,希望按字母顺序对学生排序. Excel中的数据表(自己一个个敲的,最讨厌做的事情TT) StuId StuName Math Science English 1 John Davis 502 95 25 2 Angela Williams 465 67 12 3 Bull Jones 621 78 2…
by 写长城的诗 • October 30, 2011 • Comments Off This post was kindly contributed by 数据科学与R语言 - go there to comment and to read  the full post. 一.数据导入 对初学者来讲,面对一片空白的命令行窗口,第一道真正的难关也许就是数据的导入.数据导入有很多途径,例如从网页抓取.公共数据源获得.文本文件导入.为了快速入门,建议初学者采取R语言协同Excel电子表格的方法.也就…
请先安装好R和RStudio 如果不干别的,控制台就是一个内置计算器 2 * 3 #=> 6 sqrt(36) #=> 6, square root log10(100) #=> 2, log base 10 10 / 3 #=> 3.3, 10 by 3 10 %/% 3 #=> 3, quotient of 10 by 3 10 %% 3 #=> 1, remainder of 10 by 3 余数 分配符 a <- 10 # assign 10 to 'a'…
###第一周:R基础 rm(list = ls())  #ctr+L###矩阵相乘,函数diag()a=matrix(1:12,nrow=3,ncol=4)b=matrix(1:12,nrow=4,ncol=3)a%*%ba=matrix(1:16,nrow=4,ncol=4)diag(a)#返回对角线元素diag(diag(a))diag(4)#对角线为1的单位矩阵###矩阵求逆,函数rnorm(),solve()a=matrix(rnorm(16),4,4)#产生4*4的随机数solve(a…
方法1.散点图 hscat(log(zinc)~, meuse, (:)*) 方法2.变异函数云图 library(gstat) cld <- variogram(log(zinc) ~ , meuse, cloud = TRUE) svgm <- variogram(log(zinc) ~ , meuse) d <- data.frame(gamma = c(cld$gamma, svgm$gamma), dist = c(cld$dist, svgm$dist), id = c(re…
向量是一维的,只有行这一个维度,没有其他维度.R可以创建更高维度的数据对象,例如,矩阵.数据框.数组,索引高维度的对象时,需要使用元素的下标.这些对象的下标都使用中括号[]和索引,第一个维度是row,第二个维度是column,维度依次增加,索引的格式是:var[row,column,,,].数组是二维或多维(三维或多于三维),二维数组叫做矩阵.数组元素的类型是相同的,每个维度的元素数量是相同的.数据框是二维对象,每个数据列的数据类型是相同的,不同数据列的数据类型可以不同. 一,数组(array)…
从五月10日开始自学R in action,将我的学习所得逐渐发布在博客上. chapter1.新手上路 工作空间:存储着所有用户定义的对象(向量,矩阵,函数,数据框,列表): 当前的工目录保存是R用来读取文件和保存结果的默认目录. getwd()显示当前工作目录: setwd(“”)修改当前的工作目录:工作目录的"\"要换成“/”;历史记录保存在文件.Rhistory中,工作空间保存在文件.RData中. install.packages("")下载某个包,lib…
由于项目的需要,最近做了一个javaWeb调用R的组件,在这里,我把自己走的一些弯路给大家总结一下: 一.选取什么插件作为java和R之间的通信? 1. 在传统的方式中,大致可以分为两类:一类是JRI的模式,另一种是Rserve模式.JRI模式实际上是一种嵌入式的模式,二Rserve是一种远程调用模式. 在这两种方式中,各有优缺点: 1.1 JRI(嵌入式模式)我体会到最大的优点是它对中文的支持较好,但是使用JRI模式下很容易造成整个系统的崩溃,比如在java调用R的时候,中间出现了异常或者错误…
  这是<不一样的go语言>的开篇之作,我尝试以java语言转变者的角度来聊一聊go语言.所以今天先从go语言的基础开始,即语法.   学习一门新的编程语言,必从语法开始.但需要注意的是,对于一个有大量项目经验的程序员来说,可能看完语言介绍或者看完Hello World之后,就着急地想着上手写个小东东玩玩,比如写个简单的web服务.但是将一门新的语言应用到实际项目中需要的东西很多很多.诸如go语言的项目结构是怎么样的?有没有什么约定?用什么IDE?依赖是怎么管理的?项目是怎么构建的?是怎么发布…
很多有过 JVM 相关语言工作经验的程序员或许都遇到过如下问题: 超出 thread 限制导致内存溢出.在作者的笔记本的 linux 上运行,这种情况一般发生在创建了 11500 个左右的 thread 时候. 但如果你用 Go 语言来做类似的尝试,每创建一个 Goroutine ,并让它永久的 Sleep ,你会得到一个完全不同的结果.在作者的笔记本上,在作者等待的不耐烦之前,GO语言创建了大约7千万个 Goroutine .为什么我们可以创建的 Goroutines 比 thread 多这么…
1.1 影响 Go 语言发展的早期编程语言 正如 "21 世纪的 C 语言" 这句话所说,Go 语言并不是凭空而造的,而是和 C++.Java 和 C# 一样属于 C 系.不仅如此,设计者们还汲取了其它编程语言的精粹部分融入到 Go 语言当中. 在声明和包的设计方面,Go 语言受到 Pascal.Modula 和 Oberon 系语言的影响:在并发原理的设计上,Go 语言从同样受到 Tony Hoare 的 CSP(通信序列进程 Communicating Squential Proc…
先看下 Go 语言的程序结构: package main // 当前包名 import "fmt" // 导入程序中使用到的包 // 初始化函数 func init() { // 初始化数据 } // 程序入口主函数,且一个 package 只能有一个 main 函数 func main() { fmt.Print("hello world") // 处理逻辑 } 程序的初始化和执行都起始于 main package 包,并且 main() 函数只能在 man 包中…
本文首发于“生信补给站”:https://mp.weixin.qq.com/s/lpkWwrLNtkLH8QA75X5STw 生存分析作为分析疾病/癌症预后的出镜频率超高的分析手段,而其结果展示的KM曲线也必须拥有姓名和颜值! 生存分析相关推文: 生存分析和KM曲线:R|生存分析(1) 分析结果一键输出:R|生存分析-结果整理 时间依赖生存分析:R|timeROC-分析 一 数据和R包 为方便,使用内置lung数据集 #载入所需的R包library("survival")library…
生存分析与R 生存分析是将事件的结果和出现这一结果所经历的时间结合起来分析的一类统计分析方法.不仅考虑事件是否出现,而且还考虑事件出现的时间长短,因此这类方法也被称为事件时间分析(time-to-event analysis).生存分析是医学领域中一个重要的内容,在肿瘤等疾病的研究中运用十分广泛. 1.生存分析中的重要概念 生存分析的数据资料与其它一般的数据资料有一些不同的特征: 1. 其同时考虑生存时间和生存结局 2. 通常存在删失(censored)数据 3. 生存时间通常不服从生态分布.…
数据分布图简介 中医上讲看病四诊法为:望闻问切.而数据分析师分析数据的过程也有点相似,我们需要望:看看数据长什么样:闻:仔细分析数据是否合理:问:针对前两步工作搜集到的问题与业务方交流:切:结合业务方反馈的结果和项目需求进行数据分析. "望"的方法可以认为就是制作数据可视化图表的过程,而数据分布图无疑是非常能反映数据特征(用户症状)的.R语言提供了多种图表对数据分布进行描述,本文接下来将逐一讲解. 绘制基本直方图 本例选用如下测试集: 直方图的横轴为绑定变量区间分隔的取值范围,纵轴则表…
散点图简介 散点图通常是用来表述两个连续变量之间的关系,图中的每个点表示目标数据集中的每个样本. 同时散点图中常常还会拟合一些直线,以用来表示某些模型. 绘制基本散点图 本例选用如下测试数据集: 绘制方法是首先调用ggplot函数选定数据集,并在aes参数中指明横轴纵轴.然后调用散点图函数geom_point()便可绘制出基本散点图.R语言示例代码如下: # 基函数 ggplot(ah, aes(x = ageYear, y = heightIn)) + # 散点图函数 geom_point()…
折线图简介 折线图通常用来对两个连续变量的依存关系进行可视化,其中横轴很多时候是时间轴. 但横轴也不一定是连续型变量,可以是有序的离散型变量. 绘制基本折线图 本例选用如下测试数据集: 绘制方法是首先调用ggplot函数选定数据集,并在aes参数中指明横轴纵轴.然后调用条形图函数geom_line()便可绘制出基本折线图.R语言示例代码如下: # 基函数 ggplot(BOD, aes(x = Time, y = demand)) + # 折线图函数 geom_line()     运行结果:…
老师简介: Gino老师,即将步入不惑之年,早年获得名校数学与应用数学专业学士和统计学专业硕士,有海外学习和工作的经历,近二十年来一直进行着数据分析的理论和实践,数学.统计和计算机功底强悍. 曾在某一世界500强公司核心部门担任高级主管负责数据建模和分析工作,在实践中攻克统计建模和数据分析难题无数,数据处理与分析科学精准,在实际应用中取得良好的效果. Gino老师担任数据分析培训师多年,探索出一套以实例讲解带动统计原理理解和软件操作熟悉的方法,授课的学生能迅速理解统计原理并使用统计软件独立开展数…
本系列文章由 @YhL_Leo 出品,转载请注明出处. 文章链接: http://blog.csdn.net/yhl_leo/article/details/49768161 R是一个有着统计分析功能及强大作图功能的软件系统,R即是一种软件也可以说是一种语言,可以看作是由AT&T贝尔实验室所创的S语言发展出的一种方言.你可以在其官网主页上获取它,你可以免费获取它.发布它,甚至从中盈利.R是跨平台的,可以在Windows,Unix/Linux以及Mac OS X系统使用. R之所以被称为''R&qu…