R语言绘制KS曲线】的更多相关文章

更多大数据分析.建模等内容请关注公众号<bigdatamodeling> 将代码封装在函数PlotKS_N里,Pred_Var是预测结果,可以是评分或概率形式:labels_Var是好坏标签,取值为1或0,1代表坏客户,0代表好客户:descending用于控制数据按违约概率降序排列,如果Pred_Var是评分,则descending=0,如果Pred_Var是概率形式,则descending=1:N表示在将数据按风险降序排列后,等分N份后计算KS值. PlotKS_N函数返回的结果为一列表,…
更多大数据分析.建模等内容请关注公众号<bigdatamodeling> python实现KS曲线,相关使用方法请参考上篇博客-R语言实现KS曲线 代码如下: ####################### PlotKS ########################## def PlotKS(preds, labels, n, asc): # preds is score: asc=1 # preds is prob: asc=0 pred = preds # 预测值 bad = labe…
准备 第一步就是安装R语言环境以及RStudio 图绘制准备 首先安装库文件,敲入指令,回车 install.packages('corrplot') 然后安装excel导入的插件,点击右上角import Dataset,选中From excel即可. 这些操作都很简单~~ 数据预处理 然后到了数据输入了,这么多数据,我们总不能一行输入吧?那得有多蠢 于是我们利用上了数据导入功能,当当当~~ 然而理想很丰满,现实却很蛋疼,导入的excel数据格式不是我们希望的矩阵格式ORZ! 哎,休息下喝杯茶,…
一幅图解决R语言绘制图例的各种问题 用R语言画图的小伙伴们有木有这样的感受,"命令写的很完整,运行没有报错,可图例藏哪去了?""图画的很美,怎么总是图例不协调?""啊~~啊,抓狂,图例盖住关键的点了.""怎么才能让图例指哪站哪?" "图例太长怎么办"-- 吐槽吐到累,不如多掌握几个图例(Legend)的软肋,更好地利用R语言绘图. legend(x, y = NULL, legend, fill = NUL…
先上图 R语言的REmap包拥有非常强大的空间热力图以及空间迁移图功能,里面内置了国内外诸多城市坐标数据,使用起来方便快捷. 开始 首先安装相关包 install_packages("devtools") install_packages("REmap") library(devtools) library(REmap) 我们来试试其强大的城市坐标获取功能 city<- c("beijing","上海") get_geo…
R语言中有很多现成的R包,可以绘制venn图,但是最多支持5组,当组别数大于5时,venn图即使能够画出来,看上去也非常复杂,不够直观: 在实际的数据分析中,组别大于5的情况还是经常遇到的,这是就可以考虑用花瓣图来进行数据的可视化 比如下面这个例子: 来源于该链接  https://www.researchgate.net/figure/235681265_fig3_The-pan-genome-of-Sinorhizobium-The-flower-plots-and-Venn-diagram…
##使用leaflet绘制地铁线路图,要求 ##(1)图中绘制地铁线路 library(dplyr) library(leaflet) library(data.table) stations<-read.csv("C:\\Users\\BIGDATA\\Desktop\\文件\\BigData\\R语言\\相关作业文档\\3\\第五次实训课数据\\systation.csv"); stations <- arrange(stations,line,line_id) lin…
无论是直方图还是经验分布图,要从比较上鉴别样本是否处近似于某种类型的分布是困难的 QQ图可以帮我们鉴别样本的分布是否近似于某种类型的分布 R语言,代码如下: > qqnorm(w);qqline(w)> w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5,+ 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)> qqnorm(w);qqline(w)…
直方图: 核密度函数: 练习题目1: 绘制出15位同学体重的直方图和核密度估计图,并与正态分布的概率密度函数作对比 代码如下: > w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5,+ 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)> hist(w, freq = FALSE)> lines(density(w), col = "blue")> x <- 4…
正态分布 判断一样本所代表的背景总体与理论正态分布是否没有显著差异的检验.   方法一概率密度曲线比较法 看样本与正太分布概率密度曲线的拟合程度,R代码如下: #画样本概率密度图s-rnorm(100)#产生样本d-density(s)plot(d,col=green,ylim=c(0,0.5))#添加正太分布概率密度图s2-seq(from=-4,to=4,length.out=100)lines(s2,norm_expression(s2),col=red) 画图结果如下:   方法二 正太…
#========================================================#wolf moose graph version 20170616.R###Data are from Messier,F.1994.Ungulate popuparion models#with predation:a case study with the North American moose.###=====================================…
好久没发点新的作品了.......也许...... Que sera, seraWhatever will be, will be…
与直方图相比,茎叶图更能细致的看出数据分布情况! 代码: > x<-c(25, 45, 50, 54, 55, 61, 64, 68, 72, 75, 75,+ 78, 79, 81, 83, 84, 84, 84, 85, 86, 86, 86,+ 87, 89, 89, 89, 90, 91, 91, 92, 100)> stem(x) The decimal point is 1 digit(s) to the right of the | 2 | 5 3 | 4 | 5 5 |…
R语言  ggplot2包的学习   分析数据要做的第一件事情,就是观察它.对于每个变量,哪些值是最常见的?值域是大是小?是否有异常观测? ggplot2图形之基本语法: ggplot2的核心理念是将绘图与数据分离,数据相关的绘图与数据无关的绘图分离ggplot2是按图层作图ggplot2保有命令式作图的调整函数,使其更具灵活性ggplot2将常见的统计变换融入到了绘图中.ggplot的绘图有以下几个特点:第一,有明确的起始(以ggplot函数开始)与终止(一句语句一幅图):其二,图层之间的叠加…
前言 ggplot2是R语言最为强大的作图软件包,强于其自成一派的数据可视化理念.当熟悉了ggplot2的基本套路后,数据可视化工作将变得非常轻松而有条理. 本文主要对ggplot2的可视化理念及开发套路做一个总体介绍,具体绘图方法(如折线图,柱状图,箱线图等)将在后面的文章中分别进行讲解. 核心理念 1. 将数据,数据相关绘图,数据无关绘图分离 这点可以说是ggplot2最为吸引人的一点.众所周知,数据可视化就是将我们从数据中探索的信息与图形要素对应起来的过程. ggplot2将数据,数据到图…
上图是R语言绘制的按地域分布的数据图.更科学,更严谨,也更有质感的样子. 今天瞎写点东西,我在想数据分析的意义是什么,也许就是研究事物存在的形式.而事物存在的形式是什么样子呢,从最初的三维空间,爱因斯坦伯伯把时间也拉了进来,于是时间作为一种变化的空间而存在着,成为第四维.现在好像还发现了第五空间,可能是人的心理空间或者意识空间,还有人说是曲率,不一而足.个人认为i,所有的事物应该都是彼此联系的,没有单纯的独立的与其他东西绝缘的存在.而人的内心,人的思维目前确实是独立于其他四维的空间.所以他应该是…
笔者寄语:分类器算法最后都会有一个预测精度,而预测精度都会写一个混淆矩阵,所有的训练数据都会落入这个矩阵中,而对角线上的数字代表了预测正确的数目,即True Positive+True Nagetive. -------------------------- 相关内容: 1. R语言︱ROC曲线--分类器的性能表现评价 2.机器学习中的过拟合问题 3.R语言︱机器学习模型评估方案(以随机森林算法为例) -------------------------- 1.TPR与TNR 同时可以相应算出TP…
知识图谱主要是通过将应用数学,图形学,信息可视化技术,信息科学等学科的理论与方法与计量学引文分析.共现分析等方法结合,利用可视化的图谱形象地展示学科的核心结构.发展历史.前沿领域以及整体知识架构达到多学科融合目的的现代理论. 今天我们借助networkD3包里面的simpleNetwork 函数来绘制一个类似CSDN微信开发的知识图谱,效果图如下: 首先我们先来分析一下这张图,图里面的微信支付——微信支付,小程序——小程序,等这些,它们之间本不需要连线,但这里是为了美观好看,才有这些连线,但实际…
一个简单的例子: > plot(cars$dist~cars$speed,+ main="车位移与速度的关系",+ xlab="速度",+ ylab="位移",+ xlim=c(0,25),+ ylim=c(0,100), + cex=1, + col="red",+ pch=19) 运行结果如图: 参数如下,具体使用方法见上面示例 main:图形标题 sub:子标题 xlab:x轴标题 ylab:y轴标题 xlim:x…
使用ggplot2包绘制ROC曲线 rocplot<- function(pred, truth, ...){ predob<- prediction(pred, truth) #打印AUc perf.auc<- performance(predob, measure = 'auc', x.measure = 'cutoff') # perf<- performance(predob, 'tpr','fpr') df<- data.frame(x = attributes(p…
R语言真是博大精深 方法一 Acf(gold[,2], type = "correlation",lag.max = 100) Acf(gold[,2], type = "partial") 方法二 library(ggfortify) autoplot(acf(gold[,2], plot = FALSE)) 方法三 bacf <- acf(gold[, 2], plot = FALSE) bacfdf <- with(bacf, data.frame…
在日常学习或工作中经常会使用线性回归模型对某一事物进行预测,例如预测房价.身高.GDP.学生成绩等,发现这些被预测的变量都属于连续型变量.然而有些情况下,被预测变量可能是二元变量,即成功或失败.流失或不流失.涨或跌等,对于这类问题,线性回归将束手无策.这个时候就需要另一种回归方法进行预测,即Logistic回归. 在实际应用中,Logistic模型主要有三大用途: 1)寻找危险因素,找到某些影响因变量的"坏因素",一般可以通过优势比发现危险因素: 2)用于预测,可以预测某种情况发生的概…
本文对应<R语言实战>第6章:基本图形:第7章:基本统计分析 ================================================================================================================================================== 本章讨论的图形,主要用于分析数据前,对数据的初步掌握.想要对数据有一个初步的印象,最好的方式就是观察它,也就是将数据可视化.在这个过程中,我们…
散点图简介 散点图通常是用来表述两个连续变量之间的关系,图中的每个点表示目标数据集中的每个样本. 同时散点图中常常还会拟合一些直线,以用来表示某些模型. 绘制基本散点图 本例选用如下测试数据集: 绘制方法是首先调用ggplot函数选定数据集,并在aes参数中指明横轴纵轴.然后调用散点图函数geom_point()便可绘制出基本散点图.R语言示例代码如下: # 基函数 ggplot(ah, aes(x = ageYear, y = heightIn)) + # 散点图函数 geom_point()…
R语言 R是用于统计分析.绘图的语言和操作环境.R是属于GNU系统的一个自由.免费.源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具. 特点介绍 •主要用于统计分析.绘图.数据挖掘 •R内置多种统计学及数字分析功能.R的功能也可以通过安装包(Packages,用户撰写的功能)增强. •因为S的血缘,R比其他统计学或数学专用的编程语言有更强的面向对象(面向对象程序设计)功能 官网:http://cran.r-project.org/ 其他介绍 •R的另一强项是绘图功能,制图具有印刷的素质…
数据结构 创建向量和矩阵 函数c(), length(), mode(), rbind(), cbind() 求平均值,和,连乘,最值,方差,标准差 函数mean(), sum(), min(), max(), var(), sd(), prod() 帮助文档 函数help() 生成向量 seq() 生成字母序列letters 新建向量 Which()函数,rev()函数,sort()函数 生成矩阵 函数matrix() 矩阵运算 函数t(),矩阵加减 矩阵运算 矩阵相乘,函数diag() 矩阵…
利用R语言打造量化分析平台 具体利用quantmod包实现对股票的量化分析 1.#1.API读取在线行情2.#加载quantmod包3.if(!require(quantmod)){4. install.packages("quantmod")5.}6.#获取股票行情指数7.Quote=function(code){8. index=match(code,universes)9. temp=lapply(universes,get)10. return(temp[[index]])11…
通过一个综合的例子测试绘图函数 学习的内容是tigerfish老师的教程. 第一节:基本知识 用seq函数产生100位学生的学号. > num = seq(,) > num [] [] [] [] [] [] [] [] [] [] [] [] [] 用runif函数产生100个随机数(随机数是小数),代表课程1的成绩,100个数字,最小值50,最大值100. 该结果是均匀分布,用round函数对其取整. > x1 = round(runif(100,min=50,max=100));…
本文对应<R语言实战>第8章:回归 回归是一个广义的概念,通指那些用一个或多个预测变量(也称自变量或解释变量)来预测响应变量(也称因变量.效标变量或结果变量)的方法.通常,回归分析可以用来挑选与相应变量相关的解释变量,可以描述两者的关系,也可以生成一个等式,通过解释变量来预测响应变量. 回归分析的各种变体 回归类型 用途 简单线性 用一个量化的解释变量预测一个量化的响应变量 多项式 用一个量化的解释变量预测一个量化的响应变量,模型的关系是n阶多项式 多元线性 用两个或多个量化的解释变量预测一个…
关于分类算法我们之前也讨论过了KNN.决策树.naivebayes.SVM.ANN.logistic回归.关于这么多的分类算法,我们自然需要考虑谁的表现更加的优秀. 既然要对分类算法进行评价,那么我们自然得有评价依据.到目前为止,我们讨论分类的有效性都是基于分类成功率来说的,但是这个指标科学吗?我们不妨考虑这么一个事实:一个样本集合里有95个正例,5个反例,分类器C1利用似然的思想将所有的实例均分成正例,分类成功率为95%:分类器C2成功分出了80个正例,3个反例,分类成功率仅83%.我们可以说…