Gini系数的原理

转载：https://blog.csdn.net/u010665216/article/details/78528261

首先，我们直接构造赛题结果：真实数据与预测数据：

predictions = [0.9, 0.3, 0.8, 0.75, 0.65, 0.6, 0.78, 0.7, 0.05, 0.4, 0.4, 0.05, 0.5, 0.1, 0.1]

actual = [1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]

我们将预测值从小到大排列：

data = zip(actual, predictions)

sorted_data = sorted(data, key=lambda d: d[1])

sorted_actual = [d[0] for d in sorted_data]

print('Sorted Actual Values', sorted_actual)

我们对排序后的真实值累计求和：

cumulative_actual = np.cumsum(sorted_actual)

cumulative_index = np.arange(1, len(cumulative_actual)+1)

plt.plot(cumulative_index, cumulative_actual)

plt.xlabel('Cumulative Number of Predictions')

plt.ylabel('Cumulative Actual Values')

plt.show()

我们将数据Normalization到0，1之间，并画出45度线：

cumulative_actual_shares = cumulative_actual / sum(actual)

cumulative_index_shares = cumulative_index / len(predictions)

#Add (0, 0) to the plot

x_values = [0] + list(cumulative_index_shares)

y_values = [0] + list(cumulative_actual_shares)

#Display the 45° line stacked on top of the y values

diagonal = [x - y for (x, y) in zip(x_values, y_values)]

plt.stackplot(x_values, y_values, diagonal)

plt.xlabel('Cumulative Share of Predictions')

plt.ylabel('Cumulative Share of Actual Values')

plt.show()

计算橙色区域面积：

fy = scipy.interpolate.interp1d(x_values, y_values)

blue_area, _ = scipy.integrate.quad(fy, 0, 1, points=x_values)

orange_area = 0.5 - blue_area

print('Orange Area: %.3f' % orange_area)

最大可能的基尼系数：

前面我们是按照预测值对真实值排序，得到一个基尼系数；现在我们按照真实值给真实值排序，得到最大可能的基尼系数：

cumulative_actual_shares_perfect = np.cumsum(sorted(actual)) / sum(actual)

y_values_perfect = [0] + list(cumulative_actual_shares_perfect)

#Display the 45° line stacked on top of the y values

diagonal = [x - y for (x, y) in zip(x_values, y_values_perfect)]

plt.stackplot(x_values, y_values_perfect, diagonal)

plt.xlabel('Cumulative Share of Predictions')

plt.ylabel('Cumulative Share of Actual Values')

plt.show()

# Integrate the the curve function

fy = scipy.interpolate.interp1d(x_values, y_values_perfect)

blue_area, _ = scipy.integrate.quad(fy, 0, 1, points=x_values)

orange_area = 0.5 - blue_area

print('Orange Area: %.3f' % orange_area)

数据挖掘中的Scoring Metric的实现：

def gini(actual, pred):

    assert (len(actual) == len(pred))

    all = np.asarray(np.c_[actual, pred, np.arange(len(actual))], dtype=np.float)

    all = all[np.lexsort((all[:, 2], -1 * all[:, 1]))]

    totalLosses = all[:, 0].sum()

    giniSum = all[:, 0].cumsum().sum() / totalLosses

    giniSum -= (len(actual) + 1) / 2.

    return giniSum / len(actual)

def gini_normalized(actual, pred):

    return gini(actual, pred) / gini(actual, actual)

gini_predictions = gini(actual, predictions)

gini_max = gini(actual, actual)

ngini= gini_normalized(actual, predictions)

print('Gini: %.3f, Max. Gini: %.3f, Normalized Gini: %.3f' % (gini_predictions, gini_max, ngini))

Gini系数的原理的更多相关文章

Gini 系数与熵的关系
首先来看二者的基本定义: ⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪H(X)=−∑k=1KpklnpkGini(X)=∑k=1Kpk(1−pk) 将 f(x)=−lnx 在 x=1 处进行一阶泰勒展开(忽略高阶无穷小 ...
CART（分类回归树）原理和实现
前面我们了解了决策树和adaboost的决策树墩的原理和实现,在adaboost我们看到,用简单的决策树墩的效果也很不错,但是对于更多特征的样本来说,可能需要很多数量的决策树墩或许我们可以考虑使用更 ...
sklearn_随机森林random forest原理_乳腺癌分类器建模(推荐AAA)
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
3.决策树ID3算法原理
1.决策树的作用主要用于解决分类问题的一种算法 2.建立决策树的3中常用算法 1).ID3--->信息增益 2).c4.5--> 信息增益率 4).CART Gini系数 3.提出问题: ...
cart中回归树的原理和实现
前面说了那么多,一直围绕着分类问题讨论,下面我们开始学习回归树吧, cart生成有两个关键点如何评价最优二分结果什么时候停止和如何确定叶子节点的值 cart分类树采用gini系数来对二分结果进行评 ...
拆系数FFT及其部分优化
模拟考某题一开始由于校内OJ太慢直接拆系数FFT跑不过后来被神仙婊了一顿之后发现复杂度写炸了改了改随便过模版题:任意模数NTT 三模数NTT 常数巨大,跑的极慢拆系数FFT 原理是对于两个多项式 ...
决策树decision tree原理介绍_python sklearn建模_乳腺癌细胞分类器（推荐AAA）
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
大白话5分钟带你走进人工智能-第31节集成学习之最通俗理解GBDT原理和过程
目录 1.前述 2.向量空间的梯度下降: 3.函数空间的梯度下降: 4.梯度下降的流程: 5.在向量空间的梯度下降和在函数空间的梯度下降有什么区别呢? 6.我们看下GBDT的流程图解: 7.我们看一个 ...
用cart（分类回归树）作为弱分类器实现adaboost
在之前的决策树到集成学习里我们说了决策树和集成学习的基本概念(用了adaboost昨晚集成学习的例子),其后我们分别学习了决策树分类原理和adaboost原理和实现, 上两篇我们学习了cart(决策分 ...

随机推荐

nodejs-hook 开发
nodejs require hook 功能很强大,我们可以用来将不支持的数据文件,直接使用require 进行加载,同时我们可以方便的进行代码的预编译(比如babel 的组件) 为了方便使用npm ...
Java基础语法第2节 Java语言基本语法
一.标识符和关键字 1.标识符 1)java中标识符用来为程序的白能量.常量.方法.类.接口和包名命名,标识符由字母.数字.下划线.美元符号组成,且第一个字符不能是数字: 2)标志符命名规则:见名知意 ...
短信验证登陆-中国网建提供的SMS短信平台
一.JAVA发送手机短信常见的有三种方式(如下所列): 使用webservice接口发送手机短信,这个可以使用sina提供的webservice进行发送,但是需要进行注册使用短信mao的方式进行短信 ...
Spring技术内幕总结 - IoC容器的实现
IoC:Inversion of Control,控制反转,即依赖对象的获得被反转了(DI:dependency inversion,依赖注入)在Spring中,IoC容器是实现这个模式的载体.它可以 ...
在单文件组件中，引入安装模块里的css的2种方式：script中引入、style中引入
在单文件组件中,引入安装模块里的css的2种方式:script中引入.style中引入 1.script中引入 <script> import 'bulma/css/bulma.css' ...
Python 处理JSON数据报错解决办法
春节期间通过接口爬取携程数据的时候,返回的json字符串通过json.loads加载时报错"ValueError: Invalid control character at: line 1 ...
运行成功的Demo（Python+Appium）
原文摘自:廖丹 http://www.cnblogs.com/android-it/p/8805659.html 1.打开Appium运行 2.在Pycharm输入代码如下所示: from appi ...
tornado请求头/状态码/接口笔记
set_header()/set_default_headers() set_header():设置请求头数据 set_default_headers():设置默认请求头数据 import torna ...
golang channel几点总结
golang提倡使用通讯来共享数据,而不是通过共享数据来通讯.channel就是golang这种方式的体现. Channel 在golang中有两种channel:带缓存的和不带缓存. 带缓存的cha ...
Qt中多线程问题
1. 出现的问题编写视频解码器程序时,把解码那部分单独置于一个线程中进行处理,后来实际应用到项目中发现内存泄漏很严重问题就出现在多线程中,每次视频解码器程序关闭时首先必须释放其所涉及的堆空间, 由 ...

Gini系数的原理

计算橙色区域面积：

最大可能的基尼系数：

数据挖掘中的Scoring Metric的实现：

Gini系数的原理的更多相关文章

随机推荐

热门专题