1.自己写的计算auc的代码,用scikit-learn的auc计算函数sklearn.metrics.auc(xyreorder=False)做了一些测试,结果是一样的,如有错误,欢迎指正。

思路:1.首先对预测值进行排序,排序的方式用了python自带的函数sorted,详见注释。

   2.对所有样本按照预测值从小到大标记rank,rank其实就是index+1,index是排序后的sorted_pred数组中的索引

   3.将所有正样本的rank相加,遇到预测值相等的情况,不管样本的正负性,对rank要取平均值再相加

4.将rank相加的和减去正样本排在正样本之后的情况,再除以总的组合数,得到auc


 # -*- coding: utf-8 -*-
"""
Created on Wed May 3 10:48:28 2017 @author: Vincent
"""
import numpy as np
from sklearn import metrics
y = np.array( [1, 0, 0, 1, 1, 1, 0, 1, 1, 1])
pred = np.array([0.9, 0.9,0.8, 0.8, 0.7,0.7,0.7,0.6,0.5,0.4])
fpr, tpr, thresholds = metrics.roc_curve(y, pred, pos_label=1)
print(metrics.auc(fpr, tpr))
def getAuc(labels, pred) :
'''将pred数组的索引值按照pred[i]的大小正序排序,返回的sorted_pred是一个新的数组,
sorted_pred[0]就是pred[i]中值最小的i的值,对于这个例子,sorted_pred[0]=8
'''
sorted_pred = sorted(range(len(pred)), key = lambda i : pred[i])
pos = 0.0 #正样本个数
neg = 0.0 #负样本个数
auc = 0.0
last_pre = pred[sorted_pred[0]]
count = 0.0
pre_sum = 0.0 #当前位置之前的预测值相等的rank之和,rank是从1开始的,所以在下面的代码中就是i+1
pos_count = 0.0 #记录预测值相等的样本中标签是正的样本的个数
for i in range(len(sorted_pred)) :
if labels[sorted_pred[i]] > 0:
pos += 1
else:
neg += 1
if last_pre != pred[sorted_pred[i]]: #当前的预测概率值与前一个值不相同
#对于预测值相等的样本rank需要取平均值,并且对rank求和
auc += pos_count * pre_sum / count
count = 1
pre_sum = i + 1 #更新为当前的rank
last_pre = pred[sorted_pred[i]]
if labels[sorted_pred[i]] > 0:
pos_count = 1 #如果当前样本是正样本 ,则置为1
else:
pos_count = 0 #反之置为0
else:
pre_sum += i + 1 #记录rank的和
count += 1 #记录rank和对应的样本数,pre_sum / count就是平均值了
if labels[sorted_pred[i]] > 0:#如果是正样本
pos_count += 1 #正样本数加1
auc += pos_count * pre_sum / count #加上最后一个预测值相同的样本组
auc -= pos *(pos + 1) / 2 #减去正样本在正样本之前的情况
auc = auc / (pos * neg) #除以总的组合数
return auc
print(getAuc(y, pred))

2.awk代码

 #计算auc,输入分别为预测值(可以乘以一个倍数之后转化为整数),该相同预测值的样本个数,该相同预测值的正样本个数
sort -t $'\t' -k 1,1n | awk -F"\t" 'BEGIN{
OFS="\t";
now_q="";
begin_rank=1;
now_pos_num=0;
now_neg_num=0;
total_pos_rank=0;
total_pos_num=0;
total_neg_num=0;
}function clear(){
begin_rank += now_pos_num + now_neg_num;
now_pos_num=0;
now_neg_num=0;
}function update(){
now_pos_num += pos_num;
now_neg_num += neg_num;
}function output(){
n = now_pos_num + now_neg_num;
avg_rank = begin_rank + (n-1)/2;
tmp_all_pos_rank = avg_rank * now_pos_num;
total_pos_rank += tmp_all_pos_rank;
total_pos_num += now_pos_num;
total_neg_num += now_neg_num;
}{
q=$1;
show=$2;
clk=$3;
pos_num=clk;
neg_num=show-clk;
if(now_q!=q){
if(now_q!=""){
output();
clear();
}
now_q=q;
}
update(); }END{
output();
auc=0;
m=total_pos_num;
n=total_neg_num;
if(m>0 && n>0){
auc = (total_pos_rank-m*(m+1)/2) / (m*n);
}
print auc;
}'

计算auc-python/awk的更多相关文章

  1. python计算auc指标

    1.安装scikit-learn 1.1Scikit-learn 依赖 Python (>= 2.7 or >= 3.3), NumPy (>= 1.8.2), SciPy (> ...

  2. Anaconda 用于科学计算的 Python 发行版

    用于科学计算的 Python 发行版: 1.Anaconda  https://www.continuum.io/    公司continuum.  有商业版本. Anaconda is the le ...

  3. split function of Perl,Python,Awk

    使用中常用到Perl,Python,AWK,R, 虽然Java,C,C++,Vala也学过但是就是不喜欢,你说怎么办. 看来一辈子脚本的命. Perl @rray = split /PATTERN/, ...

  4. MATLAB画ROC曲线,及计算AUC值

    根据决策值和真实标签画ROC曲线,同时计算AUC的值 步骤: 根据决策值和真实标签画ROC曲线,同时计算AUC的值: 计算算法的决策函数值deci 根据决策函数值deci对真实标签y进行降序排序,得到 ...

  5. 用于水和水蒸汽物性计算的Python模块——iapws

    无论是火电还是核电,将能量转化为电能的方式主要还是烧开水,即加热水产生高压蒸汽驱动汽轮机做功再发电.在进行热力循环分析.流动传热计算时,需获得水和水蒸汽的物性参数.网上主流的水蒸汽物性计算程序是上海成 ...

  6. 【Anaconda】:科学计算的Python发行版

    [背景] Python易用,但包管理和Python不同版本的问题比较头疼,特别是当你使用Windows的时候.为了解决这些问题,有不少发行版的Python,比如WinPython.Anaconda等, ...

  7. 栈应用之 后缀表达式计算 (python 版)

    栈应用之 后缀表达式计算 (python 版) 后缀表达式特别适合计算机处理 1.  中缀表达式.前缀表达式.后缀表达式区别  中缀表达式:(3 - 5) * (6 + 17 * 4) / 3 17 ...

  8. 科学计算:Python 分析数据找问题,并图形化

    对于记录的数据,如何用 Python 进行分析.或图形化呢? 本文将介绍 numpy, matplotlib, pandas, scipy 几个包,进行数据分析.与图形化. 准备环境 Python 环 ...

  9. Python计算AUC

    AUC(Area under curve)是机器学习常用的二分类评测手段,直接含义是ROC曲线下的面积.另一种解释是:随机抽出一对样本(一个正样本,一个负样本),然后用训练得到的分类器来对这两个样本进 ...

  10. [转] MachingLearning中的距离相似性计算以及python实现

    参考:https://blog.csdn.net/gamer_gyt/article/details/75165842#t16  https://blog.csdn.net/ymlgrss/artic ...

随机推荐

  1. 动力学仿真引擎ODE的学习笔记,C#演示(一)

    ®版权声明:本文为博主原创文章,未经博主允许不得转载. 一.ODE介绍与平台搭建. 接触到动力学仿真引擎, 是因为笔者的一款PLC仿真软件需要3D仿真.我需要达到的效果是,以3D方式构建出工控行业中常 ...

  2. cocos2d-x学习之旅(五):1.5 使用eclipse编译cocos2d-x示例项目,创建cocos2d-x android项目并部署到真机

    今天将cocos2d-x的示例项目tests编译到android真机运行,以及如何创建cocos2d-x的android项目. 打开cocos2d-x的tests项目,路径为:D:\cocos2d-x ...

  3. vs 的git插件

    在vs2013上Tfs提供的git管理完全无法理解他的管理方式,还是 Git Source Control Provider 好用用. 下载地址: [http://gitscc.codeplex.co ...

  4. 关于电信宽带wan口地址变成100.64网段的问题解决

    由于之前笔者一直在使用动态域名连接公司vpn.今天在连接vpn的时候总是失败,因动态域名及vpn配置都从未更改过. 于是首先排查动态域名,是否已更新为公司宽带对外的IP.这里笔者先通过nslookup ...

  5. Android Meterial Design Support Library

    extends:http://inthecheesefactory.com/blog/android-design-support-library-codelab At the moment I be ...

  6. OpenCV Create Circular Mask 圆形遮罩

    在OpenCV中,比较常见的是矩形遮罩CvRect,没有专门提供圆形的mask,那么我们只能自己写一个来模拟圆形mask的函数,需要提供的参数为原图的大小,以及圆形mask的圆心位置和半径即可,返回一 ...

  7. [ZT] matlab中plot画图参数的设置

    一.Matlab绘图中用到的直线属性包括: (1)LineStyle:线形 (2)LineWidth:线宽 (3)Color:颜色 (4)MarkerType:标记点的形状 (5)MarkerSize ...

  8. java 中的继承

    继承的概念 继承就是子类继承父类的特征和行为,使得子类具有父类得属性和方法. 继承得关键字:extends 语法格式:<modifier> class <name> [exte ...

  9. Codeforces 349C - Mafia

    time limit per test 2 seconds memory limit per test 256 megabytes input standard input output standa ...

  10. codeforces 14A - Letter & codeforces 859B - Lazy Security Guard - [周赛水题]

    就像title说的,是昨天(2017/9/17)周赛的两道水题…… 题目链接:http://codeforces.com/problemset/problem/14/A time limit per ...