计算auc-python/awk

1.自己写的计算auc的代码，用scikit-learn的auc计算函数sklearn.metrics.auc(x, y, reorder=False)做了一些测试，结果是一样的，如有错误，欢迎指正。

思路：1.首先对预测值进行排序，排序的方式用了python自带的函数sorted，详见注释。

　　　2.对所有样本按照预测值从小到大标记rank，rank其实就是index+1，index是排序后的sorted_pred数组中的索引

　　　3.将所有正样本的rank相加，遇到预测值相等的情况，不管样本的正负性，对rank要取平均值再相加

4.将rank相加的和减去正样本排在正样本之后的情况，再除以总的组合数，得到auc

 # -*- coding: utf-8 -*-

 """

 Created on Wed May  3 10:48:28 2017

 @author: Vincent

 """

 import numpy as np

 from sklearn import metrics

 y = np.array(   [1,     0,  0,   1,   1,  1,  0,  1,  1,  1])

 pred = np.array([0.9, 0.9,0.8, 0.8, 0.7,0.7,0.7,0.6,0.5,0.4])

 fpr, tpr, thresholds = metrics.roc_curve(y, pred, pos_label=1)

 print(metrics.auc(fpr, tpr))

 def getAuc(labels, pred) :

     '''将pred数组的索引值按照pred[i]的大小正序排序，返回的sorted_pred是一个新的数组，

        sorted_pred[0]就是pred[i]中值最小的i的值，对于这个例子，sorted_pred[0]=8

     '''

     sorted_pred = sorted(range(len(pred)), key = lambda i : pred[i])

     pos = 0.0 #正样本个数

     neg = 0.0 #负样本个数

     auc = 0.0

     last_pre = pred[sorted_pred[0]]

     count = 0.0

     pre_sum = 0.0  #当前位置之前的预测值相等的rank之和，rank是从1开始的，所以在下面的代码中就是i+1

     pos_count = 0.0  #记录预测值相等的样本中标签是正的样本的个数

     for i in range(len(sorted_pred)) :

         if labels[sorted_pred[i]] > 0:

             pos += 1

         else:

             neg += 1

         if last_pre != pred[sorted_pred[i]]: #当前的预测概率值与前一个值不相同

             #对于预测值相等的样本rank需要取平均值，并且对rank求和

             auc += pos_count * pre_sum / count

             count = 1

             pre_sum = i + 1     #更新为当前的rank

             last_pre = pred[sorted_pred[i]]

             if labels[sorted_pred[i]] > 0:

                 pos_count = 1   #如果当前样本是正样本 ，则置为1

             else:

                 pos_count = 0   #反之置为0

         else:

             pre_sum += i + 1    #记录rank的和

             count += 1          #记录rank和对应的样本数，pre_sum / count就是平均值了

             if labels[sorted_pred[i]] > 0:#如果是正样本

                 pos_count += 1  #正样本数加1

     auc += pos_count * pre_sum / count #加上最后一个预测值相同的样本组

     auc -= pos *(pos + 1) / 2 #减去正样本在正样本之前的情况

     auc = auc / (pos * neg)  #除以总的组合数

     return auc

 print(getAuc(y, pred))

2.awk代码

 #计算auc,输入分别为预测值（可以乘以一个倍数之后转化为整数），该相同预测值的样本个数，该相同预测值的正样本个数

 sort -t $'\t' -k 1,1n | awk -F"\t" 'BEGIN{

     OFS="\t";

     now_q="";

     begin_rank=1;

     now_pos_num=0;

     now_neg_num=0;

     total_pos_rank=0;

     total_pos_num=0;

     total_neg_num=0;

 }function clear(){

     begin_rank += now_pos_num + now_neg_num;

     now_pos_num=0;

     now_neg_num=0;

 }function update(){

     now_pos_num += pos_num;

     now_neg_num += neg_num;

 }function output(){

     n = now_pos_num + now_neg_num;

     avg_rank = begin_rank + (n-1)/2;

     tmp_all_pos_rank = avg_rank * now_pos_num;

     total_pos_rank += tmp_all_pos_rank;

     total_pos_num += now_pos_num;

     total_neg_num += now_neg_num;

 }{

     q=$1;

     show=$2;

     clk=$3;

     pos_num=clk;

     neg_num=show-clk;

     if(now_q!=q){

         if(now_q!=""){

             output();

             clear();

         }

         now_q=q;

     }

     update();

 }END{

     output();

     auc=0;

     m=total_pos_num;

        n=total_neg_num;

     if(m>0 && n>0){

         auc = (total_pos_rank-m*(m+1)/2) / (m*n);

     }

     print auc;

 }'

计算auc-python/awk的更多相关文章

python计算auc指标
1.安装scikit-learn 1.1Scikit-learn 依赖 Python (>= 2.7 or >= 3.3), NumPy (>= 1.8.2), SciPy (> ...
Anaconda 用于科学计算的 Python 发行版
用于科学计算的 Python 发行版: 1.Anaconda https://www.continuum.io/ 公司continuum. 有商业版本. Anaconda is the le ...
split function of Perl,Python,Awk
使用中常用到Perl,Python,AWK,R, 虽然Java,C,C++,Vala也学过但是就是不喜欢,你说怎么办. 看来一辈子脚本的命. Perl @rray = split /PATTERN/, ...
MATLAB画ROC曲线，及计算AUC值
根据决策值和真实标签画ROC曲线,同时计算AUC的值步骤: 根据决策值和真实标签画ROC曲线,同时计算AUC的值: 计算算法的决策函数值deci 根据决策函数值deci对真实标签y进行降序排序,得到 ...
用于水和水蒸汽物性计算的Python模块——iapws
无论是火电还是核电,将能量转化为电能的方式主要还是烧开水,即加热水产生高压蒸汽驱动汽轮机做功再发电.在进行热力循环分析.流动传热计算时,需获得水和水蒸汽的物性参数.网上主流的水蒸汽物性计算程序是上海成 ...
【Anaconda】：科学计算的Python发行版
[背景] Python易用,但包管理和Python不同版本的问题比较头疼,特别是当你使用Windows的时候.为了解决这些问题,有不少发行版的Python,比如WinPython.Anaconda等, ...
栈应用之后缀表达式计算（python 版）
栈应用之后缀表达式计算 (python 版) 后缀表达式特别适合计算机处理 1. 中缀表达式.前缀表达式.后缀表达式区别中缀表达式:(3 - 5) * (6 + 17 * 4) / 3 17 ...
科学计算：Python 分析数据找问题，并图形化
对于记录的数据,如何用 Python 进行分析.或图形化呢? 本文将介绍 numpy, matplotlib, pandas, scipy 几个包,进行数据分析.与图形化. 准备环境 Python 环 ...
Python计算AUC
AUC(Area under curve)是机器学习常用的二分类评测手段,直接含义是ROC曲线下的面积.另一种解释是:随机抽出一对样本(一个正样本,一个负样本),然后用训练得到的分类器来对这两个样本进 ...
[转] MachingLearning中的距离相似性计算以及python实现
参考:https://blog.csdn.net/gamer_gyt/article/details/75165842#t16 https://blog.csdn.net/ymlgrss/artic ...

随机推荐

【大数据系列】HDFS安全模式
一.什么是安全模式安全模式时HDFS所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不接受删除.修改等变更请求.在NameNode主节点启动时,HDFS首先进入安全模式,DataNod ...
initializer element is not constant 问题
在Ubuntu下,比葫芦画瓢,写了一个程序,居然报错!!!! #include <stdio.h> ; int j = *(int *)(&i) ; int main (int a ...
div里粘贴文字后，移动光标至最后
cursormanager.js //Namespace management idea from http://enterprisejquery.com/2010/10/how-good-c-hab ...
1007: [HNOI2008]水平可见直线[维护下凸壳]
1007: [HNOI2008]水平可见直线 Time Limit: 1 Sec Memory Limit: 162 MBSubmit: 7184 Solved: 2741[Submit][Sta ...
X-Requested-With导致CSRF失败
在漫漫渗透之路中,眼前一亮的发现一个站.Referer字段没有检查,POST参数中的动态token也没有检查,这不是带一波CSRF的节奏嘛.但是遇到一个之前我没遇到的问题导致我CSRF失败,这个问题或 ...
[sharepoint]Office Web Apps for SharePoint 2010
Office Web Apps for SharePoint 2010 2012年09月20日 ⁄ 综合 ⁄ 共 908字 ⁄ 字号小中大 ⁄ 评论关闭 After you install Of ...
npm publish 发布
前言我们npm publish发布的时候,一定是本地文件发布到远程仓库,并且登录到http://registry.npmjs.org(即npm adduser或npmlogin)之后,才可以进行发布 ...
如何使QLineEdit禁止编辑
在写程序的时候喜欢使用QLineEdit,用来显示打开文件的路径.但是很不喜欢被编辑.那么要怎么设置不可编辑呢. (1)调用lineEdit->setEnabled(False) #不可编辑了 ...
单引号、双引号、int和char
首先说一下C语言中用单引号和双引号的不同(一直搞不清楚): 单引号代表的是一个整数,而这个整数的值是编译器所采用的字符集中的字符序列对应的值.所以一般'A'和ASCII中的65意义相同.对于双引号定义 ...
解决pycharm安装包过程出现的问题：module 'pip' has no attribute 'main'
解决pycharm安装包过程出现的问题:module 'pip' has no attribute 'main' 问题更新pip之后,Pycharm安装package出现如下报错:module 'p ...

计算auc-python/awk

计算auc-python/awk的更多相关文章

随机推荐

热门专题