pyspark中使用累加器Accumulator统计指标

评价分类模型的性能时需要用到以下四个指标

最开始使用以下代码计算，发现代码需要跑近一个小时，而且这一个小时都花在这四行代码上

# evaluate model

TP = labelAndPreds.filter(lambda (v, p): (v == 1 and p == 1)).count()

FP = labelAndPreds.filter(lambda (v, p): (v == 0 and p == 1)).count()

TN = labelAndPreds.filter(lambda (v, p): (v == 0 and p == 0)).count()

FN = labelAndPreds.filter(lambda (v, p): (v == 1 and p == 0)).count()

心想着理论上可以只扫描一遍数据就可以计算出这四个指标。

一开始在foreach函数中传递一个自定义评估函数，这个函数来统计上面四个指标，然后在函数里再使用全局变量TP，TN等。

但是程序跑完四个指标都还是0，跟初始化时候的一样。后来查资料，发现pyspark有Accumulator(累加器)可以解决这个问题。

代码如下：

# evaluate model

TP = sc.accumulator(0)　　#一开始直接用的TP = 0

FP = sc.accumulator(0)

TN = sc.accumulator(0)

FN = sc.accumulator(0)

def assess(v, p):

    global TP

    global FP

    global TN

    global FN

    #print 'tgl\t',v,p

    if(v == 1 and p == 1):

        TP += 1

    if(v == 0 and p == 1):

        FP += 1

    if(v == 0 and p == 0):

        TN += 1

    if(v == 1 and p == 0):

        FN += 1

print 'assess model %s' % time.ctime()

labelAndPreds.foreach(lambda(v,p): assess(v, p))

print "TP=", TP

print "FP=", FP

print "TN=", TN

print "FN=", FN

if (TP.value + FP.value) != 0:

      print "The precision = " + str(TP.value*1.0 / (TP.value+FP.value))

if (TP.value + FN.value) != 0:

      print "The recall = " + str(TP.value*1.0 / (TP.value+FN.value))

ps:

pyspark官方文档

[http://spark.apache.org/docs/latest/api/python/pyspark.html?highlight=accumulator#pyspark.Accumulator]

pyspark中使用累加器Accumulator统计指标的更多相关文章

Spark中自定义累加器Accumulator
1. 自定义累加器自定义累加器需要继承AccumulatorParam,实现addInPlace和zero方法. 例1:实现Long类型的累加器 object LongAccumulatorPara ...
通过 --py-files 可以在pyspark中可以顺利导入
文件import问题问题: 在脚本中import了其他文件, pyspark中可以运行, 但是在spark-submit中总是失败假定我们的任务脚本为 app.py , 大体代码像这样: from ...
pyspark 中启动 jupyter notebook
还是打算选择python学习spark编程因为java写函数式比较复杂,scala学习曲线比较陡峭,而且sbt和eclipse和maven的结合实在是让人崩溃,经常找不到主类去执行 python以前 ...
Spark累加器(Accumulator)陷阱及解决办法
累加器(accumulator)是Spark中提供的一种分布式的变量机制,其原理类似于mapreduce,即分布式的改变,然后聚合这些改变.累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数 ...
Pyspark中遇到的 java.io.IOException: Not a file 和 pyspark.sql.utils.AnalysisException: 'Table or view not found
最近执行pyspark时,直接读取hive里面的数据,经常遇到几个问题: 1. java.io.IOException: Not a file —— 然而事实上文件是存在的,是 hdfs 的默认路径 ...
pyspark中的dataframe的观察操作
来自于:http://www.bubuko.com/infodetail-2802814.html 1.读取: sparkDF = spark.read.csv(path) sparkDF = spa ...
Spark中自定义累加器
通过继承AccumulatorV2可以实现自定义累加器. 官方案例可参考:http://spark.apache.org/docs/latest/rdd-programming-guide.html# ...
重学计算机组成原理（五）- "旋转跳跃"的指令实现
CPU执行的也不只是一条指令,一般一个程序包含很多条指令因为有if-else.for这样的条件和循环存在,这些指令也不会一路平直执行下去. 一个计算机程序是怎么被分解成一条条指令来执行的呢 1 CP ...
Spark Streaming的简单介绍
本文讲解Spark流数据处理之Spark Streaming.本文的写作时值Spark 1.6.2发布之际,Spark 2.0预览版也已发布,Spark发展如此迅速,请随时关注Spark Stream ...

随机推荐

virtualbox创建centos7虚拟机
安装Virtualbox 下载安装: 直接到官网上下载,https://www.virtualbox.org/wiki/Downloads 然后一键傻瓜式的安装即可. 设置默认虚拟电脑位置: 管理=& ...
struts2 过滤器
Chain.doFilter的作用就是继续请求的传递,可传递给下一个filter也可传递给目标页面如左侧传递给filter2,但fiter2使用上面或者下面的方法将倾情重定向到一个新的页面,而不再传 ...
怎么显示隐藏Mac上的隐藏文件
打开终端,输入:defaults write com.apple.finder AppleShowAllFiles -bool true 此命令显示隐藏文件defaults write com.app ...
一个简单的servlet
1.创建一个自己的servlet文件,继承HttpServlet MyServlet.java package com.jmu.ccjoin.controller; import java.io.IO ...
hadoop2.x安装配置
1.首先准备hadoop2.2.0的安装包,从官网获取,略. 2.加压安装包,进行配置.假设hadoop安装到/usr/hadoop-2.2.0目录,则进行如下配置: (1)/etc/profile配 ...
UVA-10125(中途相遇法)
题意: 给定一个整数集合,找出最大的d,使得a+b+c=d,a,b,c,d是集合中不同的元素; 思路: 如果单纯的枚举a,b,c的复杂度是O(n^3)的,为了降低复杂度,可以先把a+b的情形都找出来, ...
javaScript的几个问题简答
1.javascript的typeof返回哪些数据类型 Object.number. function. boolean. underfind 2.例举3种强制类型转换和2种隐式类型转换? ...
Visual Studio 中使用的正则表达式说明
Visual Studio 中使用的正则表达式说明 2013-10-11 21:10:12| 分类: VB和VBA知识|举报|字号订阅参考:详解Visual Studio正则替换大 ...
【198】Synergy - 鼠标键盘共享软件
参考:Synergy X64 v1.7.4 官方最新版参考:Synergy安装方法功能介绍: 可以将配置局域网的电脑实现同一个鼠标键盘控制两台电脑,效果类似一台电脑使用双屏的效果,键盘会根据鼠标的 ...
Start Developing Mac Apps -- Design Patterns 设计模式
Design Patterns A design pattern solves a common software engineering problem. Patterns are abstract ...

pyspark中使用累加器Accumulator统计指标

pyspark中使用累加器Accumulator统计指标的更多相关文章

随机推荐

热门专题