java-spark的各种常用算子的写法
通常写spark的程序用scala比较方便,毕竟spark的源码就是用scala写的。然而,目前java开发者特别多,尤其进行数据对接、上线服务的时候,这时候,就需要掌握一些spark在java中的使用方法了
一、map
map在进行数据处理、转换的时候,不能更常用了
在使用map之前 首先要定义一个转换的函数 格式如下:
Function<String, LabeledPoint> transForm = new Function<String, LabeledPoint>() {//String是某一行的输入类型 LabeledPoint是转换后的输出类型
@Override
public LabeledPoint call(String row) throws Exception {//重写call方法
String[] rowArr = row.split(",");
int rowSize = rowArr.length;
double[] doubleArr = new double[rowSize-1];
//除了第一位的lable外 其余的部分解析成double 然后放到数组中
for (int i = 1; i < rowSize; i++) {
String each = rowArr[i];
doubleArr[i] = Double.parseDouble(each);
}
//用刚才得到的数据 转成向量
Vector feature = Vectors.dense(doubleArr);
double label = Double.parseDouble(rowArr[0]);
//构造用于分类训练的数据格式 LabelPoint
LabeledPoint point = new LabeledPoint(label, feature);
return point;
}
};
需要特别注意的是:
1、call方法的输入应该是转换之前的数据行的类型 返回值应是处理之后的数据行类型
2、如果转换方法中调用了自定义的类,注意该类名必须实现序列化 比如
public class TreeEnsemble implements Serializable {
}
3、转换函数中如果调用了某些类的对象,比如该方法需要调用外部的一个参数,或者数值处理模型(标准化,归一化等),则该对象需要声明是final
然后就是在合适的时候调用该转换函数了
JavaRDD<LabeledPoint> rdd = oriData.toJavaRDD().map(transForm);
这种方式是需要将普通的rdd转成javaRDD才能使用的,转成javaRDD的这一步操作不耗时,不用担心
二、filter
在避免数据出现空值、0等场景中也非常常用,可以满足sql中where的功能
这里首先也是要定义一个函数,该函数给定数据行 返回布尔值 实际效果是将返回为true的数据保留
Function<String, Boolean> boolFilter = new Function<String, Boolean>() {//String是某一行的输入类型 Boolean是对应的输出类型 用于判断数据是否保留
@Override
public Boolean call(String row) throws Exception {//重写call方法
boolean flag = row!=null;
return flag;
}
};
通常该函数实际使用中需要修改的仅仅是row的类型 也就是数据行的输入类型,和上面的转换函数不同,此call方法的返回值应是固定为Boolean
然后是调用方式
JavaRDD<LabeledPoint> rdd = oriData.toJavaRDD().filter(boolFilter);
三、mapToPair
该方法和map方法有一些类似,也是对数据进行一些转换。不过此函数输入一行 输出的是一个元组,最常用的方法是用来做交叉验证 或者统计错误率 召回率 计算AUC等等
同样,需要先定义一个转换函数
Function<String, Boolean> transformer = new PairFunction<LabeledPoint, Object, Object>() {//LabeledPoint是输入类型 后面的两个Object不要改动
@Override
public Tuple2 call(LabeledPoint row) throws Exception {//重写call方法 通常只改动输入参数 输出不要改动
double predicton = thismodel.predict(row.features());
double label = row.label();
return new Tuple2(predicton, label);
}
});
关于调用的类、类的对象,要求和之前的一致,类需要实现序列化,类的对象需要声明成final类型
相应的调用如下:
JavaPairRDD<Object, Object> predictionsAndLabels = oriData.mapToPair(transformer);
然后对该predictionsAndLabels的使用,计算准确率、召回率、精准率、AUC,接下来的博客中会有,敬请期待
如有补充,或者质疑,或者有相关问题,请发邮件给我,或者直接回复 邮箱:326543991@qq.com
java-spark的各种常用算子的写法的更多相关文章
- Spark中的常用算子
更多有用的例子和算子讲解参见: http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html map是对每个元素操作, ma ...
- Spark学习之常用算子介绍
1. reduceByKey reduceByKey的作用对像是(key, value)形式的rdd,而reduce有减少.压缩之意,reduceByKey的作用就是对相同key的数据进行处理,最终每 ...
- java实现spark常用算子之Reduce
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
- java实现spark常用算子之groupbykey
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spa ...
- spark常用算子总结
算子分为value-transform, key-value-transform, action三种.f是输入给算子的函数,比如lambda x: x**2 常用算子: keys: 取pair rdd ...
- spark学习(10)-RDD的介绍和常用算子
RDD(弹性分布式数据集,里面并不存储真正要计算的数据,你对RDD的操作,他会在Driver端转换成Task,下发到Executor计算分散在多台集群上的数据) RDD是一个代理,你对代理进行操作,他 ...
- Spark—RDD编程常用转换算子代码实例
Spark-RDD编程常用转换算子代码实例 Spark rdd 常用 Transformation 实例: 1.def map[U: ClassTag](f: T => U): RDD[U] ...
- RDD(弹性分布式数据集)及常用算子
RDD(弹性分布式数据集)及常用算子 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据 处理模型.代码中是一个抽象类,它代表一个 ...
- SparkRDD简介/常用算子/依赖/缓存
SparkRDD简介/常用算子/依赖/缓存 RDD简介 RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区. ...
随机推荐
- Azure 中快速搭建 FTPS 服务
FTP,FTPS 与 SFTP 的区别 FTP (File Transfer Protocol)是一种常用的文件传输协议,在日常工作中被广泛应用.不过,FTP 协议使用明文传输.如果文件传输发生在公网 ...
- 沉淀,再出发:Docker的功能浅析
沉淀,再出发:Docker的功能浅析 一.前言 这段时间一直在使用docker,发现docker的技术有很多,从最开始的将自己的程序打包成docker中的镜像,然后上传和下载镜像并使用,再到后来的在集 ...
- 解决python3 UnicodeDecodeError: 'gbk' codec can't decode byte
本来想写个html来玩玩,结果读取文件得时候就BUG了.... 以下代码读取html中无中文没有问题. def handle_request(client): buf = client.recv(10 ...
- Angular不同版本对应的Bootstrap组件
AngularJS 1.x版本对应的 bootstrap组件库是ui-bootstrap; http://www.cnblogs.com/pilixiami/p/5597634.html Angula ...
- Linux下的MBR分区
MBR分区 下面讲一讲如何给一块新添加入服务器的硬盘做MBR分区,那么为什么叫做MBR分区呢?后面会讲 做MBR分区,使用系统自带的fdisk工具.先看一看什么是fdisk,在命令行输入“fdisk” ...
- 1053. [HAOI2007]反素数ant【DFS+结论】
Description 对于任何正整数x,其约数的个数记作g(x).例如g(1)=1.g(6)=4.如果某个正整数x满足:g(x)>g(i) 0<i<x ,则称x为反质数.例如,整数 ...
- C、CSL 的密码 【set暴力 || 后缀数组】 (“新智认知”杯上海高校程序设计竞赛暨第十七届上海大学程序设计春季联赛 )
题目传送门:https://ac.nowcoder.com/acm/contest/551/C 题目描述 众所周知,CSL 最喜欢的密码是 ******.于是有一天…… 为了改变这一点,他决定 ...
- VC++获取一个GB级大文件的字节大小
常规的获得小文件(2.1GB以下)的字节大小可以使用ftell,函数 ftell 用于得到文件位置指针当前位置相对于文件首的偏移字节数.使用fseek函数后再调用函数ftell()就能非常容易地确定文 ...
- Unity3D-飞机拖尾效果
1.插件准备 unity3d官网,Assert Store搜索Cartoon_airplane 插件 2.拖尾效果实现 飞机显示 拖尾组件设计 在airplane_02下 右键 Effects-Tra ...
- PAT——1051. 复数乘法
复数可以写成(A + Bi)的常规形式,其中A是实部,B是虚部,i是虚数单位,满足i2 = -1:也可以写成极坐标下的指数形式(R*e(Pi)),其中R是复数模,P是辐角,i是虚数单位,其等价于三角形 ...