java-spark的各种常用算子的写法

通常写spark的程序用scala比较方便，毕竟spark的源码就是用scala写的。然而，目前java开发者特别多，尤其进行数据对接、上线服务的时候，这时候，就需要掌握一些spark在java中的使用方法了

一、map

map在进行数据处理、转换的时候，不能更常用了

在使用map之前首先要定义一个转换的函数格式如下：

Function<String, LabeledPoint> transForm = new Function<String, LabeledPoint>() {//String是某一行的输入类型 LabeledPoint是转换后的输出类型

            @Override

            public LabeledPoint call(String row) throws Exception {//重写call方法

                String[] rowArr = row.split(",");

                int rowSize = rowArr.length;

                double[] doubleArr = new double[rowSize-1];

                //除了第一位的lable外 其余的部分解析成double 然后放到数组中

                for (int i = 1; i < rowSize; i++) {

                    String each = rowArr[i];

                    doubleArr[i] = Double.parseDouble(each);

                }

                //用刚才得到的数据 转成向量

                Vector feature = Vectors.dense(doubleArr);

                double label = Double.parseDouble(rowArr[0]);

                //构造用于分类训练的数据格式 LabelPoint

                LabeledPoint point = new LabeledPoint(label, feature);

                return point;

            }

        };

　　需要特别注意的是：

1、call方法的输入应该是转换之前的数据行的类型返回值应是处理之后的数据行类型

2、如果转换方法中调用了自定义的类，注意该类名必须实现序列化比如

public class TreeEnsemble implements Serializable {

}

　　3、转换函数中如果调用了某些类的对象，比如该方法需要调用外部的一个参数，或者数值处理模型（标准化，归一化等），则该对象需要声明是final

然后就是在合适的时候调用该转换函数了

JavaRDD<LabeledPoint> rdd = oriData.toJavaRDD().map(transForm);

　　这种方式是需要将普通的rdd转成javaRDD才能使用的，转成javaRDD的这一步操作不耗时，不用担心

二、filter

在避免数据出现空值、0等场景中也非常常用，可以满足sql中where的功能

这里首先也是要定义一个函数，该函数给定数据行返回布尔值实际效果是将返回为true的数据保留

Function<String, Boolean> boolFilter = new Function<String, Boolean>() {//String是某一行的输入类型 Boolean是对应的输出类型 用于判断数据是否保留

            @Override

            public Boolean call(String row) throws Exception {//重写call方法

                boolean flag = row!=null;

                return flag;

            }

        };

　通常该函数实际使用中需要修改的仅仅是row的类型也就是数据行的输入类型，和上面的转换函数不同，此call方法的返回值应是固定为Boolean

然后是调用方式

JavaRDD<LabeledPoint> rdd = oriData.toJavaRDD().filter(boolFilter);

三、mapToPair

该方法和map方法有一些类似，也是对数据进行一些转换。不过此函数输入一行输出的是一个元组，最常用的方法是用来做交叉验证或者统计错误率召回率计算AUC等等

同样，需要先定义一个转换函数

Function<String, Boolean> transformer = new PairFunction<LabeledPoint, Object, Object>() {//LabeledPoint是输入类型 后面的两个Object不要改动

            @Override

            public Tuple2 call(LabeledPoint row) throws Exception {//重写call方法 通常只改动输入参数 输出不要改动

                double predicton = thismodel.predict(row.features());

                double label = row.label();

                return new Tuple2(predicton, label);

            }

        });

　　关于调用的类、类的对象，要求和之前的一致，类需要实现序列化，类的对象需要声明成final类型

相应的调用如下：

JavaPairRDD<Object, Object> predictionsAndLabels = oriData.mapToPair(transformer);

　　然后对该predictionsAndLabels的使用，计算准确率、召回率、精准率、AUC，接下来的博客中会有，敬请期待

如有补充，或者质疑，或者有相关问题，请发邮件给我，或者直接回复邮箱:326543991@qq.com

java-spark的各种常用算子的写法的更多相关文章

Spark中的常用算子
更多有用的例子和算子讲解参见: http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html map是对每个元素操作, ma ...
Spark学习之常用算子介绍
1. reduceByKey reduceByKey的作用对像是(key, value)形式的rdd,而reduce有减少.压缩之意,reduceByKey的作用就是对相同key的数据进行处理,最终每 ...
java实现spark常用算子之Reduce
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之groupbykey
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spa ...
spark常用算子总结
算子分为value-transform, key-value-transform, action三种.f是输入给算子的函数,比如lambda x: x**2 常用算子: keys: 取pair rdd ...
spark学习(10)-RDD的介绍和常用算子
RDD(弹性分布式数据集,里面并不存储真正要计算的数据,你对RDD的操作,他会在Driver端转换成Task,下发到Executor计算分散在多台集群上的数据) RDD是一个代理,你对代理进行操作,他 ...
Spark—RDD编程常用转换算子代码实例
Spark-RDD编程常用转换算子代码实例 Spark rdd 常用 Transformation 实例: 1.def map[U: ClassTag](f: T => U): RDD[U] ...
RDD(弹性分布式数据集)及常用算子
RDD(弹性分布式数据集)及常用算子 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型.代码中是一个抽象类,它代表一个 ...
SparkRDD简介/常用算子/依赖/缓存
SparkRDD简介/常用算子/依赖/缓存 RDD简介 RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区. ...

随机推荐

java笔记--BigDecimal的使用
BigDecimal的运用 --如果朋友您想转载本文章请注明转载地址"http://www.cnblogs.com/XHJT/p/3877231.html "谢谢-- BigDec ...
HTML5新增的标签和属性归纳
收集总结的HTML5的新特性,基本除了IE9以下都可以使用. HTML5语法大部分延续了html的语法不同之处:开头的 <!DOCTYPE html> <html lang=&q ...
java 分次读取大文件的三种方法
1. java 读取大文件的困难 java 读取文件的一般操作是将文件数据全部读取到内存中,然后再对数据进行操作.例如 Path path = Paths.get("file path&qu ...
Java学习-0
Java简单介绍第一个程序Hello World 基本数据类型对象和类数据声明函数声明参数传递 Java简单介绍 Java的优点:简单.可移植性 JDK (Java Development ...
SP2-0734: unknown command beginning "lsnrctl st..." - rest of line ignored.
SP2-0734: unknown command beginning "lsnrctl st..." - rest of line ignored. Cause(原因):Comm ...
猴子选大王【PHP】
目录猴子选大王指针解决数组压栈猴子选大王一群猴子排成一圈,按1,2,...,n依次编号.然后从第1只开始数,数到第m只,把它踢出圈,从它后面再开始数,再数到第m只,在把它踢出去...,如此不 ...
ASP.NET 控件不可编辑
前台页面的解析后的html代码为disabled="disabled",而在后台我们需要设置控件的Enabled=false:即可.
GO语言切片的缩短和增长原理
package main import "fmt" //import OS "os" //import "strings" //import ...
angular2 Router类中的路由跳转navigate
navigate是Router类的一个方法,主要用来路由跳转. 函数定义 navigate(commands: any[], extras?: NavigationExtras) : Promise` ...
Angular2 constructor VS ngOnInit
constructor和ngOnInit钩子有什么不同? constructor constructor(构造函数)是ES6类或TypeScript类中的特殊方法,而不是Angular的方法,主要用来 ...

java-spark的各种常用算子的写法

java-spark的各种常用算子的写法的更多相关文章

随机推荐

热门专题