map，filter，flatMap算子

视频教程：

1、map

map是将源JavaRDD的一个一个元素的传入call方法，并经过算法后一个一个的返回从而生成一个新的JavaRDD。

java：

 package com.bean.spark.trans;

 import java.util.Arrays;

 import java.util.List;

 import org.apache.spark.SparkConf;

 import org.apache.spark.api.java.JavaRDD;

 import org.apache.spark.api.java.JavaSparkContext;

 import org.apache.spark.api.java.function.Function;

 /**

  *

  * @author RedBean

  *map

  */

 public class TraMap {

     public static void main(String[] args) {

         SparkConf conf = new SparkConf();

         conf.setMaster("local");

         conf.setAppName("map");

         System.setProperty("hadoop.home.dir", "D:/tools/spark-2.0.0-bin-hadoop2.6");

         JavaSparkContext sc = new JavaSparkContext(conf);

         List<Integer> number = Arrays.asList(0,1,2,3,4,5,6,7,8,9);

         JavaRDD<Integer> numberRDD = sc.parallelize(number);

         JavaRDD<Integer> results = numberRDD.map(new Function<Integer, Integer>() {

             @Override

             public Integer call(Integer s) throws Exception {

                 // TODO Auto-generated method stub

                 return s * 5;

             }

         });

         System.out.println(results.collect());

     }

 }

python：

 # -*- coding:utf-8 -*-

 from __future__ import print_function

 from pyspark import SparkConf

 from pyspark import SparkContext

 import os

 if __name__ == '__main__':

     os.environ['SPARK_HOME'] = 'D:/tools/spark-2.0.0-bin-hadoop2.6'

     conf = SparkConf().setAppName('mapTest').setMaster('local')

     sc = SparkContext(conf=conf)

     data = sc.parallelize([1,2,3,4,5,6])

     def myMap(l):

         return l * 5

     print(data.map(myMap).collect())

2、filter

返回一个新的数据集，由经过func函数后返回值为true的原元素组成

java：

 package com.bean.spark.trans;

 import java.util.Arrays;

 import java.util.List;

 import org.apache.spark.SparkConf;

 import org.apache.spark.api.java.JavaRDD;

 import org.apache.spark.api.java.JavaSparkContext;

 import org.apache.spark.api.java.function.Function;

 public class TraFilter {

     public static void main(String[] args) {

         SparkConf conf = new SparkConf();

         conf.setMaster("local");

         conf.setAppName("filter");

         System.setProperty("hadoop.home.dir", "D:/tools/spark-2.0.0-bin-hadoop2.6");

         JavaSparkContext sc = new JavaSparkContext(conf);

         List<Integer> number = Arrays.asList(0,1,2,3,4,5,6,7,8,9);

         JavaRDD<Integer> numberRDD = sc.parallelize(number);

         JavaRDD<Integer> results = numberRDD.filter(new Function<Integer, Boolean>() {

             @Override

             public Boolean call(Integer s) throws Exception {

                 // TODO Auto-generated method stub

                 return s % 2 == 0;

             }

         });

         System.out.println(results.collect());

     }

 }

python：

 # -*- coding:utf-8 -*-

 from __future__ import print_function

 from pyspark import SparkConf

 from pyspark import SparkContext

 import os

 if __name__ == '__main__':

     os.environ['SPARK_HOME'] = 'D:/tools/spark-2.0.0-bin-hadoop2.6'

     conf = SparkConf().setAppName('filterTest').setMaster('local')

     sc = SparkContext(conf=conf)

     data = sc.parallelize([1,2,3,4,5,6])

     def filterFun(l):

         return l > 2

     print(data.filter(filterFun).collect())

3、flatMap

将一条 rdd数据使用你定义的函数给分解成多条 rdd数据。

java：

 package com.bean.spark.trans;

 import java.util.Arrays;

 import java.util.Iterator;

 import org.apache.spark.SparkConf;

 import org.apache.spark.api.java.JavaRDD;

 import org.apache.spark.api.java.JavaSparkContext;

 import org.apache.spark.api.java.function.FlatMapFunction;

 public class TraFlatMap {

     public static void main(String[] args) {

         SparkConf conf = new SparkConf();

         conf.setMaster("local");

         conf.setAppName("FlatMap");

         System.setProperty("hadoop.home.dir", "D:/tools/spark-2.0.0-bin-hadoop2.6");

         JavaSparkContext sc = new JavaSparkContext(conf);

         JavaRDD<String> context = sc.textFile("D:/tools/data/flatMap/flatMap.txt");

         JavaRDD<String> results = context.flatMap(new FlatMapFunction<String, String>() {

             @Override

             public Iterator<String> call(String s) throws Exception {

                 // TODO Auto-generated method stub

                 return Arrays.asList(s).iterator();

             }

         });

         System.out.println(results.collect());

     }

 }

python：

 # -*- coding:utf-8 -*-

 from __future__ import print_function

 from pyspark import SparkConf

 from pyspark import SparkContext

 import os

 if __name__ == '__main__':

     os.environ['SPARK_HOME'] = 'D:/tools/spark-2.0.0-bin-hadoop2.6'

     conf = SparkConf().setAppName('filterTest').setMaster('local')

     sc = SparkContext(conf=conf)

     data = sc.parallelize(["Hello World","Spark Hadoop Storm","java python c"])

     def flatFun(l):

         return l.split(" ")

     print(data.flatMap(flatFun).collect())

（八）map，filter，flatMap算子-Java&Python版Spark的更多相关文章

（九）groupByKey,reduceByKey,sortByKey算子-Java&Python版Spark
groupByKey,reduceByKey,sortByKey算子视频教程: 1.优酷 2. YouTube 1.groupByKey groupByKey是对每个key进行合并操作,但只生成一个 ...
（七）Transformation和action详解-Java&Python版Spark
Transformation和action详解视频教程: 1.优酷 2.YouTube 什么是算子算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作. 算子分类: 具体: 1.Value ...
（四）Spark集群搭建-Java&Python版Spark
Spark集群搭建视频教程 1.优酷 2.YouTube 安装scala环境下载地址http://www.scala-lang.org/download/ 上传scala-2.10.5.tgz到m ...
（二）Spark-Linux环境准备-Java&Python版Spark
Spark-Linux环境准备视频教程: 1.优酷 2.YouTube 硬软件环境 1.虚拟机:VMware Workstation 12 2.虚拟机操作系统:RedHat5u4,单核,1G内存,2 ...
（一）Spark简介-Java&Python版Spark
Spark简介视频教程: 1.优酷 2.YouTube 简介: Spark是加州大学伯克利分校AMP实验室,开发的通用内存并行计算框架.Spark在2013年6月进入Apache成为孵化项目,8个月 ...
（三）Spark-Hadoop集群搭建-Java&Python版Spark
Spark-Hadoop集群搭建视频教程: 1.优酷 2.YouTube 配置java 启动ftp [root@master ~]# /etc/init.d/vsftpd restart 关闭 vs ...
（五）什么是RDD-Java&Python版Spark
什么是RDD 视频教程: 1.优酷 2.YouTube RDD是个抽象类,全称为Resilient Distributed Datasets,是一个容错的.并行的数据结构,可以让用户显式地将数据存储到 ...
（六）Spark-Eclipse开发环境WordCount-Java&Python版Spark
Spark-Eclipse开发环境WordCount 视频教程: 1.优酷 2.YouTube 安装eclipse 解压eclipse-jee-mars-2-win32-x86_64.zip Java ...
Java流中的map算子和flatMap算子的区别
map算子和flatMap算子 map和flatMap都是映射(转换),那么他们之间究竟有什么区别呢? 1.我们先简单了解下map算子: @org.junit.Test public void tes ...

随机推荐

使用T4模板生成不同部署环境下的配置文件
在开发企业级应用的时候,通常会有不同的开发环境,比如有开发环境,测试环境,正式环境,生产环境等.在一份代码部署到不同环境的时候,不同环境的配置文件可能需要根据目标环境不同而不同.比如在开发环境中,数据 ...
Android开发学习之路-机器学习库（图像识别）、百度翻译
对于机器学习也不是了解的很深入,今天无意中在GitHub看到一个star的比较多的库,就用着试一试,效果也还行.比是可能比不上TensorFlow的,但是在Android上用起来比较简单,毕竟Tens ...
列属性：RowGUIDCol、Identity 和 not for replication
Table Column有两个特殊的属性RowGUIDCol 和 Identity,用于标记数据列: $ROWGUID 用于引用被属性 RowGUIDCol 标识的UniqueIdentifier 类 ...
【译】Unity3D Shader 新手教程(2/6) —— 积雪Shader
本文为翻译,附上原文链接. 转载请注明出处--polobymulberry-博客园. 如果你是一个shader编程的新手,并且你想学到下面这些酷炫的技术,我觉得你可以看看这篇教程: 实现一个积雪效果的 ...
HTML5 之拖放(drag与drop)
拖放(Drag 和 drop)是 HTML5 标准的组成部分. 拖放是一种常见的特性,即抓取对象以后拖到另一个位置. 在 HTML5 中,拖放是标准的一部分,任何元素都能够拖放. HTML5 拖放实例 ...
ASP.NET MVC5+EF6+EasyUI 后台管理系统（48）-工作流设计-起草新申请
系列目录创建新表单之后,我们就可以起草申请了,申请按照严格的表单步骤和分支执行. 起草的同时,我们分解流转的规则中的审批人并保存,具体流程如下接下来创建DrafContoller控制器,此控制器只 ...
call,apply,bind的用法
关于call,apply,bind这三个函数的用法,是学习javascript这门语言无法越过的知识点.下边我就来好好总结一下它们三者各自的用法,及常见的应用场景. 首先看call这个函数,可以理解成 ...
网站实现微信登录之嵌入二维码——基于yii2开发的描述
之前写了一篇yii2获取登录前的页面url地址的文章,然后发现自己对于网站实现微信扫码登录功能的实现不是很熟悉,所以,我会写2-3篇的文章来描述下一个站点如何实现微信扫码登录的功能,来复习下微信扫码登 ...
跨域之jsonp
我们都知道使用<script>标签可以引入外部的JS文件,即使这个JS文件来自于其他的网站,比如我们引用存放在网络服务器上的jQuery框架.在这个过程中,我们已经实现跨域访问.像< ...
我为什么要自己编译openjdk8以及那些坑
我为什么要自己编译openjdk8以及那些坑这是笔者第二次编译openjdk, 第一次编译的是openjdk7,那么好多人会好奇,为什么要自己编译openjdk呢,官方不是已经发布了安装包了么? 要 ...

（八）map，filter，flatMap算子-Java&Python版Spark

map，filter，flatMap算子

视频教程：

1、map

java：

python：

2、filter

java：

python：

3、flatMap

java：

python：

（八）map，filter，flatMap算子-Java&Python版Spark的更多相关文章

随机推荐

热门专题