一、创建RDD

二、并行化集合创建RDD

2.1 Java并行创建RDD——计算1-10的累加和

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function2;

import java.util.Arrays;

import java.util.List;

/**

 * 并行创建RDD

 * eg：计算1-10的累加和

 */

public class JavaParallelizeCollection {

    public static void main(String[] args) {

        //创建SparkConf

        SparkConf conf = new SparkConf()

                .setAppName("JavaParallelizeCollection")

                .setMaster("local");

        //创建JavaSparkContext

        JavaSparkContext sc = new JavaSparkContext(conf);

        //要通过并行化集合的方式创建RDD，那么就调用SparkContext以及其子类的parallelize()方法

        List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10);

        JavaRDD<Integer> integerJavaRDD = sc.parallelize(numbers);

        //执行reduce算子操作

        //相当于，先进行1+2=3；然后在用3+3=6，然后在用6+4=10，以此类推

        int sum = integerJavaRDD.reduce(new Function2<Integer, Integer, Integer>() {

            private static final long serialVersionUID = 1L;

            @Override

            public Integer call(Integer num1, Integer num2) throws Exception {

                return num1 + num2;

            }

        });

        //输出累加和

        System.out.println("1到10的累加和为：" + sum);

        //关闭JavaSparkContext

        sc.close();

    }

}

2.2 Scala并行创建RDD——计算1-10的累加和

import org.apache.spark.SparkConf;

import org.apache.spark.SparkContext;

object ScalaParallelizeCollection {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

      .setAppName("JavaParallelizeCollection")

      .setMaster("local")

    val sc = new SparkContext(conf)

    val numbers = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

    val numberRDD = sc.parallelize(numbers, 5)

    val sum = numberRDD.reduce(_ + _)

    println("1到10的累加和：" + sum)

  }

}

三、使用本地文件和HDFS创建RDD

3.1 Java—使用本地文件创建RDD



import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.api.java.function.Function2;

/**

 * 使用本地文件创建RDD

 * eg：统计文本文件字数

 */

public class LocalFile {

    public static void main(String[] args) {

        //创建SparkConf

        SparkConf conf = new SparkConf()

                .setAppName("LocalFile")

                .setMaster("local");

        //创建JavaSparkContext

        JavaSparkContext sc = new JavaSparkContext(conf);

        //使用SparkContext以及其子类的textFile()方法，针对本地文件创建RDD

        JavaRDD<String> lines = sc.textFile("C://Users//xxx//Desktop//spark.txt");

        //统计文本文件内的字数

        JavaRDD<Integer> lineLength = lines.map(new Function<String, Integer>() {

            private static final long servialVersionUID = 1L;

            @Override

            public Integer call(String s) throws Exception {

                return s.length();

            }

        });

        int count = lineLength.reduce(new Function2<Integer, Integer, Integer>() {

            private static final long servialVersionUID = 1L;

            @Override

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1 + v2;

            }

        });

        System.out.println("文件总字数是：" + count);

        //关闭JavaSparkContext

        sc.close();

    }

}

3.2 Scala—使用本地文件创建RDD



import org.apache.spark.{SparkConf, SparkContext}

/**

  * 使用本地文件创建RDD

  * eg：统计文本文件字数

  */

object ScalaLocalFile {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

      .setAppName("ScalaLocalFile")

      .setMaster("local")

    val sc = new SparkContext(conf)

    val lines = sc.textFile("C://Users//xxx//Desktop//spark.txt", 1)

    val count = lines.map { line => line.length() }.reduce(_ + _)

    println("统计文本文件字数：" + count)

  }

}

四、RDD持久化原理

五、不使用RDD持久化的问题的原理

六、RDD持久化工作的原理

七、RDD持久化策略

八、如何选择RDD持久化策略

Spark练习之创建RDD（集合、本地文件），RDD持久化及RDD持久化策略的更多相关文章

5、创建RDD（集合、本地文件、HDFS文件）
一.创建RDD 1.创建RDD 进行Spark核心编程时,首先要做的第一件事,就是创建一个初始的RDD.该RDD中,通常就代表和包含了Spark应用程序的输入源数据.然后在创建了初始的RDD之后,才可 ...
Spark保存到HDFS或本地文件相关问题
spark中saveAsTextFile如何最终生成一个文件 http://www.lxway.com/641062624.htm 一般而言,saveAsTextFile会按照执行task的多少生成多 ...
26.Spark创建RDD集合
打开eclipse创建maven项目 pom.xml文件 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:x ...
spark读取本地文件
/** * Read a text file from HDFS, a local file system (available on all nodes), or any * Hadoop-supp ...
JS读取/创建本地文件及目录文件夹的方法
原文链接:http://www.cnblogs.com/ayan/archive/2013/04/22/3036072.html 注:以下操作只在IE下有效! Javascript是网页制作中离不开的 ...
手工创建tomcat应用，以及实现js读取本地文件内容
手工创建tomcat应用: 1.在webapps下面新建应用目录文件夹 2.在文件夹下创建或是从其他应用中复制:META-INF,WEB-INF这两个文件夹, 其中META-INF清空里面,WEB-I ...
使用Docker Toolbox 创建Docker虚拟机的方法-注意正确使用本地文件 file：参数的路径名
使用Docker Toolbox 创建v1.12.6版的Docker虚拟机的方法, 一定要注意正确使用本地文件 file:// 参数的路径名, 之前尝试创建过多次,一直都没有成功过, 无法使用 fil ...
github 创建网络仓库，使用git工具将本地文件上传/删除 --- 心得
1.前言使用 git做项目控制版本工具,当然,使用SVN也可以,但是,git让人感觉更先进一些,与GitHub结合,用起来很方便,服务端由官网控制. 而SVN分客户端和服务端,都是个人控制,因此, ...
github创建项目，并提交本地文件
1.如图所示,不要点选"Initialize this repository with README",不然就看不到第二幅图的提示信息了 2.根据下面提示,初始化本地文件,然后上传

随机推荐

linux系统重启网卡后网络不通（NetworkManager篇）
一.故障现象 RHEL7.6系统,使用nmcli绑定双网卡后,再使用以下命令重启network服务后主机网络异常,导致无法通过ssh远程登录系统. # systemctl restart n ...
Vue3.0聊天室|vue3+vant3仿微信聊天实例|vue3.x仿微信app界面
一.项目简介基于Vue3.0+Vant3.x+Vuex4.x+Vue-router4+V3Popup等技术开发实现的仿微信手机App聊天实例项目Vue3-Chatroom.实现了发送图文表情消息/g ...
你知道 react-color 的实现原理吗
一.前言 ReactColor 是一个优秀的 React 颜色选择器组件,官方给了多种布局供开发者选择. 笔者常用的主题为 Sketch,这种主题涵盖了颜色面板.推荐色块.RGB颜色输入等功能,比较完 ...
全网最牛X的！！！ MySQL两阶段提交串讲
目录一.吹个牛二.事务及它的特性三.简单看下两阶段提交的流程四.两阶段写日志用意? 五.加餐:sync_binlog = 1 问题六.如何判断binlog和redolog是否达成了一致七. ...
【.NET与树莓派】上手前的一些准备工作
.NET Iot 不是什么新鲜事物,百科很强大,故老周在此也不必多介绍.现在的时代和老周当年学 QBasic 的时代不同,那时候拉根电话线上网,下载速度只有可怜的 3.5 kb/s.而且还要去店里买上 ...
LeetCode解题Golang(1-10)
前言 LeetCode题目个人答案(Golang版) 本篇预期记录 1-10 题, 持续更新正文 1.两数之和(简单) https://leetcode-cn.com/problems/two-su ...
Debian安装HomeBrew
前言 HomeBrew 的用处我想使用 Mac 的开发人员都知道, 本篇讲解如何在 Debian 上安装 BrewLinux 更新: 后来发现并不是很好用, 不建议使用官方推荐的脚本安装注意这里只 ...
【Java基础】面向对象下
面向对象下这一章主要涉及其他关键字,包括 this.super.static.final.abstract.interface.package.import 等. static 在 Java 类中, ...
【MyBatis】MyBatis 缓存
MyBatis 缓存文章源码什么是缓存像大多数的持久化框架一样,MyBatis 也提供了缓存策略,通过缓存策略来减少数据库的查询次数,从而提高性能. Mybatis 中缓存分为一级缓存,二级缓存 ...
【MySQL 高级】架构介绍
MySQL高级架构介绍 MySQL 简介 MySQL 安装 Docker 安装参考链接 Linux 安装参考链接 MySQL 配置文件 log-bin:二进制日志文件.用于主从复制.它记录了用户 ...

Spark练习之创建RDD（集合、本地文件），RDD持久化及RDD持久化策略

Spark练习之创建RDD（集合、本地文件）

一、创建RDD

二、并行化集合创建RDD

2.1 Java并行创建RDD——计算1-10的累加和

2.2 Scala并行创建RDD——计算1-10的累加和

三、使用本地文件和HDFS创建RDD

3.1 Java—使用本地文件创建RDD

3.2 Scala—使用本地文件创建RDD

四、RDD持久化原理

五、不使用RDD持久化的问题的原理

六、RDD持久化工作的原理

七、RDD持久化策略

八、如何选择RDD持久化策略

Spark练习之创建RDD（集合、本地文件），RDD持久化及RDD持久化策略的更多相关文章

随机推荐

热门专题