033 Java Spark的编程

1.Java SparkCore编程

　　入口是：JavaSparkContext
　　　　基本的RDD是：JavaRDD
　　　　其他常用RDD: JavaPairRDD
　　JavaRDD和JavaPairRDD转换：
　　　　JavaRDD => JavaPairRDD: 通过mapToPair函数
　　　　JavaPairRDD => JavaRDD: 通过map函数转换

2.前提

　　运行前将core-site.xml复制到resource文件夹中

3.程序　　

 package com.ibeifeng.senior;

 import org.apache.spark.SparkConf;

 import org.apache.spark.api.java.JavaPairRDD;

 import org.apache.spark.api.java.JavaRDD;

 import org.apache.spark.api.java.JavaSparkContext;

 import org.apache.spark.api.java.function.FlatMapFunction;

 import org.apache.spark.api.java.function.Function2;

 import org.apache.spark.api.java.function.PairFunction;

 import org.apache.spark.api.java.function.VoidFunction;

 import scala.Tuple2;

 import java.sql.Connection;

 import java.sql.DriverManager;

 import java.sql.PreparedStatement;

 import java.util.Arrays;

 import java.util.Iterator;

 /**

  * Java实现Spark的WordCount程序

  * Created by ibf on 02/15.

  */

 public class JavaWordCountSparkCore {

     public static void main(String[] args) {

         String resultHDFSSavePath = "/beifeng/spark/result/wordcount/" + System.currentTimeMillis();

         // 1. 创建SparkConf配置信息

         SparkConf conf = new SparkConf()

                 .setMaster("local[*]")

                 .setAppName("spark-wordcount");

         // 2. 创建SparkContext对象，在java编程中，该对象叫做JavaSparkContext

         JavaSparkContext sc = new JavaSparkContext(conf);

         // 3. 从hdfs读取文件形成RDD

         // TODO: 文件路径自行给定

         JavaRDD<String> rdd = sc.textFile("/hive/common.db/dept");

         // 4. RDD数据处理

         // TODO: 过滤特殊字符

         // 4.1 行数据的分割，调用flatMap函数

         JavaRDD<String> wordRDD = rdd.flatMap(new FlatMapFunction<String, String>() {

             @Override

             public Iterable<String> call(String s) throws Exception {

                 String line = s;

                 if (line == null) line = "";

                 String[] arr = line.split("\t");

                 return Arrays.asList(arr);

             }

         });

         // 4.2 将数据转换为key/value键值对

         /**

          * RDD的reduceByKey函数不是RDD类中，通过隐式转换后，存在于其他类中<br/>

          * Java由于不存在隐式转换，所以不能直接调用map函数进行key/value键值对转换操作，必须调用特定的函数

          * */

         JavaPairRDD<String, Integer> wordCountRDD = wordRDD.mapToPair(new PairFunction<String, String, Integer>() {

             @Override

             public Tuple2<String, Integer> call(String s) throws Exception {

                 return new Tuple2<String, Integer>(s, 1);

             }

         });

         // 4.3 聚合结果

         JavaPairRDD<String, Integer> resultRDD = wordCountRDD.reduceByKey(new Function2<Integer, Integer, Integer>() {

             @Override

             public Integer call(Integer v1, Integer v2) throws Exception {

                 return v1 + v2;

             }

         });

         // 5. 结果输出

         // 5.1 结果输出到HDFS

         resultRDD.saveAsTextFile(resultHDFSSavePath);

         // 5.2 结果输出到MySQL

         /**

          * SparkCore RDD数据的读入是通过InputFormat来读入数据形成RDD的

          *  sc.newAPIHadoopRDD[K, V, F <: NewInputFormat[K, V]](

          conf: Configuration,

          fClass: Class[F],

          kClass: Class[K],

          vClass: Class[V])

          * RDD的saveASxxxx相关方法是利用OutputFormat来进行数据输出的

          * resultRDD.saveAsNewAPIHadoopDataset(conf: Configuration);

          */

         resultRDD.foreachPartition(new VoidFunction<java.util.Iterator<Tuple2<String, Integer>>>() {

             @Override

             public void call(Iterator<Tuple2<String, Integer>> tuple2Iterator) throws Exception {

                 Class.forName("com.mysql.jdbc.Driver");

                 String url = "jdbc:mysql://hadoop-senior01:3306/test";

                 String username = "root";

                 String password = "123456";

                 Connection conn = null;

                 try {

                     // 1. 创建connection连接

                     conn = DriverManager.getConnection(url, username, password);

                     // 2. 构建statement

                     String sql = "insert into wordcount values(?,?)";

                     PreparedStatement pstmt = conn.prepareStatement(sql);

                     // 3. 结果数据输出

                     while (tuple2Iterator.hasNext()) {

                         Tuple2<String, Integer> t2 = tuple2Iterator.next();

                         pstmt.setString(1, t2._1());

                         pstmt.setLong(2, t2._2());

                         pstmt.executeUpdate();

                     }

                 } finally {

                     // 4. 关闭连接

                     conn.close();

                 }

             }

         });

     }

 }

033 Java Spark的编程的更多相关文章

Spark菜鸟学习营Day1 从Java到RDD编程
Spark菜鸟学习营Day1 从Java到RDD编程菜鸟训练营主要的目标是帮助大家从零开始,初步掌握Spark程序的开发. Spark的编程模型是一步一步发展过来的,今天主要带大家走一下这段路,让我 ...
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...
实验5 Spark SQL编程初级实践
今天做实验[Spark SQL 编程初级实践],虽然网上有答案,但都是用scala语言写的,于是我用java语言重写实现一下. 1 ．Spark SQL 基本操作将下列 JSON 格式数据复制到 Li ...
<译>Spark Sreaming 编程指南
Spark Streaming 编程指南 Overview A Quick Example Basic Concepts Linking Initializing StreamingContext D ...
03、IDEA下Spark API编程
03.IDEA下Spark API编程 3.1 编程实现Word Count 3.1.1 创建Scala模块 3.1.2 添加maven支持,并引入spark依赖 <?xml version=& ...
实验 5 Spark SQL 编程初级实践
实验 5 Spark SQL 编程初级实践参考厦门大学林子雨 1． Spark SQL 基本操作将下列 json 数据复制到你的 ubuntu 系统/usr/local/spark 下,并 ...
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...
[ 高并发]Java高并发编程系列第二篇--线程同步
高并发,听起来高大上的一个词汇,在身处于互联网潮的社会大趋势下,高并发赋予了更多的传奇色彩.首先,我们可以看到很多招聘中,会提到有高并发项目者优先.高并发,意味着,你的前雇主,有很大的业务层面的需求, ...
1.JAVA之GUI编程概述
下列内容为本人看毕向东老师java视频教程学习笔记! JAVA GUI图形用户界面编程: Windows 操作系统提供两种操作方式: ...

随机推荐

无旋treap板子！
#include <cstdio> #include <cstring> #include <cmath> #include <algorithm> # ...
bzoj3612 平衡 (dp)
设f[i][j]为把i拆成j个不重复的.大于0小于等于N的数的方案数我们考虑一个方案是怎么来的:(初始状态是f[0][0]=1) 如果这个方案里有1,那它是先把原来的状态的每个数加1.然后再增加一个 ...
keeplived工作原理及配置
一.keepalived简介及作用 Keepalived软件起初是专为LVS负载均衡软件设计的,用来管理并监控LVS集群系统中各个服务节点的状态,后来又加入了可以实现高可用的VRRP功能 keepal ...
《剑指offer》— JavaScript（26）二叉搜索树与双向链表
二叉搜索树与双向链表题目描述输入一棵二叉搜索树,将该二叉搜索树转换成一个排序的双向链表.要求不能创建任何新的结点,只能调整树中结点指针的指向. 思路递归思想:把大问题转换为若干小问题: 由于Ja ...
AngularJS学习笔记3——AngularJS的工作原理
个人觉得,要很好的理解AngularJS的运行机制,才能尽可能避免掉到坑里面去.在这篇文章中,我将根据网上的资料和自己的理解对AngularJS的在启动后,每一步都做了些什么,做一个比较清楚详细的解析 ...
map文件的使用
map文件相信大家并不陌生,大家都知道是用来调试的,但是具体怎么用你又清不清楚呢? 其实也很简单 1.拿JQ为例,我们需要备有jquery.js.jquery.min.js.jquery.min.ma ...
MySQL的DML常用语法格式
MySQL的DML常用语法格式作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 我们知道MySQL的查询大致分为单表查询,多表查询以及联合查询.多表查询,顾名思义,就是查询的结果可能 ...
【原创】backbone1.1.0源码解析之Model
趁热打铁,将Backbone.Model的源代码注释也发出来. Model是用来干嘛的?写过mvc的同学应该都知道,说白了就是model实例用来存储数据表中的一行数据(row) Backbone利用m ...
用python处理文本，本地文件系统以及使用数据库的知识基础
主要是想通过python之流的脚本语言来进行文件系统的遍历,处理文本以及使用简易数据库的操作. 本文基于陈皓的:<程序员技术练级攻略> 一.Python csv 对于电子表格和数据库导出文 ...
spring Mvc + Maven + 拷贝插件 (十一)
maven-antrun-plugin:可用于在项目编译打包时,把文件指定的文件拷贝到指定的位置,我们打包一般都是打包到项目的target 文件下; <groupId>org.apac ...

033 Java Spark的编程

033 Java Spark的编程的更多相关文章

随机推荐

热门专题