java使用spark/spark-sql处理schema数据(spark1.6)

1、spark是什么？

Spark是基于内存计算的大数据并行计算框架。

1.1 Spark基于内存计算

相比于MapReduce基于IO计算，提高了在大数据环境下数据处理的实时性。

1.2 高容错性和高可伸缩性

与mapreduce框架相同，允许用户将Spark部署在大量廉价硬件之上，形成集群。

2、spark编程

每一个spark应用程序都包含一个驱动程序（driver program ），他会运行用户的main函数，并在集群上执行各种并行操作（parallel operations）

spark提供的最主要的抽象概念有两种：
弹性分布式数据集（resilient distributed dataset）简称RDD ，他是一个元素集合，被分区地分布到集群的不同节点上，可以被并行操作，RDDS可以从hdfs(或者任意其他的支持Hadoop的文件系统)上的一个文件开始创建，或者通过转换驱动程序中已经存在的Scala集合得到，用户也可以让spark将一个RDD持久化到内存中，使其能再并行操作中被有效地重复使用，最后RDD能自动从节点故障中恢复

spark的第二个抽象概念是共享变量（shared variables），它可以在并行操作中使用，在默认情况下，当spark将一个函数以任务集的形式在不同的节点上并行运行时，会将该函数所使用的每个变量拷贝传递给每一个任务中，有时候，一个变量需要在任务之间，或者驱动程序之间进行共享，spark支持两种共享变量：
广播变量（broadcast variables），它可以在所有节点的内存中缓存一个值。
累加器（accumulators）：只能用于做加法的变量，例如计算器或求和器

3、spark-sql

spark-sql是将hive sql跑在spark引擎上的一种方式，提供了基于schema处理数据的方式。

4、代码详解

java spark和spark-sql依赖。

pom.xml

<dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.10</artifactId>

            <version>1.6.0</version>

            <scope>provided</scope>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-hive_2.10</artifactId>

            <version>1.6.0</version>

            <scope>provided</scope>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-sql_2.10</artifactId>

            <version>1.6.0</version>

            <scope>provided</scope>

        </dependency>

基于spark1.6创建HiveContext客户端。在spark2.1已经开始使用sparksession了。请注意。

package com.xiaoju.dqa.fireman.driver;

import com.xiaoju.dqa.fireman.exception.SparkInitException;

import com.xiaoju.dqa.fireman.utils.PropertiesUtil;

import org.apache.spark.SparkConf;

import org.apache.spark.sql.SQLContext;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.sql.hive.HiveContext;

import java.io.IOException;

import java.util.Properties;

public class SparkClient {

    private SparkConf sparkConf;

    private JavaSparkContext javaSparkContext;

    public SparkClient() {

        initSparkConf();

        javaSparkContext = new JavaSparkContext(sparkConf);

    }

    public SQLContext getSQLContext() throws SparkInitException {

        return new SQLContext(javaSparkContext);

    }

    public HiveContext getHiveContext() throws SparkInitException {

        return new HiveContext(javaSparkContext);

    }

    private void initSparkConf() {

        try {

            PropertiesUtil propUtil = new PropertiesUtil("fireman.properties");

            Properties prop = propUtil.getProperties();

            String warehouseLocation = System.getProperty("user.dir");

            sparkConf = new SparkConf()

                    .setAppName(prop.getProperty("spark.appname"))

                    .set("spark.sql.warehouse.dir", warehouseLocation)

                    .setMaster(prop.getProperty("spark.master"));

        } catch (IOException ex) {

            ex.printStackTrace();

        }

    }

}

驱动程序driver

1、这里要实现可序列化接口，否则spark并不会识别这个类。

2、这里在通过spark-sql读取到row数据之后，将schema解析出来，并且映射为hashmap。

public class FiremanDriver implements Serializable {

    private String db;

    private String table;

private HiveContext hiveContext;public FiremanDriver(String db, String table) {

        try {

            this.db = db;

            this.table = table;

            SparkClient sparkClient = new SparkClient();

            hiveContext = sparkClient.getHiveContext();

        } catch (SparkInitException ex) {

            ex.printStackTrace();

        }

    }

　　public void check() {

        HashMap<String, Object> result = null;

        try {

            String query = String.format("select * from %s.%s", db ,table);

            System.out.println(query);

            DataFrame rows = hiveContext.sql(query);

            JavaRDD<Row> rdd = rows.toJavaRDD();

            result = rdd.map(new Function<Row, HashMap<String, Object>>() {

                @Override

                public HashMap<String, Object> call(Row row) throws Exception {

                    HashMap<String, Object> fuseResult = new HashMap<String, Object>();

                    HashMap<String, Object> rowMap = formatRowMap(row);

                    // 实际map过程

                    return mapResult;

                }

            }).reduce(new Function2<HashMap<String, Object>, HashMap<String, Object>, HashMap<String, Object>>() {

                @Override

                public HashMap<String, Object> call(HashMap<String, Object> map1, HashMap<String, Object> map2) throws Exception {

                    // reduce merge过程                    
　　　　　　　　　　　　return mergeResult;

                }

            });

        } catch (Exception ex) {

            ex.printStackTrace();

        }

    }

　　// 读取shema，这里在通过spark-sql读取到row数据之后，将schema解析出来，并且映射为hashmap

    private HashMap<String, Object> formatRowMap(Row row){

        HashMap<String, Object> rowMap = new HashMap<String, Object>();

        try {

　　　　　　　　for (int i=0; i<row.schema().fields().length; i++) {

                String colName = row.schema().fields()[i].name();

                Object colValue = row.get(i);

                rowMap.put(colName, colValue);

        }catch (Exception ex) {

            ex.printStackTrace();

        }

        return rowMap;

    }

    public static void main(String[] args) {

        String db = args[0];

        String table = args[1];

        FiremanDriver firemanDriver = new FiremanDriver(db, table);

        firemanDriver.check();

    }

}

java使用spark/spark-sql处理schema数据(spark1.6)的更多相关文章

Spark(Hive) SQL数据类型使用详解(Python)
Spark SQL使用时需要有若干“表”的存在,这些“表”可以来自于Hive,也可以来自“临时表”.如果“表”来自于Hive,它的模式(列名.列类型等)在创建时已经确定,一般情况下我们直接通过Spar ...
毕设三: spark与phoenix集成插入数据/解析json数组
需求:将前些日子采集的评论存储到hbase中思路: 先用fastjson解析评论,然后构造rdd,最后使用spark与phoenix交互,把数据存储到hbase中部分数据: [ { "r ...
Spark(Hive) SQL中UDF的使用（Python）
相对于使用MapReduce或者Spark Application的方式进行数据分析,使用Hive SQL或Spark SQL能为我们省去不少的代码工作量,而Hive SQL或Spark SQL本身内 ...
Spark(Hive) SQL中UDF的使用（Python）【转】
相对于使用MapReduce或者Spark Application的方式进行数据分析,使用Hive SQL或Spark SQL能为我们省去不少的代码工作量,而Hive SQL或Spark SQL本身内 ...
使用spark将内存中的数据写入到hive表中
使用spark将内存中的数据写入到hive表中 hive-site.xml <?xml version="1.0" encoding="UTF-8" st ...
量化派基于Hadoop、Spark、Storm的大数据风控架构--转
原文地址:http://www.csdn.net/article/2015-10-06/2825849 量化派是一家金融大数据公司,为金融机构提供数据服务和技术支持,也通过旗下产品“信用钱包”帮助个人 ...
【Spark】使用java语言开发spark程序
目录步骤一.创建maven工程,导入jar包二.开发代码步骤一.创建maven工程,导入jar包 <properties> <scala.version>2.11.8 ...
WSL2+Ubuntu配置Java Maven Hadoop Spark环境
所需文件: 更新日期为2021/5/8: Linux 内核更新包 JDK1.8 maven3.8.1 hadoop3.3.0 spark3.1.1 WSL?WSL2? WSL是适用于 Linux 的 ...
（七）Transformation和action详解-Java&Python版Spark
Transformation和action详解视频教程: 1.优酷 2.YouTube 什么是算子算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作. 算子分类: 具体: 1.Value ...

随机推荐

深度神经网络在量化交易里的应用之二 -- 用深度网络(LSTM)预测5日收盘价格
距离上一篇文章,正好两个星期. 这边文章9月15日 16:30 开始写. 可能几个小时后就写完了.用一句粗俗的话说, "当你怀孕的时候,别人都知道你怀孕了, 但不知道你被日了多少回 ...
团队作业4——第一次项目冲刺（Alpha版本）日志集合处
Day 1: http://www.cnblogs.com/TeamOf/p/6754373.html Day 2: http://www.cnblogs.com/TeamOf/p/6754410.h ...
201521123001《Java程序设计》第5周学习总结
1. 本周学习总结 1.1 尝试使用思维导图总结有关多态与接口的知识点. 1.2 可选:使用常规方法总结其他上课内容. 答:关于接口: 1.接口是一种抽象,抽取出了共同行为: 2.能够更加清晰地把系统 ...
201521123110第二周Java学习总结
1.本章学习总结本周的Java学习相对前一周更进了一步,初步学习了Java简单的输入和输出,String类的对象创建后不能修改,它是不可变的,在Java中浮点型默认是double型与C中的int型不 ...
201521123102 《Java程序设计》第2周学习总结
#1. 本周学习总结(1)学习使用码云存储代码(2)掌握了常见数据类型的使用.转换(3)回顾了前面学过的基本语法(4)复习一二三章内容 #2. 书面作业**Q1.使用Eclipse关联jdk源代码,并 ...
201521123053《Java程序设计》第1周学习总结
1. 本周学习总结第一次接触Java,让我感到很吃力,有些困难.但我知道接触所有新事物都会困难,慢慢来就好. 下面是我这周的学习总结: one 第一节课老师上课太快了,而且我没预习,根本跟不上 ...
Hyperledger Fabric 1.0 从零开始（二）——环境构建（公网）
1:环境构建在本文中用到的宿主机环境是Centos ,版本为Centos.x86_647.2,通过Docker 容器来运行Fabric的节点,版本为v1.0.因此,启动Fabric网络中的节点需要先 ...
Selenium+Python自动化测试实战（2）元素定位
1.Selenium2 的原理第一篇分享简单介绍了基于Python开发的Selenium2的环境配置,这篇主要讲一下基本用法.首先讲一下Selenium2的基本原理.基本上知道了这个东西是怎么回事, ...
06jQuery-05-事件
不同的浏览器绑定事件的代码都不太一样,所以我们使用jQuery来写代码的话,可以屏蔽不同浏览器之间的差异. 在jQuery中,可以使用 on 来绑定一个事件,指定事件的名称和对应的处理函数: // 获 ...
Mysql中的like模糊查询
MySql的like语句中的通配符:百分号.下划线和escape %代表任意多个字符 _代表一个字符 escape,转义字符后面的%或_,使其不作为通配符,而是普通字符匹配数据库数据如下: 1. ...

java使用spark/spark-sql处理schema数据(spark1.6)

java使用spark/spark-sql处理schema数据(spark1.6)的更多相关文章

随机推荐

热门专题