40、JSON数据源综合案例实战

一、JSON数据源综合案例实战

1、概述

Spark SQL可以自动推断JSON文件的元数据，并且加载其数据，创建一个DataFrame。可以使用SQLContext.read.json()方法，针对一个元素类型为String的RDD，或者是一个JSON文件。

但是要注意的是，这里使用的JSON文件与传统意义上的JSON文件是不一样的。每行都必须，也只能包含一个，单独的，自包含的，有效的JSON对象。不能让一个JSON对象分散在多行。否则会报错。

###

综合性复杂案例：查询成绩为80分以上的学生的基本信息与成绩信息

students.json

{"name":"Leo", "score":85}

{"name":"Marry", "score":99}

{"name":"Jack", "score":74}

2、java案例实现

package cn.spark.study.sql;

import java.util.ArrayList;

import java.util.List;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.sql.DataFrame;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.RowFactory;

import org.apache.spark.sql.SQLContext;

import org.apache.spark.sql.types.DataTypes;

import org.apache.spark.sql.types.StructField;

import org.apache.spark.sql.types.StructType;

import scala.Tuple2;

/**

 * JSON数据源

 * @author Administrator

 *

 */

public class JSONDataSource {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf()

                .setAppName("JSONDataSource");

        JavaSparkContext sc = new JavaSparkContext(conf);

        SQLContext sqlContext = new SQLContext(sc);

        // 针对json文件，创建DataFrame（针对json文件创建DataFrame）

        DataFrame studentScoresDF = sqlContext.read().json(

                "hdfs://spark1:9000/spark-study/students.json");  

        // 针对学生成绩信息的DataFrame，注册临时表，查询分数大于80分的学生的姓名

        // （注册临时表，针对临时表执行sql语句）

        studentScoresDF.registerTempTable("student_scores");

        DataFrame goodStudentScoresDF = sqlContext.sql(

                "select name,score from student_scores where score>=80");

        // （将DataFrame转换为rdd，执行transformation操作）

        List<String> goodStudentNames = goodStudentScoresDF.javaRDD().map(

                new Function<Row, String>() {

                    private static final long serialVersionUID = 1L;

                    @Override

                    public String call(Row row) throws Exception {

                        return row.getString(0);

                    }

                }).collect();

        // 然后针对JavaRDD<String>，创建DataFrame

        // （针对包含json串的JavaRDD，创建DataFrame）

        List<String> studentInfoJSONs = new ArrayList<String>();

        studentInfoJSONs.add("{\"name\":\"Leo\", \"age\":18}");

        studentInfoJSONs.add("{\"name\":\"Marry\", \"age\":17}");

        studentInfoJSONs.add("{\"name\":\"Jack\", \"age\":19}");

        JavaRDD<String> studentInfoJSONsRDD = sc.parallelize(studentInfoJSONs);

        DataFrame studentInfosDF = sqlContext.read().json(studentInfoJSONsRDD);

        // 针对学生基本信息DataFrame，注册临时表，然后查询分数大于80分的学生的基本信息

        studentInfosDF.registerTempTable("student_infos");  

        String sql = "select name,age from student_infos where name in (";

        for(int i = 0; i < goodStudentNames.size(); i++) {

            sql += "'" + goodStudentNames.get(i) + "'";

            if(i < goodStudentNames.size() - 1) {

                sql += ",";

            }

        }

        sql += ")";

        DataFrame goodStudentInfosDF = sqlContext.sql(sql);

        // 然后将两份数据的DataFrame，转换为JavaPairRDD，执行join transformation

        // （将DataFrame转换为JavaRDD，再map为JavaPairRDD，然后进行join）

        JavaPairRDD<String, Tuple2<Integer, Integer>> goodStudentsRDD = 

                goodStudentScoresDF.javaRDD().mapToPair(new PairFunction<Row, String, Integer>() {

                    private static final long serialVersionUID = 1L;

                    @Override

                    public Tuple2<String, Integer> call(Row row) throws Exception {

                        return new Tuple2<String, Integer>(row.getString(0),

                                Integer.valueOf(String.valueOf(row.getLong(1))));

                    }

                }).join(goodStudentInfosDF.javaRDD().mapToPair(new PairFunction<Row, String, Integer>() {

                    private static final long serialVersionUID = 1L;

                    @Override

                    public Tuple2<String, Integer> call(Row row) throws Exception {

                        return new Tuple2<String, Integer>(row.getString(0),

                                Integer.valueOf(String.valueOf(row.getLong(1))));

                    }

                }));

        // 然后将封装在RDD中的好学生的全部信息，转换为一个JavaRDD<Row>的格式

        // （将JavaRDD，转换为DataFrame）

        JavaRDD<Row> goodStudentRowsRDD = goodStudentsRDD.map(

                new Function<Tuple2<String,Tuple2<Integer,Integer>>, Row>() {

                    private static final long serialVersionUID = 1L;

                    @Override

                    public Row call(

                            Tuple2<String, Tuple2<Integer, Integer>> tuple)

                            throws Exception {

                        return RowFactory.create(tuple._1, tuple._2._1, tuple._2._2);

                    }

                });

        // 创建一份元数据，将JavaRDD<Row>转换为DataFrame

        List<StructField> structFields = new ArrayList<StructField>();

        structFields.add(DataTypes.createStructField("name", DataTypes.StringType, true));

        structFields.add(DataTypes.createStructField("score", DataTypes.IntegerType, true));

        structFields.add(DataTypes.createStructField("age", DataTypes.IntegerType, true));

        StructType structType = DataTypes.createStructType(structFields);

        DataFrame goodStudentsDF = sqlContext.createDataFrame(goodStudentRowsRDD, structType);

        // 将好学生的全部信息保存到一个json文件中去

        // （将DataFrame中的数据保存到外部的json文件中去）

        goodStudentsDF.write().format("json").save("hdfs://spark1:9000/spark-study/good-students");

    }

}

####

students.json

{"name":"Leo", "score":85}

{"name":"Marry", "score":99}

{"name":"Jack", "score":74}

3、scala案例实现

package cn.spark.study.sql

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.sql.SQLContext

import org.apache.spark.sql.types.StructType

import org.apache.spark.sql.types.StructField

import org.apache.spark.sql.types.StringType

import org.apache.spark.sql.types.IntegerType

import org.apache.spark.sql.Row

import org.apache.spark.sql.types.LongType

/**

 * @author Administrator

 */

object JSONDataSource {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

        .setAppName("JSONDataSource")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    // 创建学生成绩DataFrame

    val studentScoresDF = sqlContext.read.json("hdfs://spark1:9000/spark-study/students.json")

    // 查询出分数大于80分的学生成绩信息，以及学生姓名

    studentScoresDF.registerTempTable("student_scores")

    val goodStudentScoresDF = sqlContext.sql("select name,score from student_scores where score>=80")

    val goodStudentNames = goodStudentScoresDF.rdd.map { row => row(0) }.collect()  

    // 创建学生基本信息DataFrame

    val studentInfoJSONs = Array("{\"name\":\"Leo\", \"age\":18}",

        "{\"name\":\"Marry\", \"age\":17}",

        "{\"name\":\"Jack\", \"age\":19}")

    val studentInfoJSONsRDD = sc.parallelize(studentInfoJSONs, 3);

    val studentInfosDF = sqlContext.read.json(studentInfoJSONsRDD)  

    // 查询分数大于80分的学生的基本信息

    studentInfosDF.registerTempTable("student_infos")

    var sql = "select name,age from student_infos where name in ("

    for(i <- 0 until goodStudentNames.length) {

      sql += "'" + goodStudentNames(i) + "'"

      if(i < goodStudentNames.length - 1) {

        sql += ","

      }

    }

    sql += ")"  

    val goodStudentInfosDF = sqlContext.sql(sql)

    // 将分数大于80分的学生的成绩信息与基本信息进行join

    val goodStudentsRDD =

        goodStudentScoresDF.rdd.map { row => (row.getAs[String]("name"), row.getAs[Long]("score")) }

            .join(goodStudentInfosDF.rdd.map { row => (row.getAs[String]("name"), row.getAs[Long]("age")) })  

    // 将rdd转换为dataframe

    val goodStudentRowsRDD = goodStudentsRDD.map(

        info => Row(info._1, info._2._1.toInt, info._2._2.toInt))  

    val structType = StructType(Array(

        StructField("name", StringType, true),

        StructField("score", IntegerType, true),

        StructField("age", IntegerType, true)))  

    val goodStudentsDF = sqlContext.createDataFrame(goodStudentRowsRDD, structType)  

    // 将dataframe中的数据保存到json中

    goodStudentsDF.write.format("json").save("hdfs://spark1:9000/spark-study/good-students-scala")

  }

}

40、JSON数据源综合案例实战的更多相关文章

（升级版）Spark从入门到精通（Scala编程、案例实战、高级特性、Spark内核源码剖析、Hadoop高端）
本课程主要讲解目前大数据领域最热门.最火爆.最有前景的技术——Spark.在本课程中,会从浅入深,基于大量案例实战,深度剖析和讲解Spark,并且会包含完全从企业真实复杂业务需求中抽取出的案例实战.课 ...
数据仓库009 - SQL命令实战 - where GROUP BY join 部门综合案例
一.where条件 WHERE 子句中主要的运算符,可以在 WHERE 子句中使用,如下表: 运算符描述 = 等于 <> 不等于.注释:在 SQL 的一些版本中,该操作符可被写成 != ...
5. vue常用高阶函数及综合案例
一. 常用的数组的高阶函数假设, 现在有一个数组, 我们要对数组做如下一些列操作 1. 找出小于100的数字: 2. 将小于100的数字, 全部乘以2: 3. 在2的基础上, 对所有数求和: 通常我 ...
java设计模式综合项目实战视频教程
java设计模式综合项目实战视频教程视频课程目录如下: 第01节课:本课程整体内容介绍:X-gen系统概况,包括:引入.X-gen项目背景.X-gen的HelloWorld第02节课:X-gen整体 ...
15套java架构师大型分布式综合项目实战、千万高并发-视频教程
* { font-family: "Microsoft YaHei" !important } h1 { color: #FF0 } 15套java架构师.集群.高可用.高可扩展 ...
jquery-easyUI第二篇【综合案例】
基于easyUI开发的一个综合案例模版 <%@ page language="java" pageEncoding="UTF-8"%> <!D ...
kafka关于修改副本数和分区的数的案例实战（也可用作leader节点均衡案例）
kafka关于修改副本数和分区的数的案例实战(也可用作leader节点均衡案例) 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.关于topic分区数的修改 1>.创建1分 ...
Ext.js入门：常用组件与综合案例（七）
一:datefield简单示例二:timefield简单示例三:numberfield简单示例四:FormPanel提交 datefield简单示例: <html xmlns=&quo ...
Java------------JVM（Java虚拟机）优化大全和案例实战
JVM(Java虚拟机)优化大全和案例实战堆内存设置原理 JVM堆内存分为2块:Permanent Space 和 Heap Space. Permanent 即持久代(Permanent Ge ...

随机推荐

cocos版本说明
一直知道cocos是做游戏的,想学习一下,结果去官网一看就懵逼了.Cocos Creator,Cocos2d-x,cocos studio,Cocos2d-js,Cocos2d-x-lua,那一种才是 ...
(七) Docker 部署 MySql8.0 一主一从高可用集群
参考并感谢官方文档 https://hub.docker.com/_/mysql y0ngb1n https://www.jianshu.com/p/0439206e1f28 vito0319 ht ...
img中alt和title属性的区别
在图像标签img中,除了常用的宽度width和高度height属性之外,还有两个比较重要并且也会用到的属性,就是alt和title,这都是用来显示图片内容的具体信息的,但是这两个属性也有不同的地方.a ...
HTML—链接
怎么看都觉得链接太神奇了,尤其是创建电子邮件的链接,于是决定单独写一篇关于HTML链接的内容,同时加深记忆一.首先,超链接可以是一个字,一个词,或者一组词,也可以是一幅图像,通过点击这些内容来跳转到 ...
FreeRTOS任务状态信息查询
uxTaskPriorityGet():查询某个任务的优先级 vTaskPrioritySet():改变某个任务的任务优先级 uxTaskGetSystemState():获取系统中任务状态 vTas ...
UCOSIII内建消息队列
使能内建消息队列将OS_CFG_TASK_Q_EN置1 API函数 #if OS_CFG_TASK_Q_EN > 0u //删除 OS_MSG_QTY OSTaskQFlush (OS_TCB ...
JSP页面嵌套c:forEach
做java web项目有时候会需要在页面使用嵌套<c:forEach>遍历一个List,但是嵌套很容易忽略一些东西导致出错后台代码: List<Map<String, Obj ...
uc/xi
一个较为通用的定义为:嵌入式系统是对对象进行自动控制而使其具有智能化并可嵌入对象体系统中的专用计算机系统. 实时性:目前,嵌入式系统广泛应用于生产过程控制.数据采集.传输通信等场合,这些应用的共同特点 ...
mysql学习之基础篇08 UTF8编码
这次我们来说一下在Mysql中的编码问题: 我们知道应用于计算机的最早的字符集是ASCII,它所组成的编码是ASCII编码:由于对于其他国家来说它所容纳的字符个数比较少,后来就出现了ANSI字符集,它 ...
InteiiJ IDEA中如何制定制定哪一个配置文件
项目下有好些application.property文件彼此之间也不是什么从application.property中指定dev就去对应dev的关系就想用我本地的数据库于是添加了一个appl ...

40、JSON数据源综合案例实战

40、JSON数据源综合案例实战的更多相关文章

随机推荐

热门专题