40、JSON数据源综合案例实战

一、JSON数据源综合案例实战

1、概述

Spark SQL可以自动推断JSON文件的元数据，并且加载其数据，创建一个DataFrame。可以使用SQLContext.read.json()方法，针对一个元素类型为String的RDD，或者是一个JSON文件。

但是要注意的是，这里使用的JSON文件与传统意义上的JSON文件是不一样的。每行都必须，也只能包含一个，单独的，自包含的，有效的JSON对象。不能让一个JSON对象分散在多行。否则会报错。

###

综合性复杂案例：查询成绩为80分以上的学生的基本信息与成绩信息

students.json

{"name":"Leo", "score":85}

{"name":"Marry", "score":99}

{"name":"Jack", "score":74}

2、java案例实现

package cn.spark.study.sql;

import java.util.ArrayList;

import java.util.List;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.sql.DataFrame;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.RowFactory;

import org.apache.spark.sql.SQLContext;

import org.apache.spark.sql.types.DataTypes;

import org.apache.spark.sql.types.StructField;

import org.apache.spark.sql.types.StructType;

import scala.Tuple2;

/**

 * JSON数据源

 * @author Administrator

 *

 */

public class JSONDataSource {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf()

                .setAppName("JSONDataSource");

        JavaSparkContext sc = new JavaSparkContext(conf);

        SQLContext sqlContext = new SQLContext(sc);

        // 针对json文件，创建DataFrame（针对json文件创建DataFrame）

        DataFrame studentScoresDF = sqlContext.read().json(

                "hdfs://spark1:9000/spark-study/students.json");  

        // 针对学生成绩信息的DataFrame，注册临时表，查询分数大于80分的学生的姓名

        // （注册临时表，针对临时表执行sql语句）

        studentScoresDF.registerTempTable("student_scores");

        DataFrame goodStudentScoresDF = sqlContext.sql(

                "select name,score from student_scores where score>=80");

        // （将DataFrame转换为rdd，执行transformation操作）

        List<String> goodStudentNames = goodStudentScoresDF.javaRDD().map(

                new Function<Row, String>() {

                    private static final long serialVersionUID = 1L;

                    @Override

                    public String call(Row row) throws Exception {

                        return row.getString(0);

                    }

                }).collect();

        // 然后针对JavaRDD<String>，创建DataFrame

        // （针对包含json串的JavaRDD，创建DataFrame）

        List<String> studentInfoJSONs = new ArrayList<String>();

        studentInfoJSONs.add("{\"name\":\"Leo\", \"age\":18}");

        studentInfoJSONs.add("{\"name\":\"Marry\", \"age\":17}");

        studentInfoJSONs.add("{\"name\":\"Jack\", \"age\":19}");

        JavaRDD<String> studentInfoJSONsRDD = sc.parallelize(studentInfoJSONs);

        DataFrame studentInfosDF = sqlContext.read().json(studentInfoJSONsRDD);

        // 针对学生基本信息DataFrame，注册临时表，然后查询分数大于80分的学生的基本信息

        studentInfosDF.registerTempTable("student_infos");  

        String sql = "select name,age from student_infos where name in (";

        for(int i = 0; i < goodStudentNames.size(); i++) {

            sql += "'" + goodStudentNames.get(i) + "'";

            if(i < goodStudentNames.size() - 1) {

                sql += ",";

            }

        }

        sql += ")";

        DataFrame goodStudentInfosDF = sqlContext.sql(sql);

        // 然后将两份数据的DataFrame，转换为JavaPairRDD，执行join transformation

        // （将DataFrame转换为JavaRDD，再map为JavaPairRDD，然后进行join）

        JavaPairRDD<String, Tuple2<Integer, Integer>> goodStudentsRDD = 

                goodStudentScoresDF.javaRDD().mapToPair(new PairFunction<Row, String, Integer>() {

                    private static final long serialVersionUID = 1L;

                    @Override

                    public Tuple2<String, Integer> call(Row row) throws Exception {

                        return new Tuple2<String, Integer>(row.getString(0),

                                Integer.valueOf(String.valueOf(row.getLong(1))));

                    }

                }).join(goodStudentInfosDF.javaRDD().mapToPair(new PairFunction<Row, String, Integer>() {

                    private static final long serialVersionUID = 1L;

                    @Override

                    public Tuple2<String, Integer> call(Row row) throws Exception {

                        return new Tuple2<String, Integer>(row.getString(0),

                                Integer.valueOf(String.valueOf(row.getLong(1))));

                    }

                }));

        // 然后将封装在RDD中的好学生的全部信息，转换为一个JavaRDD<Row>的格式

        // （将JavaRDD，转换为DataFrame）

        JavaRDD<Row> goodStudentRowsRDD = goodStudentsRDD.map(

                new Function<Tuple2<String,Tuple2<Integer,Integer>>, Row>() {

                    private static final long serialVersionUID = 1L;

                    @Override

                    public Row call(

                            Tuple2<String, Tuple2<Integer, Integer>> tuple)

                            throws Exception {

                        return RowFactory.create(tuple._1, tuple._2._1, tuple._2._2);

                    }

                });

        // 创建一份元数据，将JavaRDD<Row>转换为DataFrame

        List<StructField> structFields = new ArrayList<StructField>();

        structFields.add(DataTypes.createStructField("name", DataTypes.StringType, true));

        structFields.add(DataTypes.createStructField("score", DataTypes.IntegerType, true));

        structFields.add(DataTypes.createStructField("age", DataTypes.IntegerType, true));

        StructType structType = DataTypes.createStructType(structFields);

        DataFrame goodStudentsDF = sqlContext.createDataFrame(goodStudentRowsRDD, structType);

        // 将好学生的全部信息保存到一个json文件中去

        // （将DataFrame中的数据保存到外部的json文件中去）

        goodStudentsDF.write().format("json").save("hdfs://spark1:9000/spark-study/good-students");

    }

}

####

students.json

{"name":"Leo", "score":85}

{"name":"Marry", "score":99}

{"name":"Jack", "score":74}

3、scala案例实现

package cn.spark.study.sql

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.sql.SQLContext

import org.apache.spark.sql.types.StructType

import org.apache.spark.sql.types.StructField

import org.apache.spark.sql.types.StringType

import org.apache.spark.sql.types.IntegerType

import org.apache.spark.sql.Row

import org.apache.spark.sql.types.LongType

/**

 * @author Administrator

 */

object JSONDataSource {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

        .setAppName("JSONDataSource")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    // 创建学生成绩DataFrame

    val studentScoresDF = sqlContext.read.json("hdfs://spark1:9000/spark-study/students.json")

    // 查询出分数大于80分的学生成绩信息，以及学生姓名

    studentScoresDF.registerTempTable("student_scores")

    val goodStudentScoresDF = sqlContext.sql("select name,score from student_scores where score>=80")

    val goodStudentNames = goodStudentScoresDF.rdd.map { row => row(0) }.collect()  

    // 创建学生基本信息DataFrame

    val studentInfoJSONs = Array("{\"name\":\"Leo\", \"age\":18}",

        "{\"name\":\"Marry\", \"age\":17}",

        "{\"name\":\"Jack\", \"age\":19}")

    val studentInfoJSONsRDD = sc.parallelize(studentInfoJSONs, 3);

    val studentInfosDF = sqlContext.read.json(studentInfoJSONsRDD)  

    // 查询分数大于80分的学生的基本信息

    studentInfosDF.registerTempTable("student_infos")

    var sql = "select name,age from student_infos where name in ("

    for(i <- 0 until goodStudentNames.length) {

      sql += "'" + goodStudentNames(i) + "'"

      if(i < goodStudentNames.length - 1) {

        sql += ","

      }

    }

    sql += ")"  

    val goodStudentInfosDF = sqlContext.sql(sql)

    // 将分数大于80分的学生的成绩信息与基本信息进行join

    val goodStudentsRDD =

        goodStudentScoresDF.rdd.map { row => (row.getAs[String]("name"), row.getAs[Long]("score")) }

            .join(goodStudentInfosDF.rdd.map { row => (row.getAs[String]("name"), row.getAs[Long]("age")) })  

    // 将rdd转换为dataframe

    val goodStudentRowsRDD = goodStudentsRDD.map(

        info => Row(info._1, info._2._1.toInt, info._2._2.toInt))  

    val structType = StructType(Array(

        StructField("name", StringType, true),

        StructField("score", IntegerType, true),

        StructField("age", IntegerType, true)))  

    val goodStudentsDF = sqlContext.createDataFrame(goodStudentRowsRDD, structType)  

    // 将dataframe中的数据保存到json中

    goodStudentsDF.write.format("json").save("hdfs://spark1:9000/spark-study/good-students-scala")

  }

}

40、JSON数据源综合案例实战的更多相关文章

（升级版）Spark从入门到精通（Scala编程、案例实战、高级特性、Spark内核源码剖析、Hadoop高端）
本课程主要讲解目前大数据领域最热门.最火爆.最有前景的技术——Spark.在本课程中,会从浅入深,基于大量案例实战,深度剖析和讲解Spark,并且会包含完全从企业真实复杂业务需求中抽取出的案例实战.课 ...
数据仓库009 - SQL命令实战 - where GROUP BY join 部门综合案例
一.where条件 WHERE 子句中主要的运算符,可以在 WHERE 子句中使用,如下表: 运算符描述 = 等于 <> 不等于.注释:在 SQL 的一些版本中,该操作符可被写成 != ...
5. vue常用高阶函数及综合案例
一. 常用的数组的高阶函数假设, 现在有一个数组, 我们要对数组做如下一些列操作 1. 找出小于100的数字: 2. 将小于100的数字, 全部乘以2: 3. 在2的基础上, 对所有数求和: 通常我 ...
java设计模式综合项目实战视频教程
java设计模式综合项目实战视频教程视频课程目录如下: 第01节课:本课程整体内容介绍:X-gen系统概况,包括:引入.X-gen项目背景.X-gen的HelloWorld第02节课:X-gen整体 ...
15套java架构师大型分布式综合项目实战、千万高并发-视频教程
* { font-family: "Microsoft YaHei" !important } h1 { color: #FF0 } 15套java架构师.集群.高可用.高可扩展 ...
jquery-easyUI第二篇【综合案例】
基于easyUI开发的一个综合案例模版 <%@ page language="java" pageEncoding="UTF-8"%> <!D ...
kafka关于修改副本数和分区的数的案例实战（也可用作leader节点均衡案例）
kafka关于修改副本数和分区的数的案例实战(也可用作leader节点均衡案例) 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.关于topic分区数的修改 1>.创建1分 ...
Ext.js入门：常用组件与综合案例（七）
一:datefield简单示例二:timefield简单示例三:numberfield简单示例四:FormPanel提交 datefield简单示例: <html xmlns=&quo ...
Java------------JVM（Java虚拟机）优化大全和案例实战
JVM(Java虚拟机)优化大全和案例实战堆内存设置原理 JVM堆内存分为2块:Permanent Space 和 Heap Space. Permanent 即持久代(Permanent Ge ...

随机推荐

Luogu3214 HNOI2011 卡农组合、DP
传送门火题qwq 我们需要求的是满足元素个数为\(M\).元素取值范围为\([1,2^n-1]\).元素异或和为\(0\)的集合的数量. 首先我们可以计算元素有序的方案数(即计算满足这些条件的序列的 ...
分享大麦UWP版本开发历程-02.内容“高度/宽度”不同的列表展示
一个成型的产品,肯定是经过了产品经理出的UE,美工设计的UI,最终到我们手里Coding,这里面最少3个人,最多就不知道会有多少人参与了.每个人脑子想的都是不一样的,我就不粘贴那个“XX眼中的XX”那 ...
nginx-rtmp之直播视频流的推送
一.RTMP是Real Time Messaging Protocol(实时消息传输协议)的首字母缩写.该协议基于TCP,是一个协议族,包括RTMP基本协议及RTMPT/RTMPS/RTMPE等多种变 ...
[转]HTTP Error 500.21 - Internal Server Error Handler "ExtensionlessUrlHandler-Integrated-4.0" has a bad module "ManagedPipelineHandler" in its module list
1.错误 HTTP Error 500.21 - Internal Server Error Handler "ExtensionlessUrlHandler-Integrated-4.0& ...
ADO.NET 八（一个例子）
可视化方式绑定 DataGridView 控件(写的不详细,结合上一篇) 使用可视化数据绑定方式可以快速完成将数据表中的数据显示在 DataGridView 控件中的操作,并可以很容易地对绑定列的属性 ...
设置body样式问题
如果我给body设置成一个宽高为200px的正方形,背景为红色,但是整个html也变成了红色,而且是整个浏览器屏幕都是红的,怎么来处理,如下给html单独设置一个背景颜色,比如为白色#fff,在给b ...
js两个变量互换值
js两个变量交换值这个问题看似很基础,但是有很多的实现方式,你知道的有多少呢,网上也有很多的方法,下面就来总结一下中间变量(临时变量) 临时变量其实很好理解,通过一个中间变量进行交换值 var s ...
智慧图携手DataPipeline，让实体商业更智慧!
近日,国内领先的实体商业数字化运营服务商智慧图携手DataPipeline,基于专业的数据集成与应用基础展开了合作. 未来DataPipeline将通过不断提升自身产品和服务实力,与智慧图一道致力于帮 ...
maven cmd 命令
1. mvn clean install :重新清理打包 2.详见:https://www.cnblogs.com/lukelook/p/11298168.html mvn versions:upd ...
删除Ubuntu的UEFI启动项
bcdedit 删除千万不要手贱用diskpart之类的命令直接删除文件夹,大写的没,有,用! 感谢这个视频的up主,youtube看不到请翻墙.https://www.youtube.com/wa ...

40、JSON数据源综合案例实战

40、JSON数据源综合案例实战的更多相关文章

随机推荐

热门专题