【大数据】0001---使用SparkSQL关联两个表求和取前几行

场景：

有两个表，表可以是文本或Json数据，结构化后分别是Table1(A，B，C）和Table2（C、D、E），两个表通过C关联，要求求出D+E之和，并以（A、B、D+E）三列返回

解答：

思路：SparkSQL支持读取Json创建表，同时创建的表可以做联合查询，类似传统Sql语句进行关联查询和统计分析

代码：

package study

import org.apache.spark.SparkContext

import org.apache.spark.sql.SparkSession

object TestDataFrame2{

  def main(args:Array[String]):Unit={

    import org.apache.spark.sql.SparkSession

    val spark = SparkSession

      .builder()

      .master("local[*]")

      .appName("Spark SQL basic example")

      .config("spark.some.config.option", "some-value")

      .getOrCreate()

    spark.sql("""create table table1 using org.apache.spark.sql.json options(path "F://0002_BigData//Soft//comoceanspark//src//resources//Table1.json")""")

    spark.sql("""create table table2 using org.apache.spark.sql.json options(path "F://0002_BigData//Soft//comoceanspark//src//resources//Table2.json")""")

    spark.sql("show tables").show()

    spark.sql("select A,B,(D+E) as DE from table1 inner join table2 on table1.C = table2.C order by DE desc limit 5").show()

  }

}

Table1.json：

{"A":"A1", "B":30, "C":1}

{"A":"A2", "B":31, "C":2}

{"A":"A3", "B":32, "C":3}

{"A":"A4", "B":33, "C":4}

{"A":"A5", "B":34, "C":5}

{"A":"A6", "B":35, "C":6}

{"A":"A7", "B":36, "C":7}

{"A":"A8", "B":37, "C":8}

{"A":"A9", "B":38, "C":9}

Table2.json：

{"C":1, "D":1, "E":1}

{"C":2, "D":2, "E":2}

{"C":3, "D":3, "E":3}

{"C":4, "D":4, "E":4}

{"C":5, "D":5, "E":5}

{"C":6, "D":6, "E":6}

{"C":7, "D":7, "E":7}

{"C":8, "D":8, "E":8}

{"C":9, "D":9, "E":9}

结果：

表显示

计算结果显示：

【大数据】0001---使用SparkSQL关联两个表求和取前几行的更多相关文章

mysql关联两张表时的编码问题
Mysql关联两张表时,产生错误提示Illegal mix of collations 1.先用工具把数据库.两张表的编码方式改变 2.这步很重要,需要改变字段的编码方式. ALTER TABLE ` ...
MySql多表关联，根据某列取前N条记录问题
近来遇到一个问题:“MySql多表关联,根据某列取前N条记录”. 刚开始一直在想,SQL语句是否可以做到直接查询出来,但几经折磨,还是没能写出SQL语句,-------如果有大牛的话,望指点迷津.我把 ...
SQL 关联两个表的视图总结
视图就是一条select查询语句,是一张虚拟表. table a , table b 以表a基表(a LEFT JOIN b) 1.1 当update view时更新view中表b字段并且表b ...
云计算与大数据实验：Hbase shell操作成绩表
[实验目的] 1)了解hbase服务 2)学会hbase shell命令操作成绩表 [实验原理] HBase是一个分布式的.面向列的开源数据库,它利用Hadoop HDFS作为其文件存储系统,利用Ha ...
查出了a表，然后对a表进行自查询，a表的别名t1，t2如同两张表，因为t1，t2查询的条件不一样，真的如同两张表，关联两张表，可以将两行或者多行数据合并成一行，不必使用wm_concat()函数。为了将t2表的数据全部查出来使用了右连接。
with a as( select nsr.zgswj_dm, count(distinct nsr.djxh) cnt, 1 z from hx_fp.fp_ly fp, hx_dj.dj_nsrx ...
SAP ABAP将大数据量排序后输入到内表
要向内表读入3百50万条数据,如果一次读入就会产生运行错误,错误提示为,没有内存对于扩展内表. 我考虑使用SELECT...INTO TABLE...PACKAGE SIZE 和ENDSELECT来 ...
云计算与大数据实验：Hbase shell操作用户表
[实验目的] 1)了解hbase服务 2)学会hbase shell命令操作用户表 [实验原理] HBase是一个分布式的.面向列的开源数据库,它利用Hadoop HDFS作为其文件存储系统,利用Ha ...
【转】C# Datatable排序与取前几行数据
转自:http://www.cnblogs.com/linyechengwei/archive/2010/06/14/1758337.html http://blog.csdn.net/smartsm ...
mysql取前几行数据limit用法
转自http://www.cnblogs.com/study100/archive/2013/07/30/3224250.html 在mysql中是没有top关键字的,在mysql中可以用limit来 ...

随机推荐

appium Ui自动化调起应用点击
appium Ui自动化调起微信并点击登录按钮的java代码(对的,就这么一丢丢). public class testWX { public static void main(String[] ar ...
《为什么说Redis是单线程的以及Redis为什么这么快！》
为什么说Redis是单线程的以及Redis为什么这么快! 一.前言近乎所有与Java相关的面试都会问到缓存的问题,基础一点的会问到什么是“二八定律”.什么是“热数据和冷数据”,复杂一点的会问到缓 ...
LG2444/BZOJ2938 「POI2000」病毒 AC自动机
问题描述 LG2444 BZOJ2938 I \(\mathrm{AC}\)自动机 \(\mathrm{AC}\)自动机是一种多模式串匹配算法,本萌新今天刚学了它qwq 约定在构造\(\mathrm{ ...
Python Beautiful Soup 4
Beautiful Soup 是一个灵活方便的网页解析库,利用它不用编写正则表达式即可方便地提取的网页信息官方文档:https://www.crummy.com/software/Beautiful ...
ESP8266 LUA脚本语言开发: 外设篇-串口
https://nodemcu.readthedocs.io/en/master/modules/uart/ 串口发送数据发送一个16进制到串口 uart.write(0, 0xaa) 注: 之所以 ...
PyQt5发布技巧：指定插件（plugins）路径
一般来说,发布后的应用程序要能正常使用必须设置插件路径的环境变量: cmd脚本: wmic ENVIRONMENT create name="QT_QPA_PLATFORM_PLUGIN_P ...
第四组团队Git现场编程实战
组员职责分工组员分工林涛(组长) 分配任务.整理数据.写博客童圣滔 UI界面制作林红莲 UI界面制作潘雨佳测评出福州最受欢迎的商圈于瀚翔测评出福州最受欢迎的商圈覃鸿浩测评出福州人 ...
HMM AND CRF
Structured Learning 4: Sequence Labeling:https://www.youtube.com/watch?v=o9FPSqobMys HMM crf 李宏毅老师讲的 ...
go modules包管理
记录一下go工程迁移go modules的过程. go mod golang从1.11版本之后引入了包管理-go mod,并通过环境变量GO111MODULE 设置: 默认GO111MODULE 为a ...
CentOS 7.6 安装htop
yum -y install epel-release.noarch yum -y install htop htop 上面左上角显示CPU.内存.交换区的使用情况,右边显示任务.负载.开机时间,下面 ...

【大数据】0001---使用SparkSQL关联两个表求和取前几行

【大数据】0001---使用SparkSQL关联两个表求和取前几行的更多相关文章

随机推荐

热门专题