SQL操作Spark SQL--BasicSQLTestt

object BasicSQLTest {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession

      .builder()

      .appName("BasicSQLTest")

      .getOrCreate()

    val sessionDf = spark.read.parquet(s"${BASE_PATH}/trackerSession")

    sessionDf.printSchema()

    sessionDf.createOrReplaceTempView("trackerSession")

    //查询所有记录

    val sessionRecords = spark.sql("select * from trackerSession")

    sessionRecords.show()

    //过滤

    val filterSession =

      spark.sql("select distinct(cookie) from trackerSession where cookie_label = '固执'")

    filterSession.show()

    //先join， 然后再分组SQL

    val logDf = spark.read.parquet(s"${BASE_PATH}/trackerLog")

    logDf.printSchema()

    logDf.createOrReplaceTempView("trackerLog")

    val sql =

      """select tl.url, count(*) from trackerLog tl join trackerSession ts on tl.cookie = ts.cookie

        | where ts.cookie_label = '固执' and tl.log_type='pageview'

        | group by tl.url

        | order by tl.url desc

      """.stripMargin

    spark.sql(sql).show(false)

    //函数(内置函数)

    //单行函数

    spark.sql("select session_server_time, " +

      "hour(session_server_time) as hour from trackerSession").show(false)

    spark.sql("select click_count, cookie_label, " +

      "concat(click_count, cookie_label) as c from trackerSession").show()

    //多行函数(聚合函数)

    val ccmDF = spark.sql("select max(click_count) as ccm from trackerSession")

    ccmDF.printSchema()

    ccmDF.show()

    //udf

    spark.udf.register("myUDF", (arg1: Int, arg2: String) => {

      if (arg1 > 1 && arg2.equals("固执")) {

        arg2 + arg1

      } else {

        arg2 + "less"

      }

    })

    spark.sql("select click_count, cookie_label, myUDF(click_count, cookie_label) " +

      "as c from trackerSession").show()

    spark.stop()

  }

}

SQL操作Spark SQL--BasicSQLTestt的更多相关文章

SQL操作Spark SQL--CatalogApiTest
object CatalogApiTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() ...
Spark SQL 之 Data Sources
#Spark SQL 之 Data Sources 转载请注明出处:http://www.cnblogs.com/BYRans/ 数据源(Data Source) Spark SQL的DataFram ...
【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...
Spark SQL 官方文档-中文翻译
Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 Data ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...
Spark官方1 ---------Spark SQL和DataFrame指南（1.5.0）
概述 Spark SQL是用于结构化数据处理的Spark模块.它提供了一个称为DataFrames的编程抽象,也可以作为分布式SQL查询引擎. Spark SQL也可用于从现有的Hive安装中读取数据 ...
Spark SQL数据源
[TOC] 背景 Spark SQL是Spark的一个模块,用于结构化数据的处理. ++++++++++++++ +++++++++++++++++++++ | SQL | | Dataset API ...
Spark SQL官方文档阅读--待完善
1,DataFrame是一个将数据格式化为列形式的分布式容器,类似于一个关系型数据库表. 编程入口:SQLContext 2,SQLContext由SparkContext对象创建也可创建一个功能更 ...

随机推荐

实用———springmvc接收参数校验
https://www.cnblogs.com/funyoung/p/8670550.html https://www.cnblogs.com/monkeydai/p/10068547.html He ...
intellij idea设置代码提示不区分大小写
https://blog.csdn.net/csm0401/article/details/86306417
Java多线程编程(4)--线程同步机制
一.锁 1.锁的概念线程安全问题的产生是因为多个线程并发访问共享数据造成的,如果能将多个线程对共享数据的并发访问改为串行访问,即一个共享数据同一时刻只能被一个线程访问,就可以避免线程安全问题.锁 ...
类的练习——python编程从入门到实践
9-1 餐馆:创建一个名为Restaurant的类,其方法__init__()设置两个属性:restaurant_name和cuisine_type.创建一个名为describe_restaurant ...
DRF框架（六）——三大认证组件之认证组件、权限组件
drf认证组件用户信息表 from django.db import models from django.contrib.auth.models import AbstractUser class ...
robotframework_百度登陆
** Settings *** Library Selenium2Library *** Test Cases *** login Open Browser https://www.baidu.com ...
nodeJs编写的简单服务器
一.简单的nodeJs写的 http 服务器 1.先Hello world,创建最简单的 Node 服务器(server.js) var http = require("http" ...
hystrix，request collapser，请求合并
多个商品,需要发送多次网络请求,调用多次接口,才能拿到结果可以使用HystrixCollapser将多个HystrixCommand合并到一起,多个command放在一个command里面去执行,发 ...
强大的Grafana k8s 插件
原文参考: https://i4t.com/4152.html 参考:https://blog.csdn.net/mailjoin/article/details/81389700 插件链接:http ...
Java之路---Day08
2019-10-22-22:28:39 目录 1.Static静态类 2.Static内存图 3.Static静态代码块 4.Arrays类 5.Math类 Static静态类一旦使用static修 ...

SQL操作Spark SQL--BasicSQLTestt

SQL操作Spark SQL--BasicSQLTestt的更多相关文章

随机推荐

热门专题