Spark SQL和CSl

1

import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}

object Demo1Sess {

  def main(args: Array[String]): Unit = {

    val spark: SparkSession = SparkSession.builder()

      .master("local")

      .appName("Demo1Sess")

    // 设置spark sql产生shuffle后默认的分区数 => 并行度

    // 默认是 200

      .config("spark.sql.shuffle.partitions",3)

      .getOrCreate()

    // 从SparkSession获取SparkContext

    //    val sc: SparkContext = spark.sparkContext

    // json中每条数据都自带结构 可以直接转换成DF

    val stuDF: DataFrame = spark

      .read

      .format("json")

      .load("spark/data/students.json")

    stuDF.show()  //默认显示20条

    // 文本类的数据 默认是没有列名的 直接读进来是 _c0 _c1 _c2 ......

    // 可以通过schema手动指定列名,空格隔开字段和字段类型

    val stucsDF: DataFrame = spark

      .read

      .format("csv")

      .schema("id String,name String,age Int,gender String,clazz String")

      .load("scala/data/students.txt")

    stucsDF.show()

    // 直接将DataFrame注册成临时视图view

    stucsDF.createOrReplaceTempView("stu")

    // sql的方式

    val ageDF: DataFrame = spark.sql("select * from stu where age=22")

    ageDF.show()

    // 同rdd一样，操作算子可以触发job

    // DSL 类SQL的方式 介于SQL和代码中间的API

    val dslDF: DataFrame = stucsDF.where("age=23")

      .select("name", "age", "clazz")

    dslDF.show()

    // 统计班级人数

    stucsDF.groupBy("clazz")

      .count()

      .write

      .mode(SaveMode.Overwrite)

      .save("spark/data/clazz_cnt")

    // 保存的时候可以指定SaveMode

    // Overwrite 覆盖

    // Append 追加

    // 默认以parquet形式保存

  }

}

2

import Practice.Student

import org.apache.spark.rdd.RDD

import org.apache.spark.sql.{DataFrame, Row, SaveMode, SparkSession}

object Demo2CreateDF {

  def main(args: Array[String]): Unit = {

    val spark: SparkSession = SparkSession.builder()

      .master("local")

      .appName("Demo2CreateDF")

      .config("spark.sql.shuffle.partitions", 3)

      .getOrCreate()

    /**

      * 1、读json数据

      */

    val jsonDF: DataFrame = spark.read

      .format("json")

      .load("spark/data/students.json")

    //    jsonDF.show() // 默认显示20条

    //    jsonDF.show(100) // 显示100条

    //    jsonDF.show(false) // 完全显示

//    jsonDF.show()

    /**

      * 2、读文本文件

      */

    val csvDF: DataFrame = spark.read

      .format("csv")

      //csv 格式读取默认是以逗号分隔

      .option("sep", ",")

      .schema("id String,name String,age Int,gender String,clazz String")

      .load("scala/data/students.txt")

//    csvDF.show()

    /**

      * 3、JDBC 读取MySQL的一张表转换成 Spark SQL中的DF

      */

    val jdbcDF: DataFrame = spark.read

      .format("jdbc")

      .option("url", "jdbc:mysql://master:3306/student")

      .option("dbtable", "student")

      .option("user", "root")

      .option("password", "123456")

      .load()

//    jdbcDF.show()

    // 将数据以parquet格式保存

//    jdbcDF

//      .write

//      .mode(SaveMode.Overwrite)

//      .parquet("spark/data/stu_parquet")

    /**

      * 4、读取parquet文件

      * 无法直接查看，默认会进行压缩，而且自带表结构，读取时不需要指定schema

      * 默认使用snappy压缩方式进行压缩

      */

    spark.read

      .format("parquet")

      .load("spark/data/stu_parquet")

//      .show()

    // 将数据以orc格式保存

    //    jdbcDF.write.orc("spark/data/stu_orc")

    /**

      * 5、读取ORC格式的文件

      * 也会默认进行压缩，空间占用率最小，默认带有表结构，可以直接读取

      */

//    spark

//      .read

//      .format("orc")

//      .load("spark/data/stu_orc")

    /**

      * 6、从RDD构建DF

      */

    val stuRDD: RDD[String] = spark.sparkContext.textFile("scala/data/students.txt")

    val stuRDD2: RDD[Student] = stuRDD.map(line => {

      val splits: Array[String] = line.split(",")

      val id: String = splits(0)

      val name: String = splits(1)

      val age: String = splits(2)

      val gender: String = splits(3)

      val clazz: String = splits(4)

      Student(id, name, age, gender, clazz)

    })

    // 导入隐式转换

    import spark.implicits._

    val sDF: DataFrame = stuRDD2.toDF()

    sDF.show()

    // DataFrame to RDD

    val rdd: RDD[Row] = sDF.rdd

    rdd.foreach(row=>{

      val id: String = row.getAs[String]("id")

      val name: String = row.getAs[String]("name")

      println(s"$id,$name")

    })

  }

  case class Student(id:String,name:String,age: String, gender: String, clazz: String)

}

3

import org.apache.spark.sql.{DataFrame, SparkSession}

object DFapi {

  def main(args: Array[String]): Unit = {

    val spark: SparkSession = SparkSession.builder()

      .master("local")

      .appName("DFapi")

      .config("spark.sql.shuffle.partitions", 2)

      .getOrCreate()

    import spark.implicits._

    val stuDF: DataFrame = spark.read

      .format("csv")

      .option("sep", ",")

      .schema("id String,name String,age String,gender String,clazz String")

      .load("scala/data/students.txt")

    // 对多次使用的DF也可进行cache

    stuDF.cache()

    // 过滤 where

    // 过滤出 年龄 大于 23的学生

    // DSL

    // 字符串表达式

    stuDF.where("age>23")

    // 列表达式 （推荐）,需要先导入隐式转换

    stuDF.where($"age" > 23)

    // 使用filter加函数的方式进行过滤

    stuDF.filter(row => {

      val age: String = row.getAs[String]("age")

      if (age.toInt > 23) {

        true

      }

      else {

        false

      }

    })

    // select

    stuDF.select($"id", $"name", $"age" + 100 as "newage")

    // 分组 groupBy

    // 聚合

    // 统计班级人数

    stuDF.groupBy($"clazz")

      .count().show()

    // 导入所有的sql函数

    import org.apache.spark.sql.functions._

    // 统计每个班的性别人数

    stuDF.groupBy($"clazz", $"gender")

      .agg(count($"gender"))

      .show()

    // 统计班级人数（数据可能有重复）

    stuDF.groupBy($"clazz")

      .agg(countDistinct($"id") as "去重人数")

      .show()

    // SQL 的方式

    stuDF.createOrReplaceTempView("stu")

    spark.sql(

      """

        |select clazz,count(distinct id)

        |from stu

        |group by clazz

      """.stripMargin

    ).show()

    // join

    val scoreDF: DataFrame = spark.read

      .format("csv")

      .schema("sid String,sub_id String,score Int")

      .load("scala/data/score.txt")

    // 当两张表的关联字段名字一样时

    // 在这里直接指定 "id"  默认是inner join

    //      .join(scoreDF, "id")

    // 可以将 "id" 放入 List 传入 再指定关联类型

    //      .join(scoreDF, List("id"), "left")

    // 如果 关联字段不一样

    stuDF.join(scoreDF,$"id"===$"sid","left").show()

    stuDF.unpersist()

  }

}

4

import org.apache.spark.sql.{DataFrame, SparkSession}

object DianXin {

  def main(args: Array[String]): Unit = {

    val spark: SparkSession = SparkSession.builder()

      .master("local")

      .appName("DianXin")

      .config("spark.sql.shuffle.partitions", 2)

      .getOrCreate()

    val dxDF: DataFrame = spark.read

      .format("csv")

      .option("sep", ",")

      .schema("mdn String,grid_id String,city_id String,county_id String,t String,start_time String,end_time String,date String")

      .load("spark/data/dianxin_data")

    // 导入隐式转换

    import spark.implicits._

    // 导入Spark SQL中所有的函数

    import org.apache.spark.sql.functions._

    // 按城市统计每个区县的游客人数top3

    dxDF.createOrReplaceTempView("dx")

    spark.sql(

      """

        |select tt1.city_id,tt1.county_id,tt1.sum,tt1.rk

        |from

        |(select t1. city_id,t1.county_id,t1.sum,row_number() over (partition by county_id order by t1.sum desc) as rk

        |from

        |(select  city_id,county_id,count(distinct mdn) as sum

        |from

        |dx

        |group by city_id,county_id) t1) tt1

        |where tt1.rk<3

        |

      """.stripMargin

    ).show()

  }

}

Spark SQL和CSl的更多相关文章

Spark SQL 之 Data Sources
#Spark SQL 之 Data Sources 转载请注明出处:http://www.cnblogs.com/BYRans/ 数据源(Data Source) Spark SQL的DataFram ...
Spark SQL 之 DataFrame
Spark SQL 之 DataFrame 转载请注明出处:http://www.cnblogs.com/BYRans/ 概述(Overview) Spark SQL是Spark的一个组件,用于结构化 ...
【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...
Spark SQL Example
Spark SQL Example This example demonstrates how to use sqlContext.sql to create and load a table ...
通过Spark SQL关联查询两个HDFS上的文件操作
order_created.txt 订单编号订单创建时间 -- :: -- :: -- :: -- :: -- :: order_picked.txt 订单编号订单提取时间 -- :: ...
Spark SQL 之 Migration Guide
Spark SQL 之 Migration Guide 支持的Hive功能转载请注明出处:http://www.cnblogs.com/BYRans/ Migration Guide 与Hive的兼 ...
Spark SQL 官方文档-中文翻译
Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 Data ...
Spark SQL 之 Performance Tuning & Distributed SQL Engine
Spark SQL 之 Performance Tuning & Distributed SQL Engine 转载请注明出处:http://www.cnblogs.com/BYRans/ 缓 ...

随机推荐

python 定义函数关键字def 简单介绍
一在类中定义的def # python中def 是用来干什么的? # 可以定义函数,就是定义一个功能. class People(): def __init__(self): print(&quo ...
「BalkanOI 2018 Day1」Minmaxtree
「BalkanOI 2018 Day1」Minmaxtree 每个点都有一个最大和最小权值的限制. 然后每一个权值的限制都必须要取到. 每个点显然可以直接让他取到最大或最小权值. 可以想到每个点匹配一 ...
Angular中$broadcast和$emit的使用方法
要在控制器之间传递变量变化需要使用angular中的$broadcast和$emit方法来传递,同时使用$on来接收事件并作出响应. broadcast译为广播,即上级传递下级. 示例代码: < ...
生成"cmd.exe"错误
转载请注明来源:https://www.cnblogs.com/hookjc/ 在VC2005里打开"工具"菜单,选择"选项",打开"选项" ...
git 撤销，放弃本地修改，放弃已提交修改
一, 未使用 git add 缓存代码时. 可以使用 git checkout -- filepathname (比如: git checkout -- readme.md ,不要忘记中间的 &quo ...
编写PHP扩展
转载请注明来源:https://www.cnblogs.com/hookjc/ PHP 5.2 环境的扩展(PHP Extension) 需求:比如开发一个叫做 heiyeluren 的扩展,扩展里 ...
java中静态代码块初始化顺序
(一)java 静态代码块静态方法区别一般情况下,如果有些代码必须在项目启动的时候就执行的时候,需要使用静态代码块,这种代码是主动执行的;需要在项目启动的时候就初始化,在不创建对象的情况下, ...
源码推荐 VVebo剥离的TableView绘制
源码推荐 VVebo剥离的TableView绘制 https://github.com/johnil/VVeboTableViewDemo 此项目由VVebo剥离,希望你能通过这个demo看到我是如何 ...
【CF888G】Xor-MST(生成树 Trie)
题目链接大意给出$N$个点的点权,定义两个点之间的边权为这两个点权的异或和,求这$N$个点间的最小生成树. 思路贪心地想,相连的两个点异或和应当尽量的小. 那么应先从高位确定,因为高位的 ...
LNMP 架构与部署 uwsgi 服务
内容概要 nginx 配置文件中 location 匹配符号 LNMP 架构 uwsgi 服务部署内容详细一.location 使用 Nginx Location 可以控制访问网站的路径,但一个 ...

Spark SQL和CSl

1

2

3

4

Spark SQL和CSl的更多相关文章

随机推荐

热门专题