一个spark SQL和DataFrames的故事

package com.lin.spark

import org.apache.spark.sql.{Row, SparkSession}

import org.apache.spark.sql.types.{StringType, StructField, StructType}

/**

  * Created by Yaooo on 2019/6/8.

  */

object SparkSQLExample {

  case class Person(name:String,age:Long)

  def main(args: Array[String]): Unit = {

    val spark = SparkSession

      .builder()

      .appName("Spark SQL")

      .config("spark.come.config.option","some-value")

        .master("local[2]")

      .getOrCreate()

    runBasicDataFrameExample(spark)

    runDatasetCreationExample(spark)

    runInferSchemaExample(spark)

    runProgrammaticSchemaExample(spark)

  }

  private def runProgrammaticSchemaExample(spark:SparkSession): Unit ={

    import spark.implicits._

    val personRDD = spark.sparkContext.textFile("src/main/resources/people.txt")

    val schemaString = "name age"

    val fields = schemaString.split(" ")

      .map(fieldName => StructField(fieldName, StringType, nullable = true))

    val schema = StructType(fields)

    val rowRDD = personRDD

      .map(_.split(","))

      .map(att => Row(att(0),att(1).trim))

    val peopleDF = spark.createDataFrame(rowRDD,schema)

    peopleDF.createOrReplaceTempView("people")

    val results = spark.sql("select * from people")

    results.map(att=>"Name : "+att(0)).show()

  }

  private def runInferSchemaExample(spark:SparkSession): Unit ={

    import spark.implicits._

    val personDF = spark.sparkContext

      .textFile("src/main/resources/people.txt")

      .map(_.split(","))

      .map(attributes => Person(attributes(0),attributes(1).trim.toInt))

      .toDF()

    personDF.createOrReplaceTempView("people")

    val teenagersDF = spark.sql("select * from people where age between 13 and 19")

    teenagersDF.show()

    teenagersDF.map(teenager =>"name: "+teenager(0)).show()

    teenagersDF.map(teenager => "Name: "+ teenager.getAs[String]("name")).show()

    implicit val mapEncoder = org.apache.spark.sql.Encoders.kryo[Map[String, Any]]

    teenagersDF.map(teenager => teenager.getValuesMap[Any](List("name","age"))).collect()

      .foreach(println)

  }

  private def runDatasetCreationExample(spark:SparkSession): Unit ={

    import spark.implicits._

    val caseClassDS = Seq(Person("Andy",18)).toDF()

    caseClassDS.show()

    val primitiveDS = Seq(1, 2, 3).toDS()

    primitiveDS.map(_+1).collect().foreach(println)

    val path = "src/main/resources/person.json"

    val personDS = spark.read.json(path).as[Person]

    personDS.show()

  }

  private def runBasicDataFrameExample(spark:SparkSession): Unit ={

    import spark.implicits._

    val df = spark.read.json("src/main/resources/person.json")

    df.show()

    df.printSchema()

    df.select("name").show()

    df.select($"name",$"age"+1).show()

    df.filter($"age">21).show()

    df.groupBy($"age").count().show()

    /*df.createOrReplaceTempView("people")

    val sqlDF = spark.sql("select * from people")

    sqlDF.show()*/

    df.createOrReplaceGlobalTempView("people")

    spark.sql("select * from global_temp.people").show()

  }

}

一个spark SQL和DataFrames的故事的更多相关文章

Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...
Spark SQL 之 Migration Guide
Spark SQL 之 Migration Guide 支持的Hive功能转载请注明出处:http://www.cnblogs.com/BYRans/ Migration Guide 与Hive的兼 ...
Spark SQL 官方文档-中文翻译
Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 Data ...
Spark SQL官方文档阅读--待完善
1,DataFrame是一个将数据格式化为列形式的分布式容器,类似于一个关系型数据库表. 编程入口:SQLContext 2,SQLContext由SparkContext对象创建也可创建一个功能更 ...
spark SQL （二）聚合
聚合内置功能DataFrames提供共同聚合,例如count(),countDistinct(),avg(),max(),min(),等.虽然这些功能是专为DataFrames,spark SQL还拥 ...
Spark1.0新特性-->Spark SQL
Spark1.0出来了,变化还是挺大的,文档比以前齐全了,RDD支持的操作比以前多了一些,Spark on yarn功能我居然跑通了.但是最最重要的就是多了一个Spark SQL的功能,它能对RDD进 ...
Spark SQL概念学习系列之如何使用 Spark SQL（六）
val sqlContext = new org.apache.spark.sql.SQLContext(sc) // 在这里引入 sqlContext 下所有的方法就可以直接用 sql 方法进行查询 ...

随机推荐

使用js实现图片轮滑效果
经常在购物网站,看到那种图片轮滑的效果,所以看到有人实现了,所以我也就学习下了. 首先贴出html代码: <!DOCTYPE html> <html lang="en&qu ...
部署Lighttpd到252板子
1.先到lighttpd官网下载对应版本的软件包: 如: lighttpd-1.4.30.tar.gz 2. 将压缩包解压到任意目录得到文件夹 lighttpd-1.4.30 3. 执行配置命令: ...
zabbix入门之配置邮件告警
zabbix入门之配置邮件告警邮件环境搭建使用本地邮箱账号发送邮件 zabbix-server 端安装 mailx .sendmail或者psotfix 服务,系统默认安装好了postfix #安 ...
日期格式化：SimpleDateFormat【线程不安全】、FastDateFormat和Joda-Time【后两个都是线程安全】
SimpleDateFormat是线程不安全的,不能多个线程公用.而FastDateFormat和Joda-Time都是线程安全的,可以放心使用. SimpleDateFormat是JDK提供的,不需 ...
java 字符串获取
package java07; /* String 当中与获取相关的常用方法 public int length(); 获取字符串当中含有的字符的个数,得到字符串的长度 public String c ...
javascript数组赋值操作的坑
描述:数组对象赋值,即arr1=[{},{},{}]这种数据结构的对象赋值,将arr1赋值给arr2:然后删除arr2里的元素一.最常用的= arr2 = arr1; detect(val) { l ...
java基础复习（二）
一. 基本语法如果一个源文件中什么内容都没有,编译会不会生成字节码文件?不会如果一个类中没有主方法(如下图),编译运行会怎么样?编译可以通过,但运行报错 : 没有主方法主方法 : 是一个特殊的 ...
Docker安装Kibana
原创转载请注明出处:https://www.cnblogs.com/agilestyle/p/11759137.html 拉取镜像 docker pull kibana: 创建用户自定义网络 dock ...
C#-弄懂泛型和协变、逆变
脑图概览泛型声明和使用协变和逆变 <C#权威指南>上在委托篇中这样定义: 协变:委托方法的返回值类型直接或者间接地继承自委托前面的返回值类型; 逆变:委托签名中的参数类型继承自委托方法 ...
TortoiseGit操作之提交代码到远程库
1.在本地代码库的文件夹中,"右键" 2.GIT提交要求必须填写Commit message,请认真填写描述信息. 建议填写的变更项编号,如上图. 代码提交到本地的配置库中,然后p ...

一个spark SQL和DataFrames的故事

一个spark SQL和DataFrames的故事的更多相关文章

随机推荐

热门专题