一个spark SQL和DataFrames的故事

package com.lin.spark

import org.apache.spark.sql.{Row, SparkSession}

import org.apache.spark.sql.types.{StringType, StructField, StructType}

/**

  * Created by Yaooo on 2019/6/8.

  */

object SparkSQLExample {

  case class Person(name:String,age:Long)

  def main(args: Array[String]): Unit = {

    val spark = SparkSession

      .builder()

      .appName("Spark SQL")

      .config("spark.come.config.option","some-value")

        .master("local[2]")

      .getOrCreate()

    runBasicDataFrameExample(spark)

    runDatasetCreationExample(spark)

    runInferSchemaExample(spark)

    runProgrammaticSchemaExample(spark)

  }

  private def runProgrammaticSchemaExample(spark:SparkSession): Unit ={

    import spark.implicits._

    val personRDD = spark.sparkContext.textFile("src/main/resources/people.txt")

    val schemaString = "name age"

    val fields = schemaString.split(" ")

      .map(fieldName => StructField(fieldName, StringType, nullable = true))

    val schema = StructType(fields)

    val rowRDD = personRDD

      .map(_.split(","))

      .map(att => Row(att(0),att(1).trim))

    val peopleDF = spark.createDataFrame(rowRDD,schema)

    peopleDF.createOrReplaceTempView("people")

    val results = spark.sql("select * from people")

    results.map(att=>"Name : "+att(0)).show()

  }

  private def runInferSchemaExample(spark:SparkSession): Unit ={

    import spark.implicits._

    val personDF = spark.sparkContext

      .textFile("src/main/resources/people.txt")

      .map(_.split(","))

      .map(attributes => Person(attributes(0),attributes(1).trim.toInt))

      .toDF()

    personDF.createOrReplaceTempView("people")

    val teenagersDF = spark.sql("select * from people where age between 13 and 19")

    teenagersDF.show()

    teenagersDF.map(teenager =>"name: "+teenager(0)).show()

    teenagersDF.map(teenager => "Name: "+ teenager.getAs[String]("name")).show()

    implicit val mapEncoder = org.apache.spark.sql.Encoders.kryo[Map[String, Any]]

    teenagersDF.map(teenager => teenager.getValuesMap[Any](List("name","age"))).collect()

      .foreach(println)

  }

  private def runDatasetCreationExample(spark:SparkSession): Unit ={

    import spark.implicits._

    val caseClassDS = Seq(Person("Andy",18)).toDF()

    caseClassDS.show()

    val primitiveDS = Seq(1, 2, 3).toDS()

    primitiveDS.map(_+1).collect().foreach(println)

    val path = "src/main/resources/person.json"

    val personDS = spark.read.json(path).as[Person]

    personDS.show()

  }

  private def runBasicDataFrameExample(spark:SparkSession): Unit ={

    import spark.implicits._

    val df = spark.read.json("src/main/resources/person.json")

    df.show()

    df.printSchema()

    df.select("name").show()

    df.select($"name",$"age"+1).show()

    df.filter($"age">21).show()

    df.groupBy($"age").count().show()

    /*df.createOrReplaceTempView("people")

    val sqlDF = spark.sql("select * from people")

    sqlDF.show()*/

    df.createOrReplaceGlobalTempView("people")

    spark.sql("select * from global_temp.people").show()

  }

}

一个spark SQL和DataFrames的故事的更多相关文章

Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...
Spark SQL 之 Migration Guide
Spark SQL 之 Migration Guide 支持的Hive功能转载请注明出处:http://www.cnblogs.com/BYRans/ Migration Guide 与Hive的兼 ...
Spark SQL 官方文档-中文翻译
Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 Data ...
Spark SQL官方文档阅读--待完善
1,DataFrame是一个将数据格式化为列形式的分布式容器,类似于一个关系型数据库表. 编程入口:SQLContext 2,SQLContext由SparkContext对象创建也可创建一个功能更 ...
spark SQL （二）聚合
聚合内置功能DataFrames提供共同聚合,例如count(),countDistinct(),avg(),max(),min(),等.虽然这些功能是专为DataFrames,spark SQL还拥 ...
Spark1.0新特性-->Spark SQL
Spark1.0出来了,变化还是挺大的,文档比以前齐全了,RDD支持的操作比以前多了一些,Spark on yarn功能我居然跑通了.但是最最重要的就是多了一个Spark SQL的功能,它能对RDD进 ...
Spark SQL概念学习系列之如何使用 Spark SQL（六）
val sqlContext = new org.apache.spark.sql.SQLContext(sc) // 在这里引入 sqlContext 下所有的方法就可以直接用 sql 方法进行查询 ...

随机推荐

参数化解决sql注入
用DynamicParameters: string where = " where a.is_deleted=0 and a.bvent_id=@bventId and au.user_t ...
elasticsearch 基础 —— Common Terms Query常用术语查询
常用术语查询该common术语查询是一个现代的替代提高了精确度和搜索结果的召回(采取禁用词进去),在不牺牲性能的禁用词. 问题查询中的每个术语都有成本.搜索"The brown fox& ...
RabbitMQ数据同步一致性解决方案
1.概述我们知道在使用RabbitMQ时,生产者将消息发布出去之后,消息是否顺利到达broker代理服务器呢?默认情况下发布操作没有任何信息返回给生产者,也就是生产者是不知道消息有没有顺利到达bro ...
day03 for循环、字符串方法、类型转换
01 上周内容回顾 while 条件: 循环体例: while True: print(111) print(222) print(333) 结束循环的两种方式: 1,改变条件. 2,break. ...
Git--07 Gitlab备份与恢复
目录 Gitlab备份与恢复 01). 备份 02). 恢复 Gitlab备份与恢复对gitlab进行备份将会创建一个包含所有库和附件的归档文件.对备份的恢复只能恢复到与备份时的gitlab相同 ...
[Luogu1821][USACO07FEB]银牛派对Silver Cow Party
由题意可知,我们需要求的是很多个点到同一个店的最短距离,然后再求同一个点到很多个点的最短距离. 对于后者我们很好解决,就是很经典的单源最短路径,跑一边dijkstra或者SPFA即可. 然而对于前者, ...
3.自定义返回json格式的数据给前台（自定义Controller类中的Json方法）
在mvc的项目中,我们前台做一些操作时,后台要返回一些结果给前台,这个时候我们就需要有一个状态来标识到底是什么类型的错误, 例如: 执行删除的时候,如果操作成功(1行受影响),我们需要返回状态为1并输 ...
【leetcode】564. Find the Closest Palindrome
题目如下: 解题思路:既然是要求回文字符串,那么最终的输出结果就是对称的.要变成对称字符串,只要把处于对称位置上对应的两个字符中较大的那个变成较小的那个即可,假设n=1234,1和4对称所以把4变成1 ...
CSS重置浏览器所有默认的样式
::-webkit-scrollbar-track-piece { width: 8px; height:8px; background-color: #f0f0f0; /* 背景色 */ } ::- ...
webpackES6语法转ES5语法
安装babel-loader: npm install --save-dev babel-loader@7 babel-core babel-preset-es2015 webpack.config. ...

一个spark SQL和DataFrames的故事

一个spark SQL和DataFrames的故事的更多相关文章

随机推荐

热门专题