spark 基本操作（二）

1.dataframe 基本操作

 def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder()

      .appName("test")

      .master("local[*]")

      .getOrCreate()

    import spark.implicits._

    val people = spark.read.format("json").load("people.json")

    people.show()

    /*    +----+-------+

        | age|   name|

        +----+-------+

        |null|Michael|

          |  30|   Andy|

          |  19| Justin|

          +----+-------+   */

    people.printSchema()

    /*root

    |-- age: long (nullable = true)

    |-- name: string (nullable = true)*/

    people.select($"name").show()

    /*    +-------+

        |   name|

        +-------+

        |Michael|

        |   Andy|

        | Justin|

        +-------+*/

    people.select($"name", $"age".cast("string").as("age")).printSchema()

    /*    root

        |-- name: string (nullable = true)

        |-- age: string (nullable = true)*/

    people.select($"name", ($"age" + ).as("age")).show()

    /*    +-------+----+

        |   name| age|

        +-------+----+

        |Michael|null|

          |   Andy|  31|

          | Justin|  20|

          +-------+----+*/

    people.filter($"age" > ).show()

    //    +---+----+

    //    |age|name|

    //    +---+----+

    //    | 30|Andy|

    //      +---+----+

    people.groupBy("age").count().show()

    //    +----+-----+

    //    | age|count|

    //    +----+-----+

    //    |  19|    1|

    //      |null|    1|

    //      |  30|    1|

    //      +----+-----+

    spark.stop()

  }

2.用sql 访问dataframe

    val people = spark.read.format("json").load("people.json")

    people.createOrReplaceTempView("tb")

    spark.sql("select name,age from tb").show()

//    +-------+----+

//    |   name| age|

//    +-------+----+

//    |Michael|null|

//      |   Andy|  30|

//      | Justin|  19|

//      +-------+----+

3.创建dataset

    val ccDs = Seq(Person("jason",),Person("dong",)).toDS()

    ccDs.select("name").show()

    val pDs = Seq(,,).toDS()

    pDs.map(_+).show()

    pDs.printSchema()

4.反射推断模式

    val spark = SparkSession.builder()

      .appName("test")

      .master("local[*]")

      .getOrCreate()

    import spark.implicits._

    val sc = spark.sparkContext

    val peopleDF = sc.textFile("people.txt")

      .map(_.split(",", -))

      .map(arr => Person(arr().trim, arr().trim.toInt))

      .toDF().cache().createOrReplaceTempView("people")

    val teenagerDF = spark.sql("select * from  people where age between 13 and 15").cache()

    teenagerDF.map(t => "name :" + t()).show()

//    +-------------+

//    |        value|

//    +-------------+

//    |name :Michael|

//      +-------------+

    teenagerDF.map(t => "name:" + t.getAs[String]("name")).show()

//    +-------------+

//    |        value|

//    +-------------+

//    |name :Michael|

//      +-------------+

    implicit val mapEncoder = org.apache.spark.sql.Encoders.kryo[Map[String, Any]]

    teenagerDF.map(t => t.getValuesMap[Any](Seq("name", "age"))).collect().foreach(println)

//    +-------------+

//    |        value|

//    +-------------+

//    |name :Michael|

//      +-------------+

    spark.stop()

5.通过编程指定schema来创建DF

    val peopleRDD = sc.textFile("people.txt")

      .map(_.split(",", -))

      .map(arr => Row(arr().trim, arr().trim))

    val schemaString = "name age"

    val structfield = schemaString.split("\\s+")

      .map(a => StructField(a, StringType, true))

    val schema = StructType(structfield)

    val peopleDF = spark.createDataFrame(peopleRDD, schema)

    peopleDF.show()

//    +-------+---+

//    |   name|age|

//    +-------+---+

//    |Michael| 15|

//      |   Andy| 30|

//      | Justin| 19|

//      +-------+---+

6.直接从file执行sql

    spark.sql("select name,age from json.`people.json`").show()

//    +-------+----+

//    |   name| age|

//    +-------+----+

//    |Michael|null|

//      |   Andy|  30|

//      | Justin|  19|

//      +-------+----+

7.合并schema

    val squaresDF = spark.sparkContext.makeRDD( to ).map(i => (i, i * i)).toDF("value", "square")

    squaresDF.write.parquet("data/test_table/key=1")

    val cubesDF = spark.sparkContext.makeRDD( to ).map(i => (i, i * i * i)).toDF("value", "cube")

    cubesDF.write.parquet("data/test_table/key=2")

    val mergedDF = spark.read.option("mergeSchema", "true").parquet("data/test_table")

    mergedDF.printSchema()

//    root

//    |-- value: integer (nullable = true)

//    |-- square: integer (nullable = true)

//    |-- cube: integer (nullable = true)

//    |-- key: integer (nullable = true)

    mergedDF.show()

//    +-----+------+----+---+

//    |value|square|cube|key|

//    +-----+------+----+---+

//    |    4|    16|null|  1|

//      |    5|    25|null|  1|

//      |    9|  null| 729|  2|

//      |   10|  null|1000|  2|

//      |    1|     1|null|  1|

//      |    2|     4|null|  1|

//      |    3|     9|null|  1|

//      |    6|  null| 216|  2|

//      |    7|  null| 343|  2|

//      |    8|  null| 512|  2|

//      +-----+------+----+---+

8.dataframe 字符串拼接

    val squaresDF = spark.sparkContext.makeRDD( to ).map(i => (i, i * i)).toDF("value", "square")

    squaresDF.createOrReplaceTempView("vs")

    squaresDF.show()

    squaresDF.map{case Row(key:Int,value:Int)=>s"$key$value"}.toDF("vv").show()

    spark.sql("select concat(value,square) as vv from vs").show()

spark 基本操作（二）的更多相关文章

Spark（二）算子详解
目录 Spark(二)算子讲解一.wordcountcount 二.编程模型三.RDD数据集和算子的使用 Spark(二)算子讲解 @ 一.wordcountcount 基于上次的wordcoun ...
Arduboy基本操作(二)
Arduboy基本操作(二) 方向键控制物体移动 #include<Arduboy.h> Arduboy arduboy; int i,j; void setup() { arduboy. ...
分别使用Hadoop和Spark实现二次排序
零.序(注意本部分与标题无太大关系,可直接调至第一部分) 既然没用为啥会有序?原因不想再开一篇文章,来抒发点什么感想或者计划了,就在这里写点好了: 前些日子买了几本书,打算学习和研究大数据方面的知识, ...
spark的二次排序
通过scala实现二次排序 package _core.SortAndTopN import org.apache.spark.{SparkConf, SparkContext} /** * Auth ...
大数据入门第二十二天——spark（二）RDD算子（2）与spark其它特性
一.JdbcRDD与关系型数据库交互虽然略显鸡肋,但这里还是记录一下(点开JdbcRDD可以看到限制比较死,基本是鸡肋.但好在我们可以通过自定义的JdbcRDD来帮助我们完成与关系型数据库的交互.这 ...
大数据入门第二十二天——spark（二）RDD算子（1）
一.RDD概述 1.什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的 ...
Spark（二）CentOS7.5搭建Spark2.3.1分布式集群
一下载安装包 1 官方下载官方下载地址:http://spark.apache.org/downloads.html 2 安装前提 Java8 安装成功 zookeeper 安 ...
spark streaming (二)
一.基础核心概念 1.StreamingContext详解 (一) 有两种创建StreamingContext的方式: val conf = new SparkConf().s ...
spark 学习(二) RDD及共享变量
声明:本文基于spark的programming guide,并融合自己的相关理解整理而成 Spark应用程序总是包括着一个driver program(驱动程序),它运行着用户的main方 ...

随机推荐

关于插件Markdown Preview Enhanced的使用技巧
目录 1.关于TOC 2.关于转义符 3.绘图 3.0 绘图配色主题 3.1 Flowchart(流程图) 3.2 Sequence diagram(顺序图) 3.4 保存为HTML shanzm 1 ...
让你的 vs code 跑在云上，用手机浏览器就能写代码
让你的vs code 跑在云服务器上在B站上看到一个视频Run VS Code in the browser with massive computing resources(教你如何配置一个云ID ...
APS.NET MVC + EF (11)---过滤器
过滤器本质就是对动作方法的执行过程进行干预,这种干预可以影响动作方法执行的各个过程.ASP.NET MVC 提供了4种类型的接口,并在接口中定义了各种成员,代表代码执行的各个阶段,这些接口和成员如表1 ...
python 进程和线程-线程和线程变量ThreadLocal
线程线程是由若干个进程组成的,所以一个进程至少包含一个线程:并且线程是操作系统直接支持的执行单元.多任务可以由多进程完成,也可由一个进程的多个线程来完成 Python的线程是真正的Posix Thr ...
Spring.yml配置文件读取字符串出现错误
今天遇到一个诡异的问题,在配置文件中配置了一个值为字符串的属性,但是在用@Value注入时发现注入的值不是我配置的值,而且在全文都没有找到匹配的值之后研究了好久,发现yml文件会把0开头的数组进行8 ...
Java 关于函数式接口与Lambda表达式之间的关系
java是一种面向对象的语言,java中的一切都是对象,即数组,每个类创建的实例也是对象.在java中定义的函数或方法不可能完全独立,也不能将方法函数作为参数或返回值给实例. 在java7及以前,我们 ...
angular6 页面加载数据时的loading提示
使用npm安装ngx-loading模块 npm install --save ngx-loading 在app.module.ts中导入模块 import { BrowserModule } fro ...
MySQL使用alter修改表的结构
SQL语句 DLL 数据定义语言 create,drop DML 数据操纵语言 insert,delete,select,upda ...
atlas笔记
目录环境 Mysql+Atlas配置 atlas:mysql-proxy扩展,mysql中间件,可以实现分表.分库(sharding版本).读写分离.数据库连接池等功能! Atlas类似于Twemp ...
idea下新建Spring Boot项目并配置启动
一.操作步骤 ①使用idea新建一个Spring Boot项目 ②修改pom.xml ③修改application.properties ④修改编写一个Hello Spring Boot的Contro ...

spark 基本操作（二）

spark 基本操作（二）的更多相关文章

随机推荐

热门专题