十一、spark SQL的scala示例

简介

spark SQL官网：http://spark.apache.org/docs/latest/sql-programming-guide.html

sparkSQL是构建在sparkCore之上的组件，用于处理结构化的数据。它将数据抽象为DataFrame并提供丰富的API，并且sparkSQL允许使用SQL脚本进行操作，使得数据查询变得非常的容易使用。

同时，sparkSQL除了操作简单，API丰富之外，对于数据源的支持也很强大。你可以从，如：

1）HDFS

2）Parguet文件

3）json文件

4）JDBC

5）ODBC

6）HIVE

等多种数据源来创建dataFrame，也可以从spark的RDD转换成dataFrame。

代码示例

下面是scala的代码示例：

import org.apache.spark.rdd.RDD

import org.apache.spark.sql.{DataFrame, Row, SQLContext}

import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}

import org.apache.spark.{SparkConf, SparkContext}

/**

  * @Description spark sql demo

  * @Author lay

  * @Date 2018/12/09 21:33

  */

object SparkSQLDemo {

  var conf: SparkConf = _

  var sc: SparkContext = _

  var userData: Array[String] = Array("1 lay 23", "2 marry 24", "3 gary 25")

  var userRDD: RDD[Row] = _

  var sqlContext: SQLContext = _

  var df: DataFrame = _

  def init(): Unit = {

    conf = new SparkConf().setAppName("spark sql demo").setMaster("local")

    sc = new SparkContext(conf)

    // 创建sqlContext

    sqlContext = new SQLContext(sc)

    // 创建schema

    var structFields = Array(StructField("id", IntegerType), StructField("name", StringType), StructField("age", IntegerType))

    var schema = new StructType(structFields)

    // 创建RDD

    userRDD = sc.parallelize(userData).map{x => val lines = x.split(" ");Row(lines(0).toInt, lines(1), lines(2).toInt)}

    // 创建dataFrame

    df = sqlContext.createDataFrame(userRDD, schema)

  }

  def main(args: Array[String]): Unit = {

    init()

    // dataFrame方式查询：查询年龄大于23岁的用户的姓名

    df.select("name").where("age > 23").show()

    // 注册为t_user表

    df.createOrReplaceTempView("t_user")

    // SQL方式查询：年龄大于23岁的用户的姓名

    sqlContext.sql("SELECT name FROM t_user WHERE age > 23").show()

  }

}

以上代码将RDD通过StructType转换成了dataFrame，然后分别采用dataFrame的API和SQL两种方式查询出了结果，如图：

十一、spark SQL的scala示例的更多相关文章

二、spark SQL交互scala操作示例
一.安装spark spark SQL是spark的一个功能模块,所以我们事先要安装配置spark,参考: https://www.cnblogs.com/lay2017/p/10006935.htm ...
十、spark graphx的scala示例
简介 spark graphx官网:http://spark.apache.org/docs/latest/graphx-programming-guide.html#overview spark g ...
十二、spark MLlib的scala示例
简介 spark MLlib官网:http://spark.apache.org/docs/latest/ml-guide.html mllib是spark core之上的算法库,包含了丰富的机器学习 ...
平易近人、兼容并蓄——Spark SQL 1.3.0概览
自2013年3月面世以来,Spark SQL已经成为除Spark Core以外最大的Spark组件.除了接过Shark的接力棒,继续为Spark用户提供高性能的SQL on Hadoop解决方案之外, ...
【转载】Spark SQL 1.3.0 DataFrame介绍、使用
http://www.aboutyun.com/forum.php?mod=viewthread&tid=12358&page=1 1.DataFrame是什么?2.如何创建DataF ...
【转载】Spark SQL之External DataSource外部数据源
http://blog.csdn.net/oopsoom/article/details/42061077 一.Spark SQL External DataSource简介随着Spark1.2的发 ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...
Spark SQL External DataSource简介
随着Spark1.2的发布,Spark SQL开始正式支持外部数据源.这使得Spark SQL支持了更多的类型数据源,如json, parquet, avro, csv格式.只要我们愿意,我们可以开发 ...
spark结构化数据处理：Spark SQL、DataFrame和Dataset
本文讲解Spark的结构化数据处理,主要包括:Spark SQL.DataFrame.Dataset以及Spark SQL服务等相关内容.本文主要讲解Spark 1.6.x的结构化数据处理相关东东,但 ...

随机推荐

egret的tween动画循环播放
开发中发现了egret的自带tween动画中tweenGroup没有自动重新播放的代码,就使用了一种较笨的方法进行播放比如:我在exml皮肤文件中写了一个动画组tweenGroup,并且在ts文件中 ...
APScheduler定时任务
python模块(APScheduler定时任务) APScheduler简介在平常的工作中几乎有一半的功能模块都需要定时任务来推动,例如项目中有一个定时统计程序,定时爬出网站的URL程序,定时 ...
CentOS运行C++语言的Hello World
1,编写代码,hello.cpp #include <iostream> using namespace std; int main(){ cout<<"hello ...
LINUX中软RAID的实现方案
转自linux就该这么学应用场景 Raid大家都知道是冗余磁盘的意思(Redundant Arrays of Independent Disks,RAID),可以按业务系统的需要提供高可用性和冗余性 ...
RHEL配置本地yum
RHEL(即Red Hat Enterprise Linux的缩写)配置本地yum 提前将 rhel-server-6.7-x86_64-dvd.iso 文件上传到服务器上 1.在根目录创建文件夹/m ...
酱油 Noip2018颓废记
也不知道写一些什么了凑和着写写吧最近十分的￥#&(^ --#%!*%￥^#$# Day -1 上午考了一场试就$TM$考了60分好不容易积攒起来的信心啊~~~~~~ 就这么垮了~~ ...
图的最短路径---迪杰斯特拉(Dijkstra)算法浅析
什么是最短路径在网图和非网图中,最短路径的含义是不一样的.对于非网图没有边上的权值,所谓的最短路径,其实就是指两顶点之间经过的边数最少的路径. 对于网图,最短路径就是指两顶点之间经过的边上权值之和最 ...
javascript如何阻止事件冒泡和默认行为
阻止冒泡: 冒泡简单的举例来说,儿子知道了一个秘密消息,它告诉了爸爸,爸爸知道了又告诉了爷爷,一级级传递从而以引起事件的混乱,而阻止冒泡就是不让儿子告诉爸爸,爸爸自然不会告诉爷爷.下面的demo ...
架构师养成记--23.sigar使用实例
作用是检测机器的硬件环境注意在jdk的bin目录下加上sigar的lib目录中的文件 import java.net.InetAddress; import java.net.UnknownHost ...
python 类中的某个函数作为装饰器
在python的类中,制作一个装饰器的函数, class A: def wrapper(func): ###装饰器 def wrapped(self,*arg,**kwargs) ... return ...

十一、spark SQL的scala示例

简介

代码示例

十一、spark SQL的scala示例的更多相关文章

随机推荐

热门专题