spark复习笔记(7):sparkSQL

一、saprkSQL模块，使用类sql的方式访问Hadoop，实现mr计算，底层使用的是rdd

　　1.hive　　　　　　//hadoop mr sql

　　2.phenoix　　　　//hbase上构建sql的交互过程

　　该模块能在spark上运行sql语句

　　3.DataFrame　　　　//数据框，表

　　在spark中的数据框，sparkSQL就能以完全分布式的方式来处理数据。组合数据框可以来自各种数据源来进行查询的处理

　　4.SparkSQL　　　　//SQL | DataFrame API

　　5.RDD[Customer]===>

　　　　$scala>df=sc.createDataFrame(rdd);

$scala>df = sc.createDataFrame(rdd);
//创建样例类

$scala>case class  Customer1(id:Int,name:String,age:Int)
//构造数据
$scala>val arr = Array("1,tom,12","2,tomas,13","3,tomasLee,14")
$scala>val rdd1 = sc.makeRDD(arr)
//创建对象RDD
$scala>val rdd2=rdd1.map(e=>{
　　val arr= e.split(",");
　　Customer1(arr(0).toInt,arr(1),arr(2).toInt)
})
//创建customer的rdd,通过rdd创建数据框
$scala>val df = spark.createDataFrame(rdd2)
//打印表结构
//创建临时视图
$scala>df.createTempView("customers")
//打印表结构
$scala>df.printSchema
$scala>df.show　　　　//等价于查询数据
//创建临时视图
$scala>df.createTempView("customers")
//使用sparkSQL来进行相关的查询
val df2 = spark.sql("select * from customers")
//将上述结果进行相关的显示
df2.show
//带条件进行相关的查询
val df2 = spark.sql("select * from customers where id<2")
df2.show
//或者用如下的方式直接show
spark.sql("select * from customer").show

val df1 = spark.sql("select * from customer where id<2")

val df2 = spark.sql("select * from customers where id>2")

df1.show

df2.show

df.create

df1.createTempView("c1")

df2.createTempView("c")

val dff = spark.sql("select * from c1 union select * from c2")

dff.show　　　　　　//显示前面查询的结果

$scala>spark.sql("select * from c1 from union select *from c2").show

df1.union(df2).show

spark.sql("select count(*) from customer").show

spark.sql("select * from customer limit 1").show

spark.sql("select *from customers where name like 't%' order by name desc").show
//映射聚合操作
df.map(_.getAs[Int]("age")).reduce(_ + _)

//聚合函数
df.agg(sum("age"),max("age"),min("age"))

　　sparkQSL :使用类似SQL方式访问hadoop，实现MR计算。RDD

　　df= sc.createDataFrame(rdd);

　　DataSet<Row> ===DataFrame===>//类似于table操作

保存spark的sql计算结果(json)

　　JavaRDD<Row> rdd = df1.toJava();

保存spark的sql计算结果(json)

　　//保存成json文件。

　　df.write().json(dir)　　//这个地方写的是文件夹，就是保存文件的上级目录

　　//设置保存模式

　　df.mode(SaveMode.APPEND);

json文件的读写

---------------------------------

　　SparkSession.read().json("")　　//读取json文件形成数据框

　　//将数据框的数据写入json文件

　　SparkSession.write().json("........")　　//将数据框的数据写成json文件

SparkDataFrame以jdbc的方式操纵表

SparkDataFrame以jdbc的方式来操纵表

　　1.引入mysql驱动

　　　　pom.xml直接修改

spark整合Hive

　　1.hive的类库需要在spark的worker节点，他们也需要通过类库来访问hive

　　2.复制core-site.xml(hdfs) + hdfs-site.xml + hive-site.xml(hive)这三个文件复制到spark/conf目录下面

　　3.指定hive的home目录环境变量

　　4.赋值mysql驱动序列到/soft/spark/jars目录下面

　　5.启动spark-shell,指定启动模式

　　　　spark-shell --master local[4]

　　　　create table tt(id int,anme string,age int)

　　　　row format delimited fields terminated by ','

　　　　lines terminated by '\n' stored as textfile;

　　6.SparkSQL操纵Hive表

　　　　(1)复制配置文件到resources目录下

　　　　　　core-site.xml

　　　　　　hdfs-site.xml

　　　　　　hive-site.xml

　　　　(2)pom.xml中增加依赖

　　　　(3)编码

package com.jd.spark.java;

import org.apache.spark.SparkConf;

import org.apache.spark.sql.Dataset;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.SparkSession;

public class SQLHiveJava {

    public static void main(String[] args){

        SparkConf conf = new SparkConf();

        conf.setMaster("local").setAppName("SQLHive");

        SparkSession sess = SparkSession.builder().appName("SQLHiveJava").config("spark.master","local").getOrCreate();

        sess.sql("use mydb2.db");

        Dataset<Row> df =  sess.sql("select * from mydb2.tt");

        df.show();

    }

}

分布式SQL引擎

--------------------------------------------　

　　1.启动spark集群(完全分布式-standalone)

　　　　　$>/soft/spark/sbin/start-all.sh

　　　　　master　　　　//s11

　　　　 worker　　　　//s12-s14

　　2.在默认库下创建hive数据表

　　　　hive -e "create table tt(id int,name string , age int) row format delimited fields terminated by ',' lines terminated by '\n' stored as textfile"

　　3.加载数据到hive表中去

　　　　$>hive -e "load data local inpath 'file:///home/centos/data.txt' into table tt"

　　4.分发三个文件到worker节点

　　5.启动spark集群

　　　　$>soft/spark/sbin/start-all.sh

　　6.启动spark-shell

　　　　$>spark-shell --master spark://s11:7070

　　7.启动thriftserver服务器

　　　　$>start

　　8.连接beeline进行操作：

　　　　beeline -u jdbc:hive://localhost:10000 -d org.apache.hive.jdbc.HiveDriver

spark复习笔记(7):sparkSQL的更多相关文章

spark复习笔记(2)
之前工作的时候经常用,隔了段时间,现在学校要用学的东西也忘了,翻翻书谢谢博客吧. 1.什么是spark? Spark是一种快速.通用.可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPL ...
spark复习笔记(1)
使用spark实现work count ---------------------------------------------------- (1)用sc.textFile(" &quo ...
spark复习笔记(7):sparkstreaming
一.介绍 1.sparkStreaming是核心模块Spark API的扩展,具有可伸缩,高吞吐量以及容错的实时数据流处理等.数据可以从许多来源(如Kafka,Flume,Kinesis或TCP套接字 ...
spark复习笔记(6):RDD持久化
在spark中最重要的功能之一是跨操作在内存中持久化数据集.当你持久化一个RDD的时候,每个节点都存放了一个它在内存中计算的一个分区,并在该数据集的其他操作中进行重用,持久化一个RDD的时候,节点上的 ...
spark复习笔记(6):数据倾斜
一.数据倾斜 spark数据倾斜,map阶段对key进行重新划分.大量的数据在经过hash计算之后,进入到相同的分区中,zao
spark复习笔记(4):RDD变换
一.RDD变换 1.返回执行新的rdd的指针,在rdd之间创建依赖关系.每个rdd都有一个计算函数和指向父rdd的指针 Spark是惰性的,因此除非调用某个转换或动作,否则不会执行任何操作,否则将触发 ...
spark复习笔记(5):API分析
0.spark是基于hadoop的mr模型,扩展了MR,高效实用MR模型,内存型集群计算,提高了app处理速度. 1.特点:(1)在内存中存储中间结果 (2)支持多种语言:java scala pyt ...
spark复习笔记(4):spark脚本分析
1.[start-all.sh] #!/usr/bin/env bash # # Licensed to the Apache Software Foundation (ASF) under one ...
spark复习笔记(3)
在windows上实现wordcount单词统计一.编写scala程序,引入spark类库,完成wordcount 1.sparkcontextAPI sparkcontext是spark功能的主要 ...

随机推荐

Introduction of Generator in Python
Python中生成器的原理与使用详解原创牛大财有大才发布于2018-09-05 14:36:38 0.range() 函数,其功能是创建一个整数列表,一般用在 for 循环中语法格式:range ...
OC项目调用C++
CPPHello.hpp #ifndef CPPHello_hpp #define CPPHello_hpp #include <stdio.h> class CPPHello { pub ...
JavaScript 练习
搜索框 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8 ...
warp（图像仿射变换）
仿射变换是一种二维坐标(x,y)到二维坐标(u,v)的线性变换. 对应的齐次坐标矩阵表示形式为: 仿射变换特点: 直线经仿射变换后依然为直线: ’直线之间的相对位置关系保持不变,平行线经仿射变换后依然 ...
进阶3： zookeeper-3.4.9.tar.gz和hbase-1.2.4-bin.tar.gz 环境搭建(hbase 伪分布式)
前提条件: 成功安装了 jdk1.8, hadoop2.7.3 注意条件: zookeeper,hbase 版本必须要和hadoop 安装版本相互兼容,否则容易出问题: 本次:安装包 zookee ...
Oracle-SQL程序优化案例二
有时候写得不规范的SQL语句真的是占用很多时间以下是我在工作中发现的规律,如果字段过多的使用函数,尽量不要将这些字段串联在一起做匹配或查询条件,比如红色注释部分,在执行红色部分的时候这个SQL程序 ...
rf-idf的java实现
还存在的问题是,对于其中分词借助的库还存在问题参考此篇链接 http://www.cnblogs.com/ywl925/archive/2013/08/26/3275878.html 具体代码部分: ...
Linux驱动开发4——并发和竞态
Linux系统处于一个高并发的运行环境,不管是系统调用还是中断都要求可重入,但是有一些系统资源处于临界区,因此,必须保证临界区资源访问的原子性. 对于临界区资源被占用时,发起访问的进程,有三种处理方法 ...
(转)oracle触发器使用：after insert 与before insert的简单使用注意
本文转载自:http://blog.csdn.net/kuangfengbuyi/article/details/41446125 创建触发器时,触发器类型为after insert , 在begin ...
添加环境变量（path）
使用命令提示符((cmd)(批处理)(Batch)(.bat))添加环境变量永久环境变量命令提示符下修改 ==注意:要使用管理员身份运行cmd== set PATH=%PATH%;要添加的路径 r ...

spark复习笔记(7):sparkSQL

一、saprkSQL模块，使用类sql的方式访问Hadoop，实现mr计算，底层使用的是rdd

spark复习笔记(7):sparkSQL的更多相关文章

随机推荐

热门专题