6大数据实战系列-sparkSql实战

sparkSql两个最重要的类SqlContext、DataFrame，DataFrame功能强大，能够与rdd互转换、支持sql操作如sql().where.order.join.groupBy.limit等。
SparkSql的查询响应性能是hive的几何级倍数，并且SparkSql支持多种数据源操作包括hive、hdfs、rdd、json、mysql，本文先讲解hive、hdfs、rdd、json4种数据源操作。

1 基础环境

1.1 版本预览

Cnetos 6.5    已安装

Hadoop 2.8   已安装集群

Hive 2.3      待安装

Mysql 5.6     已安装

Spark 2.1.1    已安装

1.2 机器环境

192.168.0.251 slave

192.168.0.252 master

Hadoop：hadoop已做双机无密码登录

1.3 工作路径

Hadoop：/home/data/app/hadoop/hadoop-2.8.0/etc/hadoop

Spark：/home/data/app/hadoop/spark-2.1.1-bin-hadoop2.7

Hive数据路径： /user/hive/warehouse/

2 初始化配置

2.1 spark连接hive

节点Spark conf下增加hive-site.xml

<configuration>

  <property>

    <name>hive.metastore.uris</name>

    <value>thrift://shulaibao2:9083</value>

    <description>Thrift URI for the remote metastore. Used by metastore client to connect to remote metastore.</description>

  </property>

</configuration>

2.2 启动hive支持metastore

nohup hive --service metastore > metastore.log 2>&1 &

2.3 spark集群重启

./stop-all.sh

./start-all.sh

3 sparkSql - hive数据源

3.1 sparkSql操作

./spark-sql --master spark://shulaibao2:7077 --executor-memory 1g

按年统计交易订单数量、交易金额

select c.theyear,count(distinct a.ordernumber),sum(b.amount) from tbStock a join tbStockDetail  b on a.ordernumber=b.ordernumber

 join tbDate c on a.dateid=c.dateid

 group by c.theyear order by c.theyear;

计算每年销售额最大的订单

select c.theyear,max(d.sumofamount) from tbDate c join (select a.dateid,a.ordernumber,sum(b.amount) as sumofamount from tbStock a join tbStockDetail  b on a.ordernumber=b.ordernumber group by a.dateid,a.ordernumber ) d  on c.dateid=d.dateid group by c.theyear sort by c.theyear;

3.2 spark shell编码

val hiveQuery = sql("select * from hive_data.tbstock limit 10")

hiveQuery.collect()

res14: Array[org.apache.spark.sql.Row] = Array([BYSL00000893,ZHAO,2007-8-23], [BYSL00000897,ZHAO,2007-8-24], [BYSL00000898,ZHAO,2007-8-25], [BYSL00000899,ZHAO,2007-8-26], [BYSL00000900,ZHAO,2007-8-26], [BYSL00000901,ZHAO,2007-8-27], [BYSL00000902,ZHAO,2007-8-27], [BYSL00000904,ZHAO,2007-8-28], [BYSL00000905,ZHAO,2007-8-28], [BYSL00000906,ZHAO,2007-8-28])

4 sparkSql - RDD数据源

4.1 hdfs数据源

import spark.implicits._

case class Person(name: String, age: Int)

val peopleDF =

spark.sparkContext.textFile("hdfs://shulaibao2:9010/home/hadoop/upload/test/people.txt").map(_.split(",")).map(attributes => Person(attributes(0), attributes(1).trim.toInt)).toDF()

peopleDF.createOrReplaceTempView("people") ： registerTempTable  - deprecation

val teenagersDF = spark.sql("SELECT name, age FROM people WHERE age BETWEEN 24 AND 40") 

teenagersDF.map(teenager => "Name: " + teenager(0)).show()

teenagersDF.map(teenager => "Name: " + teenager.getAs[String]("name")).show()

4.2 RDD数据源

import spark.implicits._

case class Person(name:String, age:Int, state:String)

sc.parallelize(Person("Michael",29,"CA")::Person("Andy",30,"NY")::Person("Justin",19,"CA")::Person("Justin",25,"CA")::Nil).toDF().registerTempTable("people")

val query= sql("select * from people") : @return dataFrame

查询的schem

query.printSchema

query.collect() ： @return Array[org.apache.spark.sql.Row]

查看整个运行计划：

query.queryExecution

5 json 数据源

hadoop fs -put /data/software/sougou/jsonPerson.json /home/hadoop/upload/test/

spark.sqlContext.jsonFile("/home/hadoop/upload/test/jsonPerson.json").registerTempTable("jsonPerson")

val jsonQuery = sql("select * from jsonPerson")

查看结构：

jsonQuery.printSchema

6大数据实战系列-sparkSql实战的更多相关文章

大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)
引言在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用 ...
大数据学习系列之五 ----- Hive整合HBase图文详解
引言在上一篇大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环 ...
大数据学习系列之六 ----- Hadoop+Spark环境搭建
引言在上一篇中大数据学习系列之五 ----- Hive整合HBase图文详解 : http://www.panchengming.com/2017/12/18/pancm62/ 中使用Hive整合 ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...
大数据学习系列之九---- Hive整合Spark和HBase以及相关测试
前言在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为h ...
大数据小白系列——HDFS(4)
这里是大数据小白系列,这是本系列的第四篇,来看一个真实世界Hadoop集群的规模,以及我们为什么需要Hadoop Federation. 首先,我们先要来个直观的印象,这是你以为的Hadoop集群: ...
大数据小白系列——HDFS(3)
这里是大数据小白系列,这是本系列的第三篇,介绍HDFS中NameNode选举,JournalNode等概念. 上一期我们说到了为解决NameNode(下称NN)单点失败问题,HDFS中使用了双NN的机 ...
大数据小白系列——HDFS(2)
这里是大数据小白系列,这是本系列的第二篇,介绍一下HDFS中SecondaryNameNode.单点失败(SPOF).以及高可用(HA)等概念. 上一篇我们说到了大数据.分布式存储,以及HDFS中的一 ...
大数据小白系列——HDFS(1)
[注1:结尾有大福利!] [注2:想写一个大数据小白系列,介绍大数据生态系统中的主要成员,理解其原理,明白其用途,万一有用呢,对不对.] 大数据是什么?抛开那些高大上但笼统的说法,其实大数据说的是两件 ...
基于Hadoop2.0、YARN技术的大数据高阶应用实战(Hadoop2.0\YARN\Ma
Hadoop的前景随着云计算.大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈.谷歌.淘宝.百度.京东等底层都应用hadoop.越来越多的企业急需引入hadoop技术人才.由于掌握H ...

随机推荐

最新centos7 部署 k8s v1.26，简单易懂，跟着命令敲就完事
其实没什么好说的,搭环境搞了一整天,人已经麻了,踩了很多坑,网上教程的版本大都比较旧,总是和最新版本各种地方不兼容,把坑踩完了,k8s目前最新的版本是v1.26,跟着命令敲就行了,我已经重复部署了很多 ...
淘宝/天猫获得淘宝商品评论 API 返回值说明
item_review-获得淘宝商品评论 taobao.item_review 公共参数 API测试工具名称类型必须描述 key String 是调用key(必须以GET方式拼接在URL中) ...
搭建DHCP服务，实现自动分配地址
DHCP实现原理 DHCP定义 DHCP(Dynamic Host Configuration Protocol,动态主机配置协议)是一个局域网的网络协议,使用UDP协议工作.它是一种流行的Clien ...
【算法总结】强化学习部分基础算法总结（Q-learning DQN PG AC DDPG TD3）
总结回顾一下近期学习的RL算法,并给部分实现算法整理了流程图.贴了代码. 1. value-based 基于价值的算法基于价值算法是通过对agent所属的environment的状态或者状态动作对进 ...
panda之series结构
eries 结构,也称 Series 序列,是 Pandas 常用的数据结构之一,它是一种类似于一维数组的结构,由一组数据值(value)和一组标签组成,其中标签与数据值之间是一一对应的关系.Seri ...
this关键字，static以及子类访问父类super关键字
1.this是用来指代当前类实例化对象 public setid(id){thiis.id = id;} 即将传入的形参id赋值给当前类的id属性 2.this还可以调用方法,方法分为两种构造方法和普 ...
Android ViewGroup的事件分发机制-源码分析
为了更好的理解ViewGroup的事件分发机制,我们在自定义一个MyLinerLayout. public class MyLinearLayout extends LinearLayout { pr ...
cocos2d-x返回Android游戏黑屏解决办法
返回Android游戏黑屏解决办法这几天逛cocos2d-x.org论坛,发现cocos2d-x的作者放出来一个帖子,用来解决返回Android游戏加载资源时黑屏的问题.帖子过些日子估计就沉了,所以转 ...
Java中方法的定义及注意事项
一.方法什么是方法: 方法(method)是程序中最小的执行单元实际开发中,什么时候用到方法: 重复的代码.具有独立功能的代码可以抽取到方法中实际开发中,方法有什么好处: 可以提高代码的复用性 ...
几行代码教你快速创建scrapy项目，非常实用建议收藏！
import shutil,os修改settings.py def config(scrapy_path,project_name): judge=input("是否自动修改配置?是:yes ...