新闻实时分析系统 SQL快速离线数据分析

1.Spark SQL概述
1）Spark SQL是Spark核心功能的一部分，是在2014年4月份Spark1.0版本时发布的。

2）Spark SQL可以直接运行SQL或者HiveQL语句

3）BI工具通过JDBC连接SparkSQL查询数据

4）Spark SQL支持Python、Scala、Java和R语言

5）Spark SQL不仅仅是SQL

6）Spark SQL远远比SQL要强大

7）Spark SQL处理数据架构

8）Spark SQL简介
Spark SQL is a Spark module for structured data processing

9）Spark SQL的愿景
a）Write less code
对不同的数据类型使用统一的接口来读写。

b）Read less data
提升大数据处理速度最有效的方法就是忽略无关的数据。
（1）使用列式存储（columnar formats），比如Parquet、ORC、RCFile
（2）使用分区裁剪（partitioningpruning），比如按天分区，按小时分区等
（3）利用数据文件中附带的统计信息进行剪枝：例如每段数据都带有最大值、最小值和NULL值等统计信息，当某一数据段肯定不包含查询条件的目标数据时，可以直接跳过这段数据。（例如字段age某段最大值为20，但查询条件是>50岁的人时，显然可以直接跳过这段）
（4）将查询源中的各种信息下推至数据源处，从而充分利用数据源自身的优化能力来完成剪枝、过滤条件下推等优化。
c）Let the optimizer do the hard work
Catalyst优化器对SQL语句进行优化，从而得到更有效的执行方案。即使我们在写SQL的时候没有考虑这些优化的细节，Catalyst也可以帮我们做到不错的优化结果。

2.Spark SQL服务架构

3.Spark SQL 与Hive集成（spark-shell）
1）需要配置的项目
a）将hive的配置文件hive-site.xml拷贝到spark conf目录，同时添加metastore的url配置。
vi hive-site.xml
<property>
<name>hive.metastore.uris</name>
<value>thrift://bigdata-pro01.kfk.com:9083</value>
</property>
b）拷贝hive中的mysql jar包到spark的jar目录下
cp hive-0.13.1-bin/lib/mysql-connector-java-5.1.27-bin.jar spark-2.2-bin/jars/
c）检查spark-env.sh 文件中的配置项
vi spark-env.sh
HADOOP_CONF_DIR=/opt/modules/hadoop-2.5.0/etc/hadoop
2）启动服务
a）检查mysql是否启动
#查看状态
service mysqld status
#启动
service mysqld start
b）启动hive metastore服务
bin/hive --service metastore
c）启动hive
bin/hive
show databases;
create database kfk;
create table if not exists test(userid string,username string)ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' STORED AS textfile;
load data local inpath "/opt/datas/kfk.txt" into table test;
本地kfk.txt文件
more /opt/datas/kfk.txt
0001 spark
0002 hive
0003 hbase
0004 hadoop
d）启动spark-shell
bin/spark-shell
spark.sql("select * from kfk.test").show
0001 spark
0002 hive
0003 hbase
0004 hadoop
4.Spark SQL 与Hive集成（spark-sql）
启动spark-sql
bin/spark-sql
#查看数据库
show databases;
default
kfk
#使用数据库
use kfk
#查看表
show tables;
test
#查看表数据
select * from test;
5.Spark SQL之ThriftServer和beeline使用
1）启动ThriftServer
sbin/start-thriftserver.sh
2）启动beeline
bin/beeline
!connect jdbc:hive2://bigdata-pro02.kfk.com:10000
#查看数据库
show databases;
#查看表数据
select * from kfk.test;
6.Spark SQL与MySQL集成
启动spark-shell
sbin/spark-shell
:paste
val jdbcDF = spark
.read
.format("jdbc")
.option("url", "jdbc:mysql://bigdata-pro01.kfk.com:3306/test")
.option("dbtable", "spark1")
.option("user", "root")
.option("password", 123456)
.load()
ctr+d
#打印读取数据
jdbcDF.show
7.Spark SQL与HBase集成
Spark SQL与HBase集成，其核心就是Spark Sql通过hive外部表来获取HBase的表数据。
1）拷贝HBase的包和hive包到spark 的jars目录下

2）启动spark-shell
bin/spark-shell
val df =spark.sql("select count(1) from weblogs").show

新闻实时分析系统 SQL快速离线数据分析的更多相关文章

新闻网大数据实时分析可视化系统项目——18、Spark SQL快速离线数据分析
1.Spark SQL概述 1)Spark SQL是Spark核心功能的一部分,是在2014年4月份Spark1.0版本时发布的. 2)Spark SQL可以直接运行SQL或者HiveQL语句 3)B ...
Spark SQL快速离线数据分析
拷贝hive-site.xml到spark的conf目录下面打开spark的conf目录下的hive-site.xml文件加上这段配置(我这里三个节点的spark都这样配置) 把hive中的mys ...
新闻实时分析系统 Spark Streaming实时数据分析
1.Spark Streaming功能介绍1)定义Spark Streaming is an extension of the core Spark API that enables scalable ...
新闻实时分析系统Hive与HBase集成进行数据分析 Cloudera HUE大数据可视化分析
1.Hue 概述及版本下载 1)概述 Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python ...
新闻实时分析系统Hive与HBase集成进行数据分析
(一)Hive 概述 (二)Hive在Hadoop生态圈中的位置 (三)Hive 架构设计 (四)Hive 的优点及应用场景 (五)Hive 的下载和安装部署 1.Hive 下载 Apache版本的H ...
新闻实时分析系统大数据Web可视化分析系统开发
1.基于业务需求的WEB系统设计 2.下载Tomcat并创建Web工程并配置相关服务下载tomcat,解压并启动tomcat服务. 1)新建web app项目创建好之后的效果 2)对tomcat进 ...
新闻实时分析系统 Spark2.X环境准备、编译部署及运行
1.Spark概述 Spark 是一个用来实现快速而通用的集群计算的平台. 在速度方面, Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理 ...
新闻实时分析系统-Flume数据采集准备
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据:同时,Flume提供对数据进行简单处理,并 ...
新闻实时分析系统-Kafka分布式集群部署
Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用.目前越来越多的开源分布式处理系统如Cloudera.Apache Storm.Spa ...

随机推荐

CasperJS 前端功能测试
CasperJS 是一个开源的导航脚本和测试组件.它提供实用的高级函数.方法和语法糖,可完成以下任务: 对浏览导航步骤的定义和排序填写和提交表单点击和跟踪链接获取页面快照(或者页面中的某部分) ...
SQLServer执行大脚本文件时，提示“无法执行脚本没有足够的内存继续执行程序 (mscorlib)”
问题描述: 有时候服务器操作导入数据.sql,或者当需求不可以直接备份整库还原时,往往通过导出数据库脚本的方式来部署-还原数据库表但是当数据库导出脚本很大,用Microsoft SQL Serve ...
AB实验的高端玩法系列3 - AB组不随机？观测试验？Propensity Score
背景都说随机是AB实验的核心,为什么随机这么重要呢?有人说因为随机所以AB组整体不存在差异,这样才能准确估计实验效果(ATE) \[ ATE = E(Y_t(1) - Y_c(0)) \] 那究竟随 ...
第三十章 System V信号量（一）
信号量信号量和P.V原语由Dijkstra(迪杰斯特拉)提出信号量: 互斥: P.V在同一进程中同步: P.V在不同进程中信号量值含义 S>0 : S表示可用资源个数 S=0 : 表示无 ...
全栈项目|小书架|服务器开发-Koa2 全局异常处理
什么是异常做开发的基本都知道异常,像Android开发中常见的ANR异常.空指针异常,服务器开发中经常遇到的异常404,500异常,还有一些其他常见的异常,具体可见HTTP状态码. 基本上这些异常可 ...
NOIP模拟 26
我辛辛苦苦敲了3.5h的码得分和一份8B的码一样多自闭555. T1 marshland 最小费用可行流, 板子不会,建图更不会. 当然是用暴搜得到0分的好成绩啦补了补板子. %了%RNB. 学 ...
原生JS实现集合结构
1. 前言集合是由一组无序且唯一(即不能重复)的项组成的.你可以把集合想象成一个既没有重复元素,也没有顺序概念的数组.在ES6中已经内置了集合这一数据结构--Set.接下来,我们就用原生JS来实现这 ...
大数据之路day01_1--Java下载、安装等配置
从今天开始,我就正式的走上大数据的道路了,如果说我为啥要去学习大数据,可能我的初衷是以后可以接触到人工智能方面的技术,后来在自学的过程中发现,学习人工智能,需要扎实的算法,以及对大量数据的处理,再者, ...
8*8LED点阵
基础认识 1.5英寸LED点阵管数码管8*8红色16pin 有如下两种型号: 共阳1588BS 共阴1588AS 共阴1588AS 共阳1588BS 编程导向共阴和共阳其编程思路基本类似,只是对应I ...
Elasticsearch生产环境遇到的问题以及解决方案
Elasticsearch是一个开源的分布式实时搜索与分析引擎,支持云服务.它是基于Apache Lucene搜索引擎的类库创建的,提供了全文搜索能力.多语言支持.专门的查询语言.支持地理位置服务.基 ...

新闻实时分析系统 SQL快速离线数据分析

新闻实时分析系统 SQL快速离线数据分析的更多相关文章

随机推荐

热门专题