spark sql 对接 HDFS
上一篇博客我向大家介绍了如何快速地搭建spark run on standalone,下面我将介绍saprk sql 如何对接 hdfs
我们知道,在spark shell 中操作hdfs 上的数据是很方便的,但是操作也未免过于繁琐,幸好spark 还想用户提供另外两种操作 spark sql 的方式
一 spark-sql
启动方式也比较简单
如果不添加 hive.metastore.warehouse.dir hiveconf 这个参数,则启动的spark sql 是基于本地文件的,默认为 file:/user/hive/warehouse(这种模式我个人是不大建议的)
/opt/spark-1.3.-bin-hadoop2./bin/spark-sql --master spark://ubuntu1:7800 --driver-cores 1 --driver-java-options "-Dspark.driver.port=4050"
--master 这个是必须的,否则后面执行的sql 都只会在当前一个进程计算,性能非常差,简单测试测试sql 语句倒还行
后面填写spark master 的URL
--driver-cores 这个参数是指定运行是CPU的最大核数
--driver-java-options 这个是启动sparak sql 服务时,需要添加的jvm 参数, spark.driver.port 是指定一个端口,具体什么用途,我还不是非常了解,望告知!
启动的spark sql 基于hdfs 的方法
bin/spark-sql --master spark://ubuntu1:7800 --driver-cores 1 --driver-java-options "-Dspark.driver.port=4050" --hiveconf "hive.metastore.warehouse.dir=hdfs://ubuntu1:9000/user/hive/warehouse"
--hiveconf 参数是添加加载hive 模块时,需要调整的参数 , hive.metastore.warehouse 则是通知hive 模块,后面spark sql 的数据都是存储在HDFS 中。其中hdfs://ubuntu1:9000 是HDFS 的URL
注意:
在spark 2.0.1 中,--hiveconf "hive.metastore.warehouse" 参数已经不再生效,用户应该使用
--conf spark.sql.warehouse.dir=hdfs://HOSTNAME:9000/user/hive/warehouse 命令进行代替
正确登陆spark-sql 后,就能像在hive 中执行那样,直接输入sql 语句即可
测试一下
spark-sql> create table test (id int , name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' STORED AS TEXTFILE ;
向表中导入本地文件
LOAD DATA LOCAL INPATH '/opt/spark-1.3.1-bin-hadoop2.6/test.csv' INTO TABLE test;
向表中导入HDFS 文件
LOAD DATA INPATH 'hdfs://ubuntu1:9000/user/hive/warehouse/test.csv' INTO TABLE test;
两个test.csv 文件都是
|chen
|fool
查询
select * from test;
然后它就打一大堆的执行信息,最后它会显示执行成功了。
我个人觉得这个方法还不够赞,因为spark 还提供了另一种更犀利操作sql 的方法
二 thriftserver
由于现在hive 的metastore 并没有使用第三方数据库,所以只能支持一个用户操作元数据,在退出刚才的spark-sql 后,我们启动thriftserver
/opt/test_spark/spark-1.3.-bin-hadoop2./sbin/start-thriftserver.sh --master spark://ubuntu1:7800 --driver-java-options "-Dspark.driver.port=4050" --hiveconf "hive.server2.thrift.port=11000" --hiveconf "hive.metastore.warehouse.dir=hdfs://ubuntu1:9000/user/hive/warehouse"
参数和上面的相同,我就不再一一解释了,只有
--hiveconf hive.server2.thrift.port=11000 与上面不同,这个参数是指定thriftserver 端口,默认是10000
启动thriftserver 后,我们可以通过netstat 查看端口是否被正常启动了
netstat -nap |grep
netstat -nap |grep
然后我们在登陆 beeline 界面
/opt/test_spark/spark-1.3.-bin-hadoop2./bin/beeline --hiveconf hive.server2.thrift.port= --hiveconf "hive.metastore.warehouse.dir=hdfs://ubuntu1:9000/user/hive/warehouse"
登陆后,我们需要先连接上 thriftserver
!connect jdbc:hive2://localhost:11000
连接后,我们就能自由操作数据了
show tables;
+------------+--------------+
| tableName | isTemporary |
+------------+--------------+
| test | false |
+------------+--------------+
这个是刚才在spark-sql 上建立的表,并且刚才的数据也在,我们利用它来测试一下
select * from test;
+-----+-------+
| id | name |
+-----+-------+
| 1 | chen |
| 2 | fool |
| 1 | chen |
| 2 | fool |
+-----+-------+
输入非常正常,并且操作界面也非常的清爽。
退出这个beeline 界面,命令比较奇怪
!quit
大家也可以通过下面命令获得帮助信息
!help
spark sql 对接 HDFS的更多相关文章
- 通过spark sql 将 hdfs上文件导入到mongodb
功能:通过spark sql 将hdfs 中文件导入到mongdo 所需jar包有:mongo-spark-connector_2.11-2.1.2.jar.mongo-java-driver-3.8 ...
- spark sql 的metastore 对接 postgresql
本教程记录 spark 1.3.1 版本的thriftserver 的metastore 对接 postgresql postgresql 的编译,参考:http://www.cnblogs.com/ ...
- 通过Spark SQL关联查询两个HDFS上的文件操作
order_created.txt 订单编号 订单创建时间 -- :: -- :: -- :: -- :: -- :: order_picked.txt 订单编号 订单提取时间 -- :: ...
- 大数据技术之_19_Spark学习_03_Spark SQL 应用解析 + Spark SQL 概述、解析 、数据源、实战 + 执行 Spark SQL 查询 + JDBC/ODBC 服务器
第1章 Spark SQL 概述1.1 什么是 Spark SQL1.2 RDD vs DataFrames vs DataSet1.2.1 RDD1.2.2 DataFrame1.2.3 DataS ...
- 1. Spark SQL概述
1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用 它是将Hive SQL转换成 ...
- 第1章 Spark SQL概述
第1章 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作 ...
- 【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
- Spark SQL Example
Spark SQL Example This example demonstrates how to use sqlContext.sql to create and load a table ...
- spark streaming 对接kafka记录
spark streaming 对接kafka 有两种方式: 参考: http://group.jobbole.com/15559/ http://blog.csdn.net/kwu_ganymede ...
随机推荐
- 重学DSP:对于卷积的理解
最近,我发现自己对于一个事情,如果不给自己一个说服自己的理由,就会出现不能理解,不能记住,以至于不会使用或者“盲目”应用的情况. 但是,我学的这个学科就是应当建立在对信号作用过程的理解上面的. 下面, ...
- ansible-playbook unarchive模块
先 进行 pause模块的 记录: pause 在playbook执行的过程中暂停一定时间或者提示用户进行某些操作 常用参数: minutes:暂停多少分钟 seconds:暂停多少秒 prompt ...
- SSL peer shut down incorrectly
这个问题通常出现在Android Studio更新失败的时候, 原因是download http://services.gradle.org/distributions/gradle-2.2-all. ...
- CNN卷积神经网络_深度残差网络 ResNet——解决神经网络过深反而引起误差增加的根本问题,Highway NetWork 则允许保留一定比例的原始输入 x。(这种思想在inception模型也有,例如卷积是concat并行,而不是串行)这样前面一层的信息,有一定比例可以不经过矩阵乘法和非线性变换,直接传输到下一层,仿佛一条信息高速公路,因此得名Highway Network
from:https://blog.csdn.net/diamonjoy_zone/article/details/70904212 环境:Win8.1 TensorFlow1.0.1 软件:Anac ...
- 自定义带图标input样式
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
- 值域线段树 (玲珑OJ 1117)
点击打开题目链接 题目意思很简单: 1.插入x 2.把小于x的数变成x 3.把大于x的数变成x 4.求集合中第x小数 5.求集合中小于x的数个数 思路: 线段树,节点是值的分数,你可以离散,也可以不离 ...
- cowboy中分布式节点通信
项目开发中,web前端节点需要与远端的聊天服节点通信.聊天服使用了otp,但我对otp下的分布式通信不太清楚,造成了一些问题. 1)首先是cowboy节点的命名.具体参数是配置在工程目录rel下的vm ...
- CodeForces990G:GCD Counting(树分治+GCD)
You are given a tree consisting of nn vertices. A number is written on each vertex; the number on ve ...
- poj1151 Atlantis——扫描线+线段树
题目:http://poj.org/problem?id=1151 经典的扫描线问题: 可以用线段树的每个点代表横向被矩形上下边分割开的每一格,这样将一个矩形的出现或消失化为线段树上的单点修改: 每个 ...
- js联动
html: <!-- 省 --> <div class="col-sm-2"> <select name="p_id"> & ...