spark 读取hive中的数据

scala> import org.apache.spark.sql.hive.HiveContext

import org.apache.spark.sql.hive.HiveContext

scala> val hiveContext = new HiveContext(sc)

//hive中的feigu数据库中表stud_info

scala> val stud_infoRDD = hiveContext.sql("select * from feigu.stud_info").rdd

scala> stud_infoRDD.take(5).foreach(line => println("code:"+line(0)+";name:"+line(1)))

code:stud_code;name:stud_name

code:2015101000;name:王进

code:2015101001;name:刘海

code:2015101002;name:张飞

code:2015101003;name:刘婷

spark载入数据到hive

两个文件

hadoop@master:~/wujiadong$ cat spark_stud_info.txt

wujiadong,26

ji,24

sun,27

xu,25

hadoop@master:~/wujiadong$ cat spark_stud_score.txt

wujiadong,90

ji,100

sun,99

xu,99

scala代码

scala> import org.apache.spark.sql.hive.HiveContext

scala> val hiveContext = new HiveContext(sc)

scala> hiveContext.sql("drop table if exists wujiadong.spark_stud_info")

scala> hiveContext.sql("create table if not exists wujiadong.spark_stud_info(name string,age int) row format delimited fields terminated by ','")

scala> hiveContext.sql("load data local inpath '/home/hadoop/wujiadong/spark_stud_info.txt' into table wujiadong.spark_stud_info");

scala> hiveContext.sql("drop table if exists wujiadong.spark_stud_score")

scala> hiveContext.sql("create table if not exists wujiadong.spark_stud_score(name string,score int) row format delimited fields terminated by ','")

scala> hiveContext.sql("load data local inpath '/home/hadoop/wujiadong/spark_stud_score.txt' into table wujiadong.spark_stud_score");

然后到hive中查询是否导入成功

hive> select * from spark_stud_info;

OK

wujiadong	26

ji	24

sun	27

xu	25

Time taken: 0.178 seconds, Fetched: 4 row(s)

hive> select * from spark_stud_score;

OK

wujiadong	90

ji	100

sun	99

xu	99

Time taken: 0.212 seconds, Fetched: 4 row(s)

//将两张表进行连接查询大于99分的

scala> val df = hiveContext.sql("select sss.name,sss.score from wujiadong.spark_stud_info ssi join wujiadong.spark_stud_score sss on ssi.name=sss.name where sss.score > 99")

scala> df.show()

17/03/06 22:30:37 INFO FileInputFormat: Total input paths to process : 1

17/03/06 22:30:38 INFO FileInputFormat: Total input paths to process : 1

+----+-----+

|name|score|

+----+-----+

|  ji|  100|

+----+-----+

//将df中数据保存到表result_stu表中

scala> hiveContext.sql("drop table if exists wujiadong.result_stud")

scala> df.saveAsTable("wujiadong.result_stu")

//然后针对表result_stu直接创建dataframe

//Hive中查看

hive> select * from result_stu;

OK

SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".

SLF4J: Defaulting to no-operation (NOP) logger implementation

SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.

ji	100

Time taken: 0.252 seconds, Fetched: 1 row(s)

参考资料

http://dblab.xmu.edu.cn/blog/1086-2/

参考资料

http://blog.csdn.net/ggz631047367/article/details/50445877

spark SQL学习（spark连接hive）的更多相关文章

spark SQL学习（认识spark SQL）
spark SQL初步认识 spark SQL是spark的一个模块,主要用于进行结构化数据的处理.它提供的最核心的编程抽象就是DataFrame. DataFrame:它可以根据很多源进行构建,包括 ...
spark SQL学习（spark连接 mysql）
spark连接mysql(打jar包方式) package wujiadong_sparkSQL import java.util.Properties import org.apache.spark ...
spark SQL学习（案例-统计每日销售）
需求:统计每日销售额 package wujiadong_sparkSQL import org.apache.spark.sql.types._ import org.apache.spark.sq ...
spark SQL学习（案例-统计每日uv）
需求:统计每日uv package wujiadong_sparkSQL import org.apache.spark.sql.{Row, SQLContext} import org.apache ...
spark SQL学习（综合案例-日志分析）
日志分析 scala> import org.apache.spark.sql.types._ scala> import org.apache.spark.sql.Row scala&g ...
spark SQL学习（数据源之json）
准备工作数据文件students.json {"id":1, "name":"leo", "age":18} {&qu ...
spark SQL学习（数据源之parquet）
Parquet是面向分析型业务得列式存储格式编程方式加载数据代码示例 package wujiadong_sparkSQL import org.apache.spark.sql.SQLConte ...
spark SQL学习（load和save操作）
load操作:主要用于加载数据,创建出DataFrame save操作:主要用于将DataFrame中的数据保存到文件中代码示例(默认为parquet数据源类型) package wujiadong ...
IDEA 中Spark SQL通过JDBC连接mysql数据库
一.IDEA装驱动: 1.下载一个MySQL的JDBC驱动:mysql-connector-java-5.1.44.tar.gz2.在idea Open Moudle Settings 在 Moudl ...

随机推荐

OnePy--构建属于自己的量化回测框架
本文主要记录我构建量化回测系统的学习历程. 被遗弃的项目:Chandlercjy/OnePy_Old 新更新中的项目:Chandlercjy/OnePy 目录 1. 那究竟应该学习哪种编程语言比较好呢 ...
centos7虚拟机克隆
第一步:克隆打开VMware,确认已经完成安装配置的centos7虚拟机在关闭状态. 右键点击虚拟机,选择“管理”-“克隆” 原始虚拟机名称为“master”,IP地址为“192.168.80.10 ...
Flowers---hdu4325（区间处理离散化）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4325 题意:有n种花,每种花都有自己的开花时间段从S到E,有m个查询,每个查询都是一个时间点,求这一时 ...
持续集成之戏说Check-in Dance（转）
add by zhj: 先说一下持续集成的定义,这是ThoughtWorks首席科学家Martin Fowler在<持续集成>第二版中给出的,“持续集成是一种软件开发实践.在持续集成中,团 ...
iftop linux监控工具安装使用
Linux中查看网卡流量工具有iptraf.iftop以及nethogs等,iftop可以用来监控网卡的实时流量(可以指定网段).反向解析IP.显示端口信息等. 安装iftop的命令如下: CentO ...
python学习笔记（二十一）构造函数和析构函数
python中的特殊方法,其中两个,构造函数和析构函数的作用: 比说“__init__”这个构造函数,具有初始化的作用,也就是当该类被实例化的时候就会执行该函数.那么我们就可以把要先初始化的属性放到这 ...
Jmeter(三)断言和关联
Jmeter断言断言是什么呢,它是用来检查返回结果对不对的.用来验证结果是否正确,如果正确的话,就代表这个请求的返回是正确的,如果没有的话就代表这个请求的结果和我们预期的不一致,这样我们就可以通过断 ...
AngularJS filter:search 是如何匹配的 ng-repeat filter:search ，filter:{$:search}，只取repeat的item的value 不含label
1. filter可以接收参数,参数用 : 进行分割,如下: {{ expression | filter:argument1:argument2:... }} 2. filter参数是对象 ...
matplotlib绘制饼状图
源自http://blog.csdn.net/skyli114/article/details/77508430?ticket=ST-41707-PzNbUDGt6R5KYl3TkWDg-passpo ...
Flask之初体验
Flask是一个基于Python开发并且依赖jinja2模板和Werkzeug WSGI服务的一个微型框架,对于Werkzeug本质是Socket服务端,其用于接收http请求并对请求进行预处理,然后 ...

spark SQL学习（spark连接hive）

spark 读取hive中的数据

spark载入数据到hive

两个文件

scala代码

spark SQL学习（spark连接hive）的更多相关文章

随机推荐

热门专题