Spark SQL 操作Hive 数据

Spark 2.0以前版本:
val sparkConf = new SparkConf().setAppName("soyo")
    val spark = new SparkContext(sparkConf)

Spark 2.0以后版本：（上面的写法兼容）
直接用SparkSession：
val spark = SparkSession
      .builder
      .appName("soyo")
      .getOrCreate()
    var tc = spark.sparkContext.parallelize(数据).cache()

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.sql.{Row, SparkSession}

import org.apache.spark.sql.hive._

case class Persons(name:String,age:Int)

case class Record(key: Int, value: String)

object rdd_to_dataframe_parquet {

  val warehouseLocation = "file:${system:user.dir}/spark-warehouse"

          val spark=SparkSession.builder().config("spark.sql.warehouse.dir",warehouseLocation).enableHiveSupport().getOrCreate()

          import spark.implicits._

  def main(args: Array[String]): Unit = {

     spark.sql("CREATE TABLE IF NOT EXISTS soyo1(key INT,value STRING)")

     spark.sql("LOAD DATA LOCAL INPATH 'file:///home/soyo/桌面/spark编程测试数据/kv1.txt' INTO TABLE soyo1")

    spark.sql("select * from soyo").show() //默认只取前20行

    spark.sql("select * from soyo").take().foreach(println)

    import spark.sql                     //导入之后不需要再加Spark

    sql("SELECT COUNT(*) FROM soyo").show()

    sql("select count(*) from soyo1").show()

    sql("show tables").show()

    sql("select * from people").show()

    val result2=sql("select * from people")

    val fin_result=result2.map {

      case Row(key: String, value: Int) => s"name=$key;value=$value"

    }

    fin_result.show()

    val recordsDF = spark.createDataFrame(( to ).map(i => Record(i, s"soyo_$i")))

    recordsDF.createOrReplaceTempView("records")

    // Queries can then join DataFrame data with data stored in Hive.

    sql("SELECT * FROM records ").show()

    val res= sql("SELECT * FROM records ").map(

      x=>"key:"+x()+",value:"+x()

      ).show()

    spark.stop()

  }

}

结果：+---+-------+
|key| value|
+---+-------+
|238|val_238|
| 86| val_86|
|311|val_311|
| 27| val_27|
|165|val_165|
|409|val_409|
|255|val_255|
|278|val_278|
| 98| val_98|
|484|val_484|
|265|val_265|
|193|val_193|
|401|val_401|
|150|val_150|
|273|val_273|
|224|val_224|
|369|val_369|
| 66| val_66|
|128|val_128|
|213|val_213|
+---+-------+
only showing top 20 rows

[238,val_238]
[86,val_86]
[311,val_311]
[27,val_27]
[165,val_165]
[409,val_409]
[255,val_255]
[278,val_278]
[98,val_98]
[484,val_484]
+--------+
|count(1)|
+--------+
| 6000|
+--------+

+--------+
|count(1)|
+--------+
| 8500|
+--------+

+-----+---+
| name|age|
+-----+---+
|soyo8| 35|
| 小周| 30|
| 小华| 19|
| soyo| 88|
+-----+---+

+---+-------+
|key| value|
+---+-------+
| 1| soyo_1|
| 2| soyo_2|
| 3| soyo_3|
| 4| soyo_4|
| 5| soyo_5|
| 6| soyo_6|
| 7| soyo_7|
| 8| soyo_8|
| 9| soyo_9|
| 10|soyo_10|
| 11|soyo_11|
| 12|soyo_12|
| 13|soyo_13|
| 14|soyo_14|
| 15|soyo_15|
| 16|soyo_16|
| 17|soyo_17|
| 18|soyo_18|
| 19|soyo_19|
| 20|soyo_20|
+---+-------+
only showing top 20 rows

Spark SQL 操作Hive 数据的更多相关文章

spark2.3.0 配置spark sql 操作hive
spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然后在spark引擎中进行sql统计分析,从而,通过spark sql与hive结合实现数据分析将成为一种最佳实践.配置步骤 ...
Spark SQL读取hive数据时报找不到mysql驱动
Exception: Caused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke the "BoneC ...
spark sql 访问hive数据时找不mysql的解决方法
我尝试着在classpath中加n入mysql的驱动仍不行解决方法:在启动的时候加入参数--driver-class中加入mysql 驱动 [hadoop@master spark-1.0.1-bi ...
Spark SQL with Hive
前一篇文章是Spark SQL的入门篇Spark SQL初探,介绍了一些基础知识和API,可是离我们的日常使用还似乎差了一步之遥. 终结Shark的利用有2个: 1.和Spark程序的集成有诸多限制 ...
Hive on Spark和Spark sql on Hive，你能分的清楚么
摘要:结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序. 本文分享自华为云社区<Hive on Spark和Spark sql o ...
spark sql 操作
DSL风格语法 1.查看DataFrame中的内容 scala> df1.show +---+--------+---+ | id| name|age| +---+--------+---+ | ...
spark sql数据源--hive
使用的是idea编辑器 spark sql从hive中读取数据的步骤:1.引入hive的jar包 2.将hive-site.xml放到resource下 3.spark sql声明对hive的支持案 ...
通过 Spark R 操作 Hive
作为数据工程师,我日常用的主力语言是R,HiveQL,Java与Scala.R是非常适合做数据清洗的脚本语言,并且有非常好用的服务端IDE——RStudio Server:而用户日志主要储存在hive ...
Spark SQL与Hive on Spark的比较
简要介绍了SparkSQL与Hive on Spark的区别与联系一.关于Spark 简介在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题 ...

随机推荐

2019西安多校联训 Day4
T1 大水题!!难度简单,显然的贪心策略即可,but... 思路:首先我们按与i点作战后活下来的士兵排序,然后若当前剩余兵力足够直接减掉战斗死亡人数,如果不够就加够再打它,但是!我们在考完试观察测 ...
「 hihoCoder 1014 」Trie 树
标题真直接题目大意给你 $n$ 个字符串.存到一个字典中.又给你 $m$ 个询问,每个询问给一个字符串,在字典中查出有多少个字符串是以这个字符串为前缀. 解题思路模板题啊在每个点设置一个变量 ...
Linux：Apache改静态网页、个人用户主页、虚拟网站主机、Apache访问控制
Apache改静态网页 1.概述: Apache是web服务器(静态解析,如HTML),tomcat是java应用服务器(动态解析,如JSP.PHP) Tomcat只是一个servlet(jsp也翻 ...
微信小程序中如何实现分页下拉加载？（附源码）
转眼间坚持写教你微信小程序系列已经有十节系列课程了,每天的工作压力繁重,小女子也不知道自己还能坚持这样的系列教程多久.只希望每篇教程真的对大家有帮助.这节课我们要介绍的就是如何实现分页的下拉加载,我们 ...
什么是restful
Python学习之前
编程语言的分类: 1.机器语言:直接以0和1编写指令代码,计算机能直接识别处理: 特点:运行速度最快,太复杂,开发效率低,可执行操作最多. 2.汇编语言:本质上依然是机器语言,用英文代替0和1,更容易 ...
redis 指定端口启动
由于资源紧张需要多创建一个redis实例重新copy一份实例,然后修改redis.conf文件, 找到port 6379 处修改端口号 6380 通过下面命令启动就好了 src/redis-se ...
git命令大杂烩
查看版本库中的文件: git ls-files添加到暂存区: git add filesName|\folderName(循环递归) git add .(添加当前目录下的所有文件包括子目录,如果添加文 ...
vue2源码浏览分析01
1.构造函数 Vue$3 function Vue$3 (options) { if ("development" !== 'production' && !(t ...
v$log and v$logfiles
v$log has one row for each group. v$logfile has one row for each file. There is a status column for ...

Spark SQL 操作Hive 数据

Spark SQL 操作Hive 数据的更多相关文章

随机推荐

热门专题