Spark 2.0以前版本:
val sparkConf = new SparkConf().setAppName("soyo")
    val spark = new SparkContext(sparkConf)
Spark 2.0以后版本:(上面的写法兼容)
直接用SparkSession:
val spark = SparkSession
      .builder
      .appName("soyo")
      .getOrCreate()
    var tc = spark.sparkContext.parallelize(数据).cache() import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.hive._ case class Persons(name:String,age:Int)
case class Record(key: Int, value: String) object rdd_to_dataframe_parquet {
val warehouseLocation = "file:${system:user.dir}/spark-warehouse"
val spark=SparkSession.builder().config("spark.sql.warehouse.dir",warehouseLocation).enableHiveSupport().getOrCreate()
import spark.implicits._
def main(args: Array[String]): Unit = {
spark.sql("CREATE TABLE IF NOT EXISTS soyo1(key INT,value STRING)")
spark.sql("LOAD DATA LOCAL INPATH 'file:///home/soyo/桌面/spark编程测试数据/kv1.txt' INTO TABLE soyo1")
spark.sql("select * from soyo").show() //默认只取前20行
spark.sql("select * from soyo").take().foreach(println)
import spark.sql //导入之后不需要再加Spark sql("SELECT COUNT(*) FROM soyo").show() sql("select count(*) from soyo1").show()
sql("show tables").show()
sql("select * from people").show()
val result2=sql("select * from people")
val fin_result=result2.map {
case Row(key: String, value: Int) => s"name=$key;value=$value"
}
fin_result.show() val recordsDF = spark.createDataFrame(( to ).map(i => Record(i, s"soyo_$i")))
recordsDF.createOrReplaceTempView("records") // Queries can then join DataFrame data with data stored in Hive.
sql("SELECT * FROM records ").show()
val res= sql("SELECT * FROM records ").map(
x=>"key:"+x()+",value:"+x()
).show()
spark.stop()
} }

结果:+---+-------+
|key|  value|
+---+-------+
|238|val_238|
| 86| val_86|
|311|val_311|
| 27| val_27|
|165|val_165|
|409|val_409|
|255|val_255|
|278|val_278|
| 98| val_98|
|484|val_484|
|265|val_265|
|193|val_193|
|401|val_401|
|150|val_150|
|273|val_273|
|224|val_224|
|369|val_369|
| 66| val_66|
|128|val_128|
|213|val_213|
+---+-------+
only showing top 20 rows

[238,val_238]
[86,val_86]
[311,val_311]
[27,val_27]
[165,val_165]
[409,val_409]
[255,val_255]
[278,val_278]
[98,val_98]
[484,val_484]
+--------+
|count(1)|
+--------+
|    6000|
+--------+

+--------+
|count(1)|
+--------+
|    8500|
+--------+

+--------+---------+-----------+
|database|tableName|isTemporary|
+--------+---------+-----------+
| default|     soyo|      false|
| default|    soyo1|      false|
|        |   people|       true|
+--------+---------+-----------+

+-----+---+
| name|age|
+-----+---+
|soyo8| 35|
|   小周| 30|
|   小华| 19|
| soyo| 88|
+-----+---+

+-------------------+
|              value|
+-------------------+
|name=soyo8;value=35|
|   name=小周;value=30|
|   name=小华;value=19|
| name=soyo;value=88|
+-------------------+

+---+-------+
|key|  value|
+---+-------+
|  1| soyo_1|
|  2| soyo_2|
|  3| soyo_3|
|  4| soyo_4|
|  5| soyo_5|
|  6| soyo_6|
|  7| soyo_7|
|  8| soyo_8|
|  9| soyo_9|
| 10|soyo_10|
| 11|soyo_11|
| 12|soyo_12|
| 13|soyo_13|
| 14|soyo_14|
| 15|soyo_15|
| 16|soyo_16|
| 17|soyo_17|
| 18|soyo_18|
| 19|soyo_19|
| 20|soyo_20|
+---+-------+
only showing top 20 rows

+--------------------+
|               value|
+--------------------+
|  key:1,value:soyo_1|
|  key:2,value:soyo_2|
|  key:3,value:soyo_3|
|  key:4,value:soyo_4|
|  key:5,value:soyo_5|
|  key:6,value:soyo_6|
|  key:7,value:soyo_7|
|  key:8,value:soyo_8|
|  key:9,value:soyo_9|
|key:10,value:soyo_10|
|key:11,value:soyo_11|
|key:12,value:soyo_12|
|key:13,value:soyo_13|
|key:14,value:soyo_14|
|key:15,value:soyo_15|
|key:16,value:soyo_16|
|key:17,value:soyo_17|
|key:18,value:soyo_18|
|key:19,value:soyo_19|
|key:20,value:soyo_20|
+--------------------+
only showing top 20 rows

Spark SQL 操作Hive 数据的更多相关文章

  1. spark2.3.0 配置spark sql 操作hive

    spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然后在spark引擎中进行sql统计分析,从而,通过spark sql与hive结合实现数据分析将成为一种最佳实践.配置步骤 ...

  2. Spark SQL读取hive数据时报找不到mysql驱动

    Exception: Caused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke the "BoneC ...

  3. spark sql 访问hive数据时找不mysql的解决方法

    我尝试着在classpath中加n入mysql的驱动仍不行 解决方法:在启动的时候加入参数--driver-class中加入mysql 驱动 [hadoop@master spark-1.0.1-bi ...

  4. Spark SQL with Hive

    前一篇文章是Spark SQL的入门篇Spark SQL初探,介绍了一些基础知识和API,可是离我们的日常使用还似乎差了一步之遥. 终结Shark的利用有2个: 1.和Spark程序的集成有诸多限制 ...

  5. Hive on Spark和Spark sql on Hive,你能分的清楚么

    摘要:结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序. 本文分享自华为云社区<Hive on Spark和Spark sql o ...

  6. spark sql 操作

    DSL风格语法 1.查看DataFrame中的内容 scala> df1.show +---+--------+---+ | id| name|age| +---+--------+---+ | ...

  7. spark sql数据源--hive

    使用的是idea编辑器 spark sql从hive中读取数据的步骤:1.引入hive的jar包 2.将hive-site.xml放到resource下 3.spark sql声明对hive的支持 案 ...

  8. 通过 Spark R 操作 Hive

    作为数据工程师,我日常用的主力语言是R,HiveQL,Java与Scala.R是非常适合做数据清洗的脚本语言,并且有非常好用的服务端IDE——RStudio Server:而用户日志主要储存在hive ...

  9. Spark SQL与Hive on Spark的比较

    简要介绍了SparkSQL与Hive on Spark的区别与联系 一.关于Spark 简介 在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题 ...

随机推荐

  1. BLOCK层基本概念:bio,request,request_queue

    Summary bio 代表一个IO 请求 request 是bio 提交给IO调度器产生的数据,一个request 中放着顺序排列的bio 当设备提交bio 给IO调度器时,IO调度器可能会插入bi ...

  2. LeetCode141LinkedListCycle和142LinkedListCycleII

    141题:判断链表是不是存在环! // 不能使用额外的存储空间 public boolean hasCycle(ListNode head) { // 如果存在环的 两个指针用不一样的速度 会相遇 L ...

  3. 诊断:Goldengate OGG-01163 Bad column length

    故障现象: OGG- Bad column length () specified . 原因:源端修改了字段长度.虽然源端和目标端的长度已经通过DDL语句修改到一致,在extract进程未重启的情况下 ...

  4. Luogu P3110 [USACO14DEC]驮运Piggy Back

    解题思路 看到下面很多人都在说什么遇到了之后要不要背着走,其实根本不需要,同样的我也是跑了三遍$SPFA$,求出了以$1$为起点到个点的$dist$,和以$2$为起点到个点的$dist$,还有以$n$ ...

  5. 深入分析同步工具类之CountDownLatch

    概览: CountDownLatch又称闭锁,其作用是让一个或者多个线程挂起,直到其他的线程执行完后恢复挂起的线程,使其继续执行.内部维护着一个静态内部类Sync,该类继承AbstractQueued ...

  6. 微信小程序火爆,谁能在微信小程序赚取第一桶金?

    2016年末,最火的话题:微信小程序.身边好多朋友蠢蠢欲动的想要借微信小程序创业,春节期间整理思绪,我们就简单说说微信的小程序可能会让哪些人赚钱: 1,微信小程序培训,能够快速赚钱 做培训的肯定首先赚 ...

  7. pressure coeffcient of a wing/blade

    software: CFD POST ANSYS menu bar, select Tools > Macro Calculator. \ correction: Ref pressure is ...

  8. 洛谷 2146 [NOI2015]软件包管理器

    [题解] 每个软件只依赖另一个软件,且依赖关系不构成环,那么很容易想到这是树形结构. 我们用1表示以安装,用0表示未安装或已卸载:那么安装一个软件,就是把它到树根的路径上所有的点都改为1:卸载一个软件 ...

  9. POJ 1019 数学题

    #include <cstdio> #include <cstring> using namespace std; ]; //sum[i]表示尾数为i的组最大可达到的数字个数 ...

  10. [luoguP2760] 科技庄园(背包DP)

    传送门 每次拿完还得回去... 数据中有两个需要注意的地方: 存在桃树上有桃子但是摘 0 次的情况 题目中要求体力不能为0,因此就算到达了重点体力也不能为0,所以实际上允许使用的体力为 a - 1 把 ...