036 SQLContext和HiveContext】的更多相关文章

1.SqlContext SQLContext依赖SparkContext 功能:支持SparkSQL操作(不依赖Hive) SQLContext在一个JVM中默认允许存在多个 只有SQLContext支持序列化与反序列化. 2.HiveContext 继承了SQLContext HiveContext是SparkSQL读取Hive表数据的入口 继承自SQLContext,重写了一些方法. 发现sqlContext的类型是HiveContext,所以以前的示例可以直接进行操作hive. 3.Sp…
本文简单介绍两种往SQLContext.HiveContext中注册自定义函数方法. 下边以sqlContext为例,在spark-shell下操作示例: scala> sc res5: org.apache.spark.SparkContext = org.apache.spark.SparkContext@35d4035f scala> sqlContext res7: org.apache.spark.sql.SQLContext = org.apache.spark.sql.hive.…
使用Spark SQL,除了使用之前介绍的方法,实际上还可以使用SQLContext或者HiveContext通过编程的方式实现.前者支持SQL语法解析器(SQL-92语法),后者支持SQL语法解析器和HiveSQL语法解析器,默认为HiveSQL语法解析器,用户可以通过配置切换成SQL语法解析器来运行HiveQL不支持的语法,如:select 1.实际上HiveContext是SQLContext的子类,因此在HiveContext运行过程中除了override的函数和变量,可以使用和SQLC…
SparkContext 是什么? 驱动程序使用SparkContext与集群进行连接和通信,它可以帮助执行Spark任务,并与资源管理器(如YARN 或Mesos)进行协调. 使用SparkContext,可以访问其他上下文,比如SQLContext和HiveContext. 使用SparkContext,我们可以为Spark作业设置配置参数. 如果您在spark-shell中,那么SparkContext已经为您提供了,并被分配给变量sc. 如果还没有SparkContext,可以先创建一个…
启动Spark-shell: [root@node1 ~]# spark-shell Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel). Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 1.6.0 /_/ Us…
There are two ways to create context in Spark SQL: SqlContext:scala> import org.apache.spark.sql._scala> var sqlContext = new SQLContext(sc) HiveContext:scala> import org.apache.spark.sql.hive._scala> val hc = new HiveContext(sc) Though most o…
HiveContext/SQLContext val hiveContext=new HiveContext(new SparkContext(new SparkConf().setAppName("HiveApp").setMaster("spark://master:7077")))  ---定义一个hiveContext变量 val sqlContext=new SQLContext(new SparkContext(new SparkConf().setAp…
spark升级到1.5,里面的hive版本升级到1.2.1版本,我写了如下的代码 object SQLApp extends App{ val sparkconf = new SparkConf().setAppName("sql").setMaster("local") val sc = new SparkContext(sparkconf) val sqlContext = new HiveContext(sc) sqlContext.sql("sho…
Spark处理后的结果数据resultDataFrame可以有多种存储介质,比较常见是存储为文件.关系型数据库,非关系行数据库. 各种方式有各自的特点,对于海量数据而言,如果想要达到实时查询的目的,使用HBase作为存储的介质是非常不错的选择. 现需求是:Spark对Hive.mysql数据源进行处理,然后将resultDataFrame写入HBase,但是HBase和Spark不在用一个环境,即结果需要通过网络IO进行二次操作.所以此篇文章会采取某些手段来实现上述要求. 将DataFrame写…
Spark SQL 之 DataFrame 转载请注明出处:http://www.cnblogs.com/BYRans/ 概述(Overview) Spark SQL是Spark的一个组件,用于结构化数据的计算.Spark SQL提供了一个称为DataFrames的编程抽象,DataFrames可以充当分布式SQL查询引擎. DataFrames DataFrame是一个分布式的数据集合,该数据集合以命名列的方式进行整合.DataFrame可以理解为关系数据库中的一张表,也可以理解为R/Pyth…