Spark学习之Spark SQL（8）

1. Spark用来操作结构化和半结构化数据的接口——Spark SQL、

2. Spark SQL的三大功能

2.1 Spark SQL可以从各种结构化数据（例如JSON、Hive、Parquet等）中读取数据。

2.2 Spark SQL不仅支持在Spark程序内使用SQL语句进行查询，也支持从类似商业智能软件Tableau这样的外部工具中通过标准数据库连接器（JDBC/ODBC）连接Spark SQL进行查询。

2.3 当在Spark程序内使用Spark SQL时，Spark SQL支持SQ与常规的Python/Java/Scala代码高度整合，包括连接RDD与SQL表、公开的自定义SQL函数接口等。

3. SchemaRDD（1.3版本后为DataFrame）是存放Row对象的RDD，每个Row对象代表一行记录。SchemaRDD还包含记录的结果信息（即数据字段）。

4. 连接Spark SQL

带有Hive支持的Spark SQL的Maven索引

    groupID =org.apache.spark

    artifactID = spark-hive_2.10

    version = 1.2.0

5. 在应用使用Spark

5.1 初始化Spark

        //Sacla中SQL的import的声明

        import org.apache.spark.sql.hive.HiveContext

        import org.apache.spark.sql.SQLContext

        //Scala中SQL导入隐式转换支持

        val hiveCtx = ...//创建HiveContext

        import hiveCtx._//导入隐式转换支持

        //创建SQL上下文环境

        val sc = new SparkContext(...)

        val hiveCtx = new HiveContext(sc)

5.2 基本的查询示例

        val input = hiveCtx.jsonFile(inputFile)

        //注册输入的SchemaRDD

        input.registerTempTable("tweets")

        //依据tetwwtCount（转发计算）宣传推文

        val topTweeter = hiveCtx.sql("SELECT text,retweetCount FROM tweets ORDER　BY retweetCount LIMIT 10")

6. 用户自定义函数(UDF)

Scala版本的字符串长度UDF

    registerFunction("strLenScala",(_:string).length)

    val tweetLength = hiveCtx.sql("SELECT strLenScala('tweet') FROM tweets LIMIT 10")

Spark学习之Spark SQL（8）的更多相关文章

Spark学习之Spark Streaming（9）
Spark学习之Spark Streaming(9) 1. Spark Streaming允许用户使用一套和批处理非常接近的API来编写流式计算应用,这就可以大量重用批处理应用的技术甚至代码. 2. ...
Spark学习之Spark调优与调试（7）
Spark学习之Spark调优与调试(7) 1. 对Spark进行调优与调试通常需要修改Spark应用运行时配置的选项. 当创建一个SparkContext时就会创建一个SparkConf实例. 2. ...
Spark学习之Spark SQL
一.简介 Spark SQL 提供了以下三大功能. (1) Spark SQL 可以从各种结构化数据源(例如 JSON.Hive.Parquet 等)中读取数据. (2) Spark SQL 不仅支持 ...
Spark学习一:Spark概述
1.1 什么是Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎. 一站式管理大数据的所有场景(批处理,流处理,sql) spark不涉及到数据的存储,只 ...
Spark学习笔记--Spark在Windows下的环境搭建
本文主要是讲解Spark在Windows环境是如何搭建的一.JDK的安装 1.1 下载JDK 首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略.JDK(全称是JavaTM P ...
Spark学习(一) Spark初识
一.官网介绍 1.什么是Spark 官网地址:http://spark.apache.org/ Apache Spark™是用于大规模数据处理的统一分析引擎. 从右侧最后一条新闻看,Spark也用于A ...
Spark学习笔记--Spark在Windows下的环境搭建（转）
本文主要是讲解Spark在Windows环境是如何搭建的一.JDK的安装 1.1 下载JDK 首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略.JDK(全称是JavaTM P ...
Spark学习(4) Spark Streaming
什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式数据的处理 Spark Streaming有高吞吐量和容错能力强等特点.Spark Stre ...
Spark学习之Spark Streaming
一.简介许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用.训练机器学习模型的应用,还有自动检测异常的应用.Spark Streaming 是 Spark 为这些应用而设计的模型.它 ...

随机推荐

深度学习笔记之基于R-CNN的物体检测
不多说,直接上干货! 基于R-CNN的物体检测原文地址:http://blog.csdn.net/hjimce/article/details/50187029 作者:hjimce 一.相关理论本 ...
浅谈JavaScript的字符串的replace方法
JavaScript字符串提供了一个replace方法.replace方法可以接受两个参数:第一个参数可以使RegExp对象或者一个字符串,第二个参数可以是一个字符串或者一个函数.如果第一个参数是字符 ...
CSDN公开课：SCRUM敏捷开发（2015-8-19 免费）
当前最火的敏捷可能就是SCRUM了.但敏捷无法落地.对人要求太高.老板对敏捷动机不良等问题怎样解决呢?我将在CSDN的公开课上为大家分享"SCRUM敏捷开发".各位朋友有杀错没放过 ...
[IT学习]转载python 项目计算器
这个是从网上搜到的Python小项目之计算器(原文地址:http://www.2cto.com/kf/201402/279637.html).但该段代码估计是Python 2 写的. 如果你使用的程序 ...
jquery获取兄弟元素
按照w3c school的指引,jquery中,要获得一个元素的兄弟,可以用 prev().next()两种方法.顾名思义,prev()获得前一个,next()获得后面一个. 问题是,如果存在前后兄弟 ...
Android连接wifi，调用系统API【转】
本文转载自:http://blog.csdn.net/aaa1050070637/article/details/54136472 直接上代码,简单粗暴,一看就懂 import android.con ...
工作中常用到的JS校验
1. // 验证是否为空 2. function check_blank(obj, obj_name){ 3. if(obj.value != ''){ 4. return true; 5. }els ...
使用expdp的心得
第一步:首先使用DBA权限的用户创建directory,我使用system ,可以在服务器本地创建,也可以远程连接sqlplus进行创建,使用的将是服务器上面的路径.要确保创建directory时,操 ...
Combo Box (组合框)控件的使用方法
Combo Box (组合框)控件很简单,可以节省空间.从用户角度来看,这个控件是由一个文本输入控件和一个下拉菜单组成的.用户可以从一个预先定义的列表里选择一个选项,同时也可以直接在文本框里面输入文本 ...
Python 元组、列表
Python中,最常用的数据结构就是序列了.序列有以下几种:元组,列表,字符串等.注:代码都是在IDE中编辑的,没有用交互式环境. 一.元组(tuple) 元组其实有点类似C++中的数组,即一旦指定了 ...

Spark学习之Spark SQL（8）

Spark学习之Spark SQL（8）

1. Spark用来操作结构化和半结构化数据的接口——Spark SQL、

2. Spark SQL的三大功能

3. SchemaRDD（1.3版本后为DataFrame）是存放Row对象的RDD，每个Row对象代表一行记录。SchemaRDD还包含记录的结果信息（即数据字段）。

4. 连接Spark SQL

5. 在应用使用Spark

6. 用户自定义函数(UDF)

Spark学习之Spark SQL（8）的更多相关文章

随机推荐

热门专题