【互动问答分享】第5期决胜云计算大数据时代Spark亚太研究院公益大讲堂
Spark亚太研究院100期公益大讲堂 【第5期互动问答分享】
Q1:spark怎样支持即席,应该不是spark sql吧,是hive on spark么?
Spark1.0 以前支持即席查询的技术是Shark;
Spark 1.0和 Spark 1.0.1支持的即席查询技术是Spark SQL;
尚未发布的Spark 1.1开始 Spark SQL是即席查询的核心,我们期待Hive on Spark也能够支持即席查询;
Q2:现在spark 1.0.0版本是支持hive on spark么,它支持cli交互式访问么?
Spark1.0.0不支持hive on spark;
hive on spark这个项目正在开发中,预计在 Spark 1.1版本的时候发布;
Spark 1.0.0现在还不直接支持cli访问;
Q3:spark sql和hbase怎么结合呢?
Spark sql和hbase即可要借助于Spark core的RDD功能;
使用hbase的时候需要导入hbase在Spark上的包
Spark 1.0.0现在还不直接支持cli访问;
Q4:sparkSql支持sql全吗?老师 可以把现在的PLSQL 直接转换为 SPARKSQL么?
Spark sql现在支持SQL-92的基本功能,后续版本不会不断增强;
PLSQL 现在还不能够直接转为Spark SQL;
想要更强的SQL支持,在Spark1.0.0和Spark1.0.1版本可以考虑Hive in Spark SQL的功能;
Q5:如果支持hive on spark,那么什么时候用spark sql,什么时候用hive on spark?
Hive on spark预计在Spark 1.1这个版本发布,核心功能是要在Spark上使用已有的Hive的一切数据和功能;
和hive不相关都可以使用Spark SQL;
从理论上讲随着Spark SQL在未来版本的不断增强,可以做hive的一切事情;
Q6:Spark SQL可以使用group by 吗?
Spark SQL可以使用group by的功能;
在SchemaRDD中有group by的支持;
groupBy(groupingExprs: Expression*)(aggregateExprs: Expression*): SchemaRDD
l Performs a grouping followed by an aggregation.
Q7:spark sql 现在支持sql的那些操作 一直在官网上没能找到相应的document?
Spark SQL API的官方Document网址
l http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.SchemaRDD ;
Spark SQL使用的官方网址
http://spark.apache.org/docs/latest/sql-programming-guide.html
【互动问答分享】第5期决胜云计算大数据时代Spark亚太研究院公益大讲堂的更多相关文章
- 【互动问答分享】第15期决胜云计算大数据时代Spark亚太研究院公益大讲堂
"决胜云计算大数据时代" Spark亚太研究院100期公益大讲堂 [第15期互动问答分享] Q1:AppClient和worker.master之间的关系是什么? AppClien ...
- 【互动问答分享】第13期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第13期互动问答分享] Q1:tachyon+spark框架现在有很多大公司在使用吧? Yahoo!已经在长期大规模使用: 国内也有 ...
- 【互动问答分享】第10期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第10期互动问答分享] Q1:Spark on Yarn的运行方式是什么? Spark on Yarn的运行方式有两种:Client ...
- 【互动问答分享】第8期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第8期互动问答分享] Q1:spark线上用什么版本好? 建议从最低使用的Spark 1.0.0版本,Spark在1.0.0开始核心 ...
- 【互动问答分享】第7期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第7期互动问答分享] Q1:Spark中的RDD到底是什么? RDD是Spark的核心抽象,可以把RDD看做“分布式函数编程语言”. ...
- 【互动问答分享】第6期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第6期互动问答分享] Q1:spark streaming 可以不同数据流 join吗? Spark Streaming不同的数据流 ...
- 【互动问答分享】第11期决胜云计算大数据时代Spark亚太研究院公益大讲堂
Q1:docker成熟度如何? Docker是2013年和2014年最火爆的云计算开源项目: Baidu公司是中国使用Docker最为深入和最大规模的公司,线上稳定运行数十万个Docker容器,目前已 ...
- 【互动问答分享】第18期决胜云计算大数据时代Spark亚太研究院公益大讲堂
Q1:Master和Driver的是同一个东西吗? 两者不是同一个东西,在Standalone模式下Master是用于集群资源管理和调度的,而Driver适用于指挥Worker上的Executor通过 ...
- 如何成为云计算大数据Spark高手
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库.流处理和图计算等多种计算范式,是罕见的全能选手. ...
随机推荐
- powerdesigner 外键生成sql语句设置在创建表里面
根据情况需要将创建外键表的sql语句生成在创建表的sql语句中,如下设置:
- 【bzoj1391】[Ceoi2008]order 网络流最小割
原文地址:http://www.cnblogs.com/GXZlegend/p/6796937.html 题目描述 有N个工作,M种机器,每种机器你可以租或者买过来. 每个工作包括若干道工序,每道工序 ...
- ScrollBarsEnabled的使用
在WinForm中通过WebBrowser获取网页,我想把WebBrowser的ScollBar去掉,我的网页不需要滚动条. 设置方法如下:单击WebBrowser设计页面,在属性页面有一个Scrol ...
- BZOJ4531 && BJOI2014 trace
#include<cstdio> #include<cctype> using namespace std ; struct state { int len ; int p ; ...
- vue.js 三种方式安装--npm安装
Vue.js是一个构建数据驱动的 web 界面的渐进式框架. Vue.js 的目标是通过简单的 API 实现响应的数据绑定和组合的视图组件.它不仅易上手,便于与第三方库或既有项目整合. ...
- [Leetcode] Balanced binary tree平衡二叉树
Given a binary tree, determine if it is height-balanced. For this problem, a height-balanced binary ...
- BZOJ_day4&&DSFZ_day1
昨天坐火车才水了三道题... 25题 100810221041105110591087108811791191119212571303143218541876195119682140224224382 ...
- [HEOI2015]最短不公共子串
四合一的题. 简单粗暴的方法: 子串匹配——SAM 子序列匹配——序列自动机 关于序列自动机:序列自动机—— [FJOI2016]所有公共子序列问题 (其实这个玩意没有什么,n+1个点,每个点的字符集 ...
- HDU 4417 划分树写法
Problem Description Mario is world-famous plumber. His “burly” figure and amazing jumping ability re ...
- Python基础(7)闭包函数、装饰器
一.闭包函数 闭包函数:1.函数内部定义函数,成为内部函数, 2.改内部函数包含对外部作用域,而不是对全局作用域名字的引用 那么该内部函数成为闭包函数 #最简单的无参闭包函数 def func1() ...