Spark SQL历险记

现在的spark sql编程通常使用scala api 以及 java api的方式，相比于直接使用 spark sql语句，spark api灵活很多，毕竟可以基于dataset以及rdd两种方式进行操作，不过spark sql的坑就有点多了。

1，getClass.getResourceAsStream这个类，网上通常说的是不加"/"是从当前包读取，加了"/"是从根class路径读取，但是根路径并不是在idea或者文件下看到的诸如src/main/resource/这样的路径，而是最终打包时候生成的jar的时候的格式，在生成jar包的时候resource文件夹下会被展开到根路径下，所以如果要加载resource下的资源，只需要"/资源名"就可以了

2、select crossInfo, split(crossInfo, '|') as jda from tem_test_yy lateral view explode(split(jdaList, '#')) tmpTable as crossInfo

这个语句有bug，返回的结果是

jda1||time1    ["j","d","a","","|","","|","t","i","m","e","",""]

jda1||time1    ["j","d","a","","|","","|","t","i","m","e","",""]

jda2||time2    ["j","d","a","","|","","|","t","i","m","e","",""]

jda3||time3   ["|","j","d","a","","|","","|","t","i","m","e","",""]

主要原因是hive里面|字符要使用转义符号！！，所以正确用法是split(crossInfo, '\\|');

3、spark persist不能乱用，尤其是

MEMORY_AND_DISK_SER

级别，对于大表来说，persist效率远不如多执行一遍。。对于几十亿级别的表，效率可降低数倍。。

4、dataframe = dataset[row] ,spark map里面的匿名函数返回值不能是dataset[row]，否则会报序列化错误，它只支持dataset[class]的形式，需要在返回以后在driver端通过 dataset[row].toDF()转成 dataframe也就是dataset[row]才行。但是dataset[row]可以作为map的输入。

5、scala selet("_1.*")和select($"_1")，如果处理的是Tuple[_1,_2]类型的dataset,

后者会生成如下的schema

|-- _1: struct (nullable = true)

 |    |-- all_jda: string (nullable = true)

 |    |-- user_visit_ip: string (nullable = true)

 |    |-- sequence_num: integer (nullable = true)

前者是生成如下的schema

 | -- all_jda: string (nullable = true)

 | -- user_visit_ip: string (nullable = true)

 | -- sequence_num: integer (nullable = true)

这绝对是一个坑=。=，后者会把多一层schema结构，而在spark sql语句中是能直接取到非顶层的列的。。

6、spark sql的一些问题

(1)， hive支持使用正则语句，spark sql 不支持
(2)， left out join on A.column = B.column 而不能写成 left out join on column;
(3), select * from A left out join B on cloumn会造成ambigious错误需要小心
(4), concat_ws不支持对除String外的其他类型数组的连接，需要自己实现一个udf

Spark SQL历险记的更多相关文章

Spark SQL 之 Data Sources
#Spark SQL 之 Data Sources 转载请注明出处:http://www.cnblogs.com/BYRans/ 数据源(Data Source) Spark SQL的DataFram ...
Spark SQL 之 DataFrame
Spark SQL 之 DataFrame 转载请注明出处:http://www.cnblogs.com/BYRans/ 概述(Overview) Spark SQL是Spark的一个组件,用于结构化 ...
【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...
Spark SQL Example
Spark SQL Example This example demonstrates how to use sqlContext.sql to create and load a table ...
通过Spark SQL关联查询两个HDFS上的文件操作
order_created.txt 订单编号订单创建时间 -- :: -- :: -- :: -- :: -- :: order_picked.txt 订单编号订单提取时间 -- :: ...
Spark SQL 之 Migration Guide
Spark SQL 之 Migration Guide 支持的Hive功能转载请注明出处:http://www.cnblogs.com/BYRans/ Migration Guide 与Hive的兼 ...
Spark SQL 官方文档-中文翻译
Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 Data ...
Spark SQL 之 Performance Tuning & Distributed SQL Engine
Spark SQL 之 Performance Tuning & Distributed SQL Engine 转载请注明出处:http://www.cnblogs.com/BYRans/ 缓 ...

随机推荐

sass动态实现颜色平铺显示
@function stripes($position,$colors) { $colors: if(type-of($colors)!='list', compact($colors), $colo ...
批量执行 sql 的 shell 脚本
最近有用到需要批量导入N个表的sql,一个个导入会吐老血的,写了个shell脚本,便捷导入. 通常我们导入单个sql,可以用 $mysql -uroot -p world < xxxx.sql ...
饮冰三年-人工智能-Python-21 Python数据库MySql
一:下载与安装 1:下载地址:https://dev.mysql.com/downloads/mysql/ 2:安装MySql 打开下载文件解压到指定文件目录.(我这里解压目录为D:\MySql\my ...
Typescript高级类型与泛型难点详解
最近做的TS分享,到了高级类型这一块.通过琢磨和实验还是挖掘出了一些深层的东西,在此处做一下记录,也分享给各位热爱前端的小伙伴. 其实在学习TS之前就要明确以下几点: 1. typescrip ...
linux操作笔记记录
export https_proxy=https://10.10.2.91:8888export http_proxy=http://10.10.2.91:8888 桥接模式:需要配一个静态ip,可以 ...
C 小白的 thrift 环境搭建
公司有个通讯是用的 thrift ,thrift 是个什么都东西,可以类比 webservice 吧,比 webservice 高效些,不管是啥,搞他! 先在 mac 上搞本地开发环境网上一搜貌 ...
JAVA时间工具类，在维护的项目里的
package com.inspur.jobSchedule.util; import org.apache.commons.lang3.time.DateUtils; import org.apac ...
[Doc]MongoDB用户创建与启用access-control
文档链接:https://docs.mongodb.com/manual/tutorial/enable-authentication/ Pre 个人总感觉数据库的文档结构不太友好, 不太解决问题.以 ...
Laravel使用redis保存SESSION
Laravel使用redis保存SESSION 首先确认服务器已经安装redis服务,php安装了redis扩展. 1.打开config/database.php.在redis配置项中增加sessio ...
置信区间-显著性-P-值
1.置信区间:误差范围(区间)在统计概率中就叫做置信区间:简单来说置信区间就是误差范围我们用中括号[a,b]表示样本估计总体平均值的误差范围的区间,由于a和b的确切数值取决于你希望自己对于“该区间包 ...

Spark SQL历险记

Spark SQL历险记的更多相关文章

随机推荐

热门专题