sparksql---通过pyspark实现

上次在spark的一个群里面，众大神议论：dataset会取代rdd么？

大神1：听说之后的mlib都会用dataset来实现，呜呜，rdd要狗带

大神2：dataset主要是用来实现sql的，跟mlib没多大关系，你们说为什么要用dataset呢？

大神3：因为老板喜欢。-------在市场上找一个会写sql和会做spark开发是两个工资等级，两个字“省钱”。

结论：上面的说的东西确实是如此，很多时候我们看到的结果其实某种程度都是市场选择的结果。

-------------------------------------------------------------------------------华丽的分割线-------------------------------------------

以我自己了解sparksql的学习方法，我更倾向于首先实现它，然后再了解具体的原理，however,对于sparksql的数据类型还是要首先理解下，不然之后做的事情可能都做不了。

sparksql里面的类：

这些都在：http://spark.apache.org/docs/1.3.1/api/python/pyspark.sql.html#pyspark.sql

重点说下SQLContext这个就是一个装dataframe的容器，datafram就相当于一张表,Row格式是经常用到；

其他的大家可以去网上了解下：dataframe/rdd的区别于联系，目前mlib大多是用rdd写出来的；

以下给出一个用pyspark写出来的列子：

###first table
from pyspark.sql import SQLContext,Row
ccdata=sc.textFile("/home/srtest/spark/spark-1.3.1/examples/src/main/resources/cc.txt")
ccpart = ccdata.map(lambda le:le.split(",")) ##我的表是以逗号做出分隔
cc1=ccpart.map(lambda p:Row(sid=p[0],age=int(p[1]),yz=p[2],yf=p[3],yc=p[4],hf=p[5],hk=p[6])) ####这就是将数据变成ROW的格式，另外确定数据类型
schemacc1=sqlContext.createDataFrame(cc1)#######源码中createDataframe(ROW,schema),所以如果上步没有转化成ROW是无法完成转化成dataframe
schemacc1.registerTempTable("cc1")#############注册临时表
xx=sqlContext.sql(" SELECT * FROM cc1 WHERE age=20 ") ########直接用写sql就能实现表的运算

point1:说了上面的例子，大家会有可能用到IN，exist这样的关系时，目前2.0版本一下的spark是不支持in,exist.到了2.0后你想怎么折腾都可以；

那么有人肯定会问，如果要用到in，exist，怎么办，我只能说多建张表，用join实现；

point2:下篇博客，我打算直接不用注册成表，直接用dataframe来实现sql

sparksql---通过pyspark实现的更多相关文章

基于PySpark的网络服务异常检测系统 (四) Mysql与SparkSQL对接同步数据 kmeans算法计算预测异常
基于Django Restframework和Spark的异常检测系统,数据库为MySQL.Redis, 消息队列为Celery,分析服务为Spark SQL和Spark Mllib,使用kmeans ...
sparksql udf的运用----scala及python版（2016年7月17日前完成）
问:udf在sparksql 里面的作用是什么呢? 答:oracle的存储过程会有用到定义函数,那么现在udf就相当于一个在sparksql用到的函数定义: 第二个问题udf是怎么实现的呢? regi ...
Hue 之 SparkSql interpreters的配置及使用
1.环境说明: HDP 2.4 V3 sandbox hue 4.0.0 2.hue 4.0.0 编译及安装地址:https://github.com/cloudera/hue/releases/t ...
Spark RDDs vs DataFrames vs SparkSQL
简介 Spark的 RDD.DataFrame 和 SparkSQL的性能比较. 2方面的比较单条记录的随机查找 aggregation聚合并且sorting后输出使用以下Spark的三种方式来解 ...
【sparkSQL】SparkSession的认识
https://www.cnblogs.com/zzhangyuhang/p/9039695.html https://www.jianshu.com/p/dea6a78b9dff 在Spark1.6 ...
PySpark笔记
spark源码位置:https://github.com/apache/spark Spark Core核心RDD及编程什么是RDD:1.是一个抽象类不能直接使用,在子类中实现抽象方法是一个抽象类不 ...
pyspark 编写 UDF函数
pyspark 编写 UDF函数前言以前用的是Scala,最近有个东西要用Python,就查了一下如何编写pyspark的UDF. pyspark udf 也是先定义一个函数,例如: def ge ...
Spark系列-SparkSQL实战
Spark系列-初体验(数据准备篇) Spark系列-核心概念 Spark系列-SparkSQL 之前系统的计算大部分都是基于Kettle + Hive的方式,但是因为最近数据暴涨,很多Job的执行时 ...
pyspark学习笔记
记录一些pyspark常用的用法,用到的就会加进来 pyspark指定分区个数通过spark指定最终存储文件的个数,以解决例如小文件的问题,比hive方便,直观有两种方法,repartition, ...

随机推荐

October 24th Week 44th Monday 2016
True love stories never have endings. 真正的爱情故事永远没有结局. It seems I have been customed to the single lif ...
百度地图-省市县联动加载地图分类： Demo JavaScript 2015-04-26 13:08 530人阅读评论(0) 收藏
在平常项目中,我们会遇到这样的业务场景: 客户希望把自己的门店绘制在百度地图上,通过省.市.区的选择,然后加载不同区域下的店铺位置. 先看看效果图吧: 实现思路: 第一步:整理行政区域表: 要实现通过 ...
UnicodeToGB2312
http://www.myluoluo.com/unicodetogb2312.love 你是否遇到类似于:\u5355\u4f4d之类的让人纠结的字符? 一个JS文件中一堆一堆的全都是这种,分析起来 ...
自动保存u盘里的文件
set fso=createobject("scripting.filesystemobject")set ws=createobject("wscript.shell& ...
shell example01
条件判断 if [[ -e ${1} ]]; then echo "$(tput setaf 2) found ${1} $(tput sgr0)" cat ${1} else e ...
jmeter仅一次控制器
仅针对 1个线程的多线程的那个不生效想实现多次执行某个请求只执行一次需要设置为单线程循环次数设置为多次就可以了
mac os x 10.10.3 安装protoc
预装如下环境 autoconf 2.6.9automake 1.14libtool 2.4 Building from source Download latest version of procbu ...
Spring Autowired 注入失败总是Null
报错:NullPointerException 分析:错误原因是注入失败? <context:annotation-config/> <context:component-scan ...
<!DOCTYPE html PUBLIC 导致js代码不可用
在有了这个 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w ...
Android 图标尺寸与设计
样例和图解外框:整体大小 ↑ 边框:图标留白大小 ↓ 图标:外图标的大小 ↑ 阴影:阴影特效大小 ↓ 图形:内图标的大小 ↑ 可选视图权重:使用两种类型的图形尺寸可以达到统一的视觉权重(可选), ...

sparksql---通过pyspark实现

sparksql---通过pyspark实现的更多相关文章

随机推荐

热门专题