知识点-Spark小节

Spark处理字符串日期的max和min的方式
Spark处理数据存储到Hive的方式
Spark处理新增列的方式map和udf、functions
Spark处理行转列pivot的使用
Python 3.5.3
Spark1.6.2

欢迎访问个人主页和博客

Spark处理字符串日期的max和min的方式

一般是字符串类型的日期在使用Spark的agg求max时，是不正确的，API显示只支持数值型的max、min
hive的SQL查询引擎是支持字符串日期的max和min的

字符串日期转为时间戳再聚合

unix_timestamp

public static Column unix_timestamp(Column s)

Converts time string in format yyyy-MM-dd HH:mm:ss to Unix timestamp (in seconds), using the default timezone and the default locale, return null if fail.

Parameters:

s - (undocumented)

Returns:

(undocumented)

Since:

1.5.0

from pyspark.sql import functions as F

df.withColumn('startuptime_stamp', F.unix_timestamp('startuptime'))

使用HiveSQL

select device_id, max(startuptime) as max_startuptime, min(startuptime) as min_startuptime from app_table group by device_id

Spark处理数据存储到Hive的方式

通常Spark任务处理后的结果数据会存储到Hive表中，可以先保存至HDFS目录再load、最方便还是直接使用临时表和HiveContext插入数据

saveAsTextFile & load data

repartition根据实际文件大小进行调整，数据比较小时，保存成一个文件

df.map(lambda r: func).repartition(1).saveAsTextFile(data_dir)

先删除分区，如果已经存在的话
再覆盖原来的数据【方便重新重复跑或修复数据】
此处使用shell，也可使用HiveContext的sql

alter table app_table drop if exists partition(datestr='$day_01');

load data inpath 'hdfs://xx/out/$day_01' overwrite into table app_table partition(datestr='$day_01');

hivectx.sql & insert

app_table1_df.registerTempTable("app_table1_tmp")

app_table2_df.registerTempTable("app_table2_tmp")

hivectx.sql("set spark.sql.shuffle.partitions=1")

hivectx.sql("alter table app_table drop if exists partition(datestr='%s')" % daystr)

hivectx.sql("insert overwrite table app_table partition(datestr='%s') select * from app_table1_tmp" % daystr)

hivectx.sql("insert into app_table partition(datestr='%s') select * from app_table2_tmp" % daystr)

Spark处理新增列的方式map和udf、functions

Spark在处理数据转换时，通常需要使用map、flatmap等操作，其中使用map会产生新的列或修改某列字段的值
Spark同样支持自定义函数UDF以及提供了类似Hive内置函数的各种各样的处理函数

map

需要定义函数和StructType
忽略数值判断细节和精度等

from pyspark.sql.types import *

def a_func(_):

    return _['id'], _['cnt1'], _['cnt2'], _['cnt1'] / (_['cnt1'] + _['cnt1'])

a_schema = StructType([

    StructField('id', StringType(), True),

    StructField('cnt1', IntegerType(), True),

    StructField('cnt2', IntegerType(), True),

    StructField('cnt1_rate', IntegerType(), True)

])

a_new_df = sqlctx.createDataFrame(df.select('id', 'cnt1', 'cnt2').map(a_func), a_schema)

udf

需要定义函数和UDF
忽略数值判断细节和精度等

def a_func(cnt1, cnt2):

    return cnt1 / (cnt1 + cnt2)

a_udf = F.udf(a_func, IntegerType())

a_new_df = df.withColumn('cnt1_rate', a_udf(df['cnt1'], df['cnt2'])

functions

处理类似日期字符串的格式转换、等等等
https://spark.apache.org/docs/1.6.2/api/java/org/apache/spark/sql/functions.html

Spark处理行转列pivot的使用

在使用SQL查询数据时，很多情况下需要将行转为列，以有利于数据的展示和不同维度需求的利用
一般可采用子查询case when、连续join、字段补全union的形式
Spark的DataFrame中可以通过GroupedData的pivot函数来实现

df.groupBy(['course_name']).pivot('daystr').sum('score')

df.groupBy(['course_name']).pivot('daystr').count()

转换前

daystr course_name score

2017-11-15 yuwen 1

2017-11-15 yuwen 1

2017-11-15 shuxue 1

2017-11-15 yingyu 2

2017-11-16 yuwen 1

2017-11-16 shuxue 1

2017-11-16 yingyu 2

转换后

course_name 2017-11-15 2017-11-16

yuwen 2 1

shuxue 1 1

yingyu 2 2

course_name 2017-11-15 2017-11-16

yuwen 2 1

shuxue 1 1

yingyu 1 1

原文地址：https://blog.icocoro.me/2017/11/16/1711-zhishidian-spark%E5%B0%8F%E8%8A%8201/index.html

知识点-Spark小节的更多相关文章

Spark读取elasticsearch数据指南
最近要在 Spark job 中通过 Spark SQL 的方式读取 Elasticsearch 数据,踩了一些坑,总结于此. 环境说明 Spark job 的编写语言为 Scala,scala-li ...
大数据核心知识点：Hbase、Spark、Hive、MapReduce概念理解，特点及机制
今天,上海尚学堂大数据培训班毕业的一位学生去参加易普软件公司面试,应聘的职位是大数据开发.面试官问了他10个问题,主要集中在Hbase.Spark.Hive和MapReduce上,基础概念.特点.应用 ...
day 6 - 1 知识点小节
python2 与 python3 的区别 1. print.input.生成器 #python2 print() print 'abc' range() xrange() 生成器 raw_input ...
大数据学习day19-----spark02-------0 零碎知识点（分区，分区和分区器的区别） 1. RDD的使用（RDD的概念，特点，创建rdd的方式以及常见rdd的算子） 2.Spark中的一些重要概念
0. 零碎概念 (1) 这个有点疑惑,有可能是错误的. (2) 此处就算地址写错了也不会报错,因为此操作只是读取数据的操作(元数据),表示从此地址读取数据但并没有进行读取数据的操作 (3)分区(有时间 ...
Spark MLlib知识点学习整理
MLlib的设计原理:把数据以RDD的形式表示,然后在分布式数据集上调用各种算法.MLlib就是RDD上一系列可供调用的函数的集合. 操作步骤: 1.用字符串RDD来表示信息. 2.运行MLlib中的 ...
Spark知识点
1.Spark架构分布式spark应用中的组件在分布式环境下,Spark集群采用的是主/从结构.在一个Spark集群中,有一个节点负责中央协调,调度各个分布式工作节点.这个中央协调节点被称为驱动器 ...
Spark Core知识点复习-1
Day1111 Spark任务调度 Spark几个重要组件 Spark Core RDD的概念和特性生成RDD的两种类型 RDD算子的两种类型算子练习分区 RDD的依赖关系 DAG:有向无环图 ...
Spark Core知识点复习-2
day1112 1.spark core复习任务提交缓存 checkPoint 自定义排序自定义分区器自定义累加器广播变量 Spark Shuffle过程 SparkSQL 一. Spark ...
Spark面试知识点-SparkSQL(1)
0.介绍: (1)Spark SQL的前身是Shark,即Hive on Spark, 1.SparkSQL特点: (1)支持多种数据源:Hive,RDD,Parquet,JSON,JDBC等. (2 ...

随机推荐

PHP CURL 错误码说明
curl_setopt($ci, CURLOPT_HEADERFUNCTION, array($this, 'getHeader'));//一般不加 <?php return [ '1'=> ...
简单理解php的socket编程【网摘】
php的socket编程算是比较难以理解的东西吧,不过,我们只要理解socket几个函数之间的关系,以及它们所扮演的角色,那么理解起来应该不是很难了,在笔者看来,socket编程,其实就是建立一个网络 ...
JSON字符串拼接与解析
常用方式: json字符串拼接(目前使用过两种方式): 1.运用StringBuilder拼接 StringBuilder json = new StringBuilder(); json.appen ...
golang-flag - 命令行参数解析
flag - 命令行参数解析在写命令行程序(工具.server)时,对命令参数进行解析是常见的需求.各种语言一般都会提供解析命令行参数的方法或库,以方便程序员使用.如果命令行参数纯粹自己写代码解析, ...
linux服务器时间乱码问题解决
问题现象如下: [root@ip-171-21-36-129 testcase]# date 2019Ū 08Ղ 02ɕ чǚϥ 09:44:48 UTC 解决步骤: 1.执行命令:vi /etc/s ...
js jquery 实现排班,轮班，日历，日程。使用fullcalendar 插件
如果想用fullcalendar实现排班功能,或者日历.日程功能.那么只需要简单的几步: 这里先挂官网链接: fullcalendar fullcalendar官网下载链接一.下载及简单配置 1.这 ...
Mono Features of cheat engine
If you attach to a process/game that uses mono, you should see a new "Mono" menu item on t ...
免费s账号网站
下面网址按排序顺序优先使用,数字越小优先级越高 1,https://io.freess.today/ 2,https://free-ss.site/ 3,https://ss.freess.org/ ...
课程学习 - 人类疾病导论 | Introduction To Human Disease
完美人类假设:一类人,具有最完美的基因组,享受最健康的环境和饮食,同时拥有最健康的思想情绪,最终以最长的寿命,自然死亡. 自然死亡是自然生命最终的归宿,这是写在目前基因组里的铁律! 不管科技如何发展, ...
C#多线程和异步——Task和async/await详解
阅读目录一.什么是异步二.Task介绍 1 Task创建和运行 2 Task的阻塞方法(Wait/WaitAll/WaitAny) 3 Task的延续操作(WhenAny/WhenAll/Cont ...

知识点-Spark小节

Spark处理字符串日期的max和min的方式

字符串日期转为时间戳再聚合

使用HiveSQL

Spark处理数据存储到Hive的方式

saveAsTextFile & load data

hivectx.sql & insert

Spark处理新增列的方式map和udf、functions

map

udf

functions

Spark处理行转列pivot的使用

知识点-Spark小节的更多相关文章

随机推荐

热门专题