spark hive 结合处理把多行变成多列

原数据格式：

gid id score

a1 1 90

a1 2 80

a1 3 79

a1 4 80

a2 1 79

a2 3 89

a3 2 45

a3 4 57

a4 3 56

a5 3 89

......

要把数据变成：

gid id_1 id_2 id_3 id_4 score

a1 90 　　80　　　　79　　　80

a2 　　79 0 89 0

a3 0 45 0 57

.......

数据量很大，上百亿条，所以用hive与spark结合的形式，在hive中见表，先把每个gid 的不同id都合并成一行，然后输入spark中进行分割处理成多列。

一、hive先将每个gid的多行数据合并成一行

create table a_id_score_concat as
select a.gid,concat_ws(',',collect_set(concat(a.model_id,'=',a.score))) as score #把model_id 与score用等号合并起来，便于后面拆开后匹配，也能解决每个gid的id个数不等的问题
from a_id_score a group by a.gid;

输出形式:

a1 1=90,2=80,3=79,4=80

a2 1=79,3=89

二、用spark的函数，把合并的几行再分成多列，本质是python函数

from pyspark.sql import SQLContext,Row

from pyspark.mllib.regression import LabeledPoint
from pyspark import SparkContext, SparkConf
from pyspark.sql import HiveContext
from pyspark.mllib.linalg import SparseVector, DenseVector

df2=sqlContext.sql("select * from a_id_score_concat")　　

def splits(lt1):
lt0=['null','10101','10102','10103','10105','10106','10121','10122','10123','10125','10126','10201','10221'] #id列表

#需要合并的id，加一个null是为了跟out的列表长度一致，后面索引好匹配。
out=['na','0','0','0','0','0','0','0','0','0','0','0','0'] #拆分出来的矩阵格式列数据初始化，没有的id位置默认为0
gid=lt1[0]
sco=lt1[1].split(",") #取出合并的score
out[0]=gid
for i in sco:
s1=i.split("=") #把每个等式拆开
index1=lt0.index(s1[0]) #找索引
out[index1]=s1[1] #在索引对应列放入数据
return out

df3=sqlContext.createDataFrame(df2.map(splits，["gid",'m10101','m10102','m10103','m10105','m10106','m10121','m10122','m10123','m10125','m10126','m10201','m10221'])

#保存dataframe，数据输出
df3.saveAsTable(tableName="id_scores",source="parquet",mode="overwrite")

hive中建表保存：

hadoop fs -mv hdfs:./xiaofei_model_installed_pkgs hdfs:./zhangb.db

# 在hive中建表语句
create external table aaaaaa (
pkg string,cnt01 bigint,cnt11 bigint,xsb double,chi2 double,gain double,iv double,rank1 int ,rank2 int ,rank3 int ,rank int )
ROW FORMAT SERDE
'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'
STORED AS INPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
'hdfs:./zhangb.db/id_scores';

spark hive 结合处理把多行变成多列的更多相关文章

[Spark][Hive]Hive的命令行客户端启动：
[Spark][Hive]Hive的命令行客户端启动: [training@localhost Desktop]$ chkconfig | grep hive hive-metastore 0:off ...
伪分布式Spark + Hive on Spark搭建
Spark大数据平台有使用一段时间了,但大部分都是用于实验而搭建起来用的,搭建过Spark完全分布式,也搭建过用于测试的伪分布式.现在是写一遍随笔,记录一下曾经搭建过的环境,免得以后自己忘记了.也给和 ...
Spark(Hive) SQL中UDF的使用（Python）
相对于使用MapReduce或者Spark Application的方式进行数据分析,使用Hive SQL或Spark SQL能为我们省去不少的代码工作量,而Hive SQL或Spark SQL本身内 ...
Spark(Hive) SQL数据类型使用详解(Python)
Spark SQL使用时需要有若干“表”的存在,这些“表”可以来自于Hive,也可以来自“临时表”.如果“表”来自于Hive,它的模式(列名.列类型等)在创建时已经确定,一般情况下我们直接通过Spar ...
[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子
[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子$ cat customers.txt 1 Ali us 2 Bsb ca 3 Carls mx $ hive h ...
Spark记录-源码编译spark2.2.0（结合Hive on Spark/Hive on MR2/Spark on Yarn）
#spark2.2.0源码编译 #组件:mvn-3.3.9 jdk-1.8 #wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.0/spark- ...
Spark(Hive) SQL中UDF的使用（Python）【转】
相对于使用MapReduce或者Spark Application的方式进行数据分析,使用Hive SQL或Spark SQL能为我们省去不少的代码工作量,而Hive SQL或Spark SQL本身内 ...
spark hive结合杂记(hive-site.xml)
1.下载spark源码,在spark源码目录下面有个make-distribution.sh文件,修改里面的参数,使编译后能支持hive,修改后执行该文件.(要预先安装好maven才能编译). 2.将 ...
hive行存储与列存储
首先判断hive表是行存储还是列存储判断方法: 1.使用hiveSQL"show create table table_name",这种方式,可以查看建表时候指定的那种方式; 2 ...

随机推荐

iOS红马甲项目Bug总结（3）
这里是一些小总结 1.使用图片缓存之后,新添加的图像一直不能显示 2.项目打包通过appliction loader上传成功了,可是itunes 上面的构建版本项,一直没显示出来 3.界面加载之后,t ...
RobotFramwork + Appium+ Andriod 环境搭建
RF+Appium+Android环境搭建教程 - 1.RF安装一.适用操作系统 Win7 旗舰版Sp1 32位操作系统 RF环境搭建,请参考文档<RobotFramwork安装指南> ...
iwork 09 可以用的序列号
E4RJ-YKHP-9ER4-WK9Y-H4UM-5S2G9MU-9U9J-KN4M-4PAE-DYNA-5S2EGMU-3PKP-NN9G-3JW4-3RAD-5S2
JSBinding / Memory Management (GC)
C# and JavaScript both have Garbage Collection (GC). They should not conflict with each other. Class ...
C#调用C++ DLL类方法
C++的优势在于高效灵活,C#的优势在于简单易用,两者结合起来对项目开发来说是件好事,而且C++不容易反编译,也保障了代码的安全性,如果一些核心算法使用C#编写,那么保密就是一个问题. C++生成的D ...
jquery中checkbox选中的问题之prop&attr惹的祸
一个网上很多的例子如下: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http: ...
自动点击切换按钮切换轮播无缝选项卡 ----原生js
<!doctype html> <html> <head> <meta charset="utf-8"> <meta name ...
R中，去掉dataframe中的NA行
R中使用complete.cases 和 na.omit来去掉包含NA的行现在有个一data.frame datafile如下所示 Date sulfate nitrate ID 1 ...
Java 大数运算
import java.util.*; import java.math.*; public class Main{ public static void main(String args[]){ S ...
（转）JPEG图片数据结构分析- 附Png数据格式详解.doc
一.简述 JPEG是一个压缩标准,又可分为标准JPEG.渐进式JPEG及JPEG2000三种: ①标准JPEG:以24位颜色存储单个光栅图像,是与平台无关的格式,支持最高级别的压缩,不过,这种压 ...

spark hive 结合处理 把多行变成多列

spark hive 结合处理 把多行变成多列的更多相关文章

随机推荐

热门专题

spark hive 结合处理把多行变成多列

spark hive 结合处理把多行变成多列的更多相关文章