38、数据源Parquet之使用编程方式加载数据

一、概述

Parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发，2015年5月从Apache的孵化器里毕业成为Apache顶级项目，最新的版本是1.8.0。

列式存储和行式存储相比有哪些优势呢？

1、可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量。

2、压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的，可以使用更高效的压缩编码（例如Run Length Encoding和Delta Encoding）进一步节约存储空间。

3、只读取需要的列，支持向量运算，能够获取更好的扫描性能。 

这里讲解Parquet数据源的第一个知识点，使用编程的方式加载Parquet文件中的数据。

二、代码

1、java实现

package cn.spark.study.sql;

import java.util.List;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.sql.DataFrame;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.SQLContext;

/**

 * Parquet数据源之使用编程方式加载数据

 * @author Administrator

 *

 */

public class ParquetLoadData {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf()

                .setAppName("ParquetLoadData");

        JavaSparkContext sc = new JavaSparkContext(conf);

        SQLContext sqlContext = new SQLContext(sc);

        // 读取Parquet文件中的数据，创建一个DataFrame

        DataFrame usersDF = sqlContext.read().parquet(

                "hdfs://spark1:9000/spark-study/users.parquet");

        // 将DataFrame注册为临时表，然后使用SQL查询需要的数据

        usersDF.registerTempTable("users");

        DataFrame userNamesDF = sqlContext.sql("select name from users");  

        // 对查询出来的DataFrame进行transformation操作，处理数据，然后打印出来

        List<String> userNames = userNamesDF.javaRDD().map(new Function<Row, String>() {

            private static final long serialVersionUID = 1L;

            @Override

            public String call(Row row) throws Exception {

                return "Name: " + row.getString(0);

            }

        }).collect();

        for(String userName : userNames) {

            System.out.println(userName);

        }

    }

}

##打包、上传

##运行脚本

cat parquet_load_data.sh

/usr/local/spark-1.5.1-bin-hadoop2.4/bin/spark-submit \

--class cn.spark.study.sql.ParquetLoadData \

--num-executors 3 \

--driver-memory 100m \

--executor-memory 100m \

--executor-cores 3 \

--files /usr/local/hive/conf/hive-site.xml \

--driver-class-path /usr/local/hive/lib/mysql-connector-java-5.1.17.jar \

/usr/local/spark-study/java/sql/saprk-study-java-0.0.1-SNAPSHOT-jar-with-dependencies.jar \

2、scala实现

package cn.spark.study.sql

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.sql.SQLContext

object ParquetLoadData {

  def main(args: Array[String]) {

    val conf = new SparkConf().setAppName("ParquetLoadData")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    // 读取Parquet文件中的数据，创建一个DataFrame

    val usersDF = sqlContext.read.parquet("hdfs://spark1:9000/spark-study/users.parquet")

    // 将DataFrame注册为临时表，然后使用SQL查询需要的数据

    usersDF.registerTempTable("users")

    val userNameDF = sqlContext.sql("select * from users")

    // 对查询出来的DataFrame进行transformation操作，处理数据，然后打印出来

    userNameDF.rdd.map( row => "Name: " + row(0)).collect()

      .foreach( userName => println(userName))

  }

}

##Export-->打jar包-->上传

##运行脚本

[root@spark1 sql]# cat parquet_load_data.sh

/usr/local/spark-1.5.1-bin-hadoop2.4/bin/spark-submit \

--class cn.spark.study.sql.ParquetLoadData \

--num-executors 3 \

--driver-memory 100m \

--executor-memory 100m \

--executor-cores 3 \

--files /usr/local/hive/conf/hive-site.xml \

--driver-class-path /usr/local/hive/lib/mysql-connector-java-5.1.17.jar \

/usr/local/spark-study/scala/sql/spark-study-scala.jar \

38、数据源Parquet之使用编程方式加载数据的更多相关文章

重新想象 Windows 8 Store Apps (54) - 绑定: 增量方式加载数据
[源码下载] 重新想象 Windows 8 Store Apps (54) - 绑定: 增量方式加载数据作者:webabcd 介绍重新想象 Windows 8 Store Apps 之绑定通过实 ...
DevExpress GridControl 使用瀑布加载方式加载数据
从事winform开发已经快三年了,这三年中两年使用DevExpress控件进行winform系统开发,对Dev控件有自己的一些思考,下面就常用的表格控件GridControl的分页进行一些讨论. 在 ...
关于ligerUI中ligerTree代码中的一个bug，造成该控件无法通过url的POST方式加载数据
该bug造成ligerTree参数中的method无论你怎么设置都只能用get方式提交由于本人水平有限,只是找到原因,但无法修正 ligerUI v1.1.9 版本中的ligerui.all.js文 ...
Select2插件ajax方式加载数据并刷新页面数据回显
今天在优化项目当中,有个要在下拉框中搜索数据的需求:最后选择使用selec2进行开发: 官网:http://select2.github.io/ 演示: 准备工作: 文件需要引入select2.ful ...
[每日一题] OCP1z0-047 :2013-08-17 EXTERNAL TABLE――加载数据 ............................56
正确答案:C 一.对答案解释: A. TYPE:有两个选可供选择: 1. ORACLE_LOADER:传统方式,与SQLLDR一样,参数从多,应用较多. 2. ...
第2节 hive基本操作：11、hive当中的分桶表以及修改表删除表数据加载数据导出等
分桶表将数据按照指定的字段进行分成多个桶中去,说白了就是将数据按照字段进行划分,可以将数据按照字段划分到多个文件当中去开启hive的桶表功能 set hive.enforce.bucketing= ...
Javascript 的模块化编程及加载模块【转载+整理】
http://www.ruanyifeng.com/blog/2012/10/javascript_module.html 本文内容引入模块化最初写法对象写法立即执行函数写法放大模式宽放 ...
《ArcGIS Runtime SDK for Android开发笔记》——（13）、图层扩展方式加载Google地图
1.前言 http://mt2.google.cn/vt/lyrs=m@225000000&hl=zh-CN&gl=cn&x=420&y=193&z=9& ...
MVC Ajax Helper或jQuery异步方式加载部分视图
Model: namespace MvcApplication1.Models { public class Team { public string Preletter { get; set; } ...

随机推荐

[POJ3682]King Arthur's Birthday Celebration[期望DP]
也许更好的阅读体验 $\mathcal{Description}$ 每天抛一个硬币,硬币正面朝上的几率是p,直到抛出k次正面为止结束,第$i$天抛硬币的花费为$2i-1$,求出抛硬币的天数 ...
db跟随集群自启动
AME=ora.newora920.db TYPE=ora.database.type ACL=owner:oracle:rwx,pgrp:oinstall:r--,other::r--,group: ...
PHP写入文件
file_put_contents('log.txt',PHP_EOL.'zhangsan'.$time.'查看了数据', FILE_APPEND);
【洛谷 P4248】 [AHOI2013]差异（后缀自动机）
题目链接 \[ans=\sum_{1<=i<j<=n}len(T_i)+len(T_j)-2*lcp(T_i,T_j)\] 观察这个式子可以发现,前面两个$len$是常数,后面的 ...
text-overflow 全兼容
text-overflow 全兼容 text-overflow 这个CSS属性用于设置或检索是否使用一个省略标记(...)标示对象内文本的溢出.比起在后台用程序截断文本再附上省略标记的做法,用CSS来 ...
app后端设计（php）
来源:http://blog.csdn.net/column/details/mobilebackend.html?page=1 做了3年app相关的系统架构,api设计,先后在3个创业公司中工作,经 ...
SAP云平台里的三叉戟应用
大家第一次看到SAP MTA这个词组,会联想到什么? Jerry第一次看到的时候,联想到的是那一个个足坛著名的三叉戟攻击组合. 海皇波塞冬(Poseidon),奥林匹斯十二神中地位仅次于宙斯的大神,海 ...
微信小程序时间戳转化为日期格式
util.js : function transTime(unixtime) { var dateTime = new Date(parseInt(unixtime) * 1000) var yea ...
mysql学习之基础篇08 UTF8编码
这次我们来说一下在Mysql中的编码问题: 我们知道应用于计算机的最早的字符集是ASCII,它所组成的编码是ASCII编码:由于对于其他国家来说它所容纳的字符个数比较少,后来就出现了ANSI字符集,它 ...
python代码组织及模块使用
python代码组织 python和其他编程语言一样,采用包管理代码,一个包中可包含许多模块. 使用模块最大的好处是大大提高了代码的可维护性.其次,编写代码不必从零开始.当一个模块编写完毕,就可以被其 ...

38、数据源Parquet之使用编程方式加载数据

38、数据源Parquet之使用编程方式加载数据的更多相关文章

随机推荐

热门专题