38、数据源Parquet之使用编程方式加载数据

一、概述

Parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发，2015年5月从Apache的孵化器里毕业成为Apache顶级项目，最新的版本是1.8.0。

列式存储和行式存储相比有哪些优势呢？

1、可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量。

2、压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的，可以使用更高效的压缩编码（例如Run Length Encoding和Delta Encoding）进一步节约存储空间。

3、只读取需要的列，支持向量运算，能够获取更好的扫描性能。 

这里讲解Parquet数据源的第一个知识点，使用编程的方式加载Parquet文件中的数据。

二、代码

1、java实现

package cn.spark.study.sql;

import java.util.List;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.sql.DataFrame;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.SQLContext;

/**

 * Parquet数据源之使用编程方式加载数据

 * @author Administrator

 *

 */

public class ParquetLoadData {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf()

                .setAppName("ParquetLoadData");

        JavaSparkContext sc = new JavaSparkContext(conf);

        SQLContext sqlContext = new SQLContext(sc);

        // 读取Parquet文件中的数据，创建一个DataFrame

        DataFrame usersDF = sqlContext.read().parquet(

                "hdfs://spark1:9000/spark-study/users.parquet");

        // 将DataFrame注册为临时表，然后使用SQL查询需要的数据

        usersDF.registerTempTable("users");

        DataFrame userNamesDF = sqlContext.sql("select name from users");  

        // 对查询出来的DataFrame进行transformation操作，处理数据，然后打印出来

        List<String> userNames = userNamesDF.javaRDD().map(new Function<Row, String>() {

            private static final long serialVersionUID = 1L;

            @Override

            public String call(Row row) throws Exception {

                return "Name: " + row.getString(0);

            }

        }).collect();

        for(String userName : userNames) {

            System.out.println(userName);

        }

    }

}

##打包、上传

##运行脚本

cat parquet_load_data.sh

/usr/local/spark-1.5.1-bin-hadoop2.4/bin/spark-submit \

--class cn.spark.study.sql.ParquetLoadData \

--num-executors 3 \

--driver-memory 100m \

--executor-memory 100m \

--executor-cores 3 \

--files /usr/local/hive/conf/hive-site.xml \

--driver-class-path /usr/local/hive/lib/mysql-connector-java-5.1.17.jar \

/usr/local/spark-study/java/sql/saprk-study-java-0.0.1-SNAPSHOT-jar-with-dependencies.jar \

2、scala实现

package cn.spark.study.sql

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.sql.SQLContext

object ParquetLoadData {

  def main(args: Array[String]) {

    val conf = new SparkConf().setAppName("ParquetLoadData")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    // 读取Parquet文件中的数据，创建一个DataFrame

    val usersDF = sqlContext.read.parquet("hdfs://spark1:9000/spark-study/users.parquet")

    // 将DataFrame注册为临时表，然后使用SQL查询需要的数据

    usersDF.registerTempTable("users")

    val userNameDF = sqlContext.sql("select * from users")

    // 对查询出来的DataFrame进行transformation操作，处理数据，然后打印出来

    userNameDF.rdd.map( row => "Name: " + row(0)).collect()

      .foreach( userName => println(userName))

  }

}

##Export-->打jar包-->上传

##运行脚本

[root@spark1 sql]# cat parquet_load_data.sh

/usr/local/spark-1.5.1-bin-hadoop2.4/bin/spark-submit \

--class cn.spark.study.sql.ParquetLoadData \

--num-executors 3 \

--driver-memory 100m \

--executor-memory 100m \

--executor-cores 3 \

--files /usr/local/hive/conf/hive-site.xml \

--driver-class-path /usr/local/hive/lib/mysql-connector-java-5.1.17.jar \

/usr/local/spark-study/scala/sql/spark-study-scala.jar \

38、数据源Parquet之使用编程方式加载数据的更多相关文章

重新想象 Windows 8 Store Apps (54) - 绑定: 增量方式加载数据
[源码下载] 重新想象 Windows 8 Store Apps (54) - 绑定: 增量方式加载数据作者:webabcd 介绍重新想象 Windows 8 Store Apps 之绑定通过实 ...
DevExpress GridControl 使用瀑布加载方式加载数据
从事winform开发已经快三年了,这三年中两年使用DevExpress控件进行winform系统开发,对Dev控件有自己的一些思考,下面就常用的表格控件GridControl的分页进行一些讨论. 在 ...
关于ligerUI中ligerTree代码中的一个bug，造成该控件无法通过url的POST方式加载数据
该bug造成ligerTree参数中的method无论你怎么设置都只能用get方式提交由于本人水平有限,只是找到原因,但无法修正 ligerUI v1.1.9 版本中的ligerui.all.js文 ...
Select2插件ajax方式加载数据并刷新页面数据回显
今天在优化项目当中,有个要在下拉框中搜索数据的需求:最后选择使用selec2进行开发: 官网:http://select2.github.io/ 演示: 准备工作: 文件需要引入select2.ful ...
[每日一题] OCP1z0-047 :2013-08-17 EXTERNAL TABLE――加载数据 ............................56
正确答案:C 一.对答案解释: A. TYPE:有两个选可供选择: 1. ORACLE_LOADER:传统方式,与SQLLDR一样,参数从多,应用较多. 2. ...
第2节 hive基本操作：11、hive当中的分桶表以及修改表删除表数据加载数据导出等
分桶表将数据按照指定的字段进行分成多个桶中去,说白了就是将数据按照字段进行划分,可以将数据按照字段划分到多个文件当中去开启hive的桶表功能 set hive.enforce.bucketing= ...
Javascript 的模块化编程及加载模块【转载+整理】
http://www.ruanyifeng.com/blog/2012/10/javascript_module.html 本文内容引入模块化最初写法对象写法立即执行函数写法放大模式宽放 ...
《ArcGIS Runtime SDK for Android开发笔记》——（13）、图层扩展方式加载Google地图
1.前言 http://mt2.google.cn/vt/lyrs=m@225000000&hl=zh-CN&gl=cn&x=420&y=193&z=9& ...
MVC Ajax Helper或jQuery异步方式加载部分视图
Model: namespace MvcApplication1.Models { public class Team { public string Preletter { get; set; } ...

随机推荐

未检测到.NET CORE SDK 或者新建项目没有.NET CORE 3.0选择项
终于解决了首先先看自己的VS2019版本由于楼主下载的 .NET CORE SDK 3.0.100-preview8-013656 焕然大悟原来是版本不符合,需要用vs 2019 preview ...
OO——JML作业总结
目录第三单元博客作业 JML语言理论基础 1.注释结构 2.JML表达式 3.方法规格 4.类型规格应用工具链 JMLUnitNG使用实例作业架构设计第一次作业第二次作业第三次作业 BUG ...
【转载】Java对象的生命周期
Java对象的生命周期在Java中,对象的生命周期包括以下几个阶段: 1. 创建阶段(Created) 2. 应用阶段(In Use) 3. 不可见阶段(Invisib ...
HelloWorld! C++纠错版
例题:1 #include<iostream> int main() { cout << "HelloWorel!" ; ; } #include < ...
ROMTableAddr = 0xE00FF003 错误 Target DLL has been cancelled 错误
JTAG下载固件错误 keil下载固件错误如下错误 * JLink Info: Found SWD-DP with ID 0x1BA01477 * JLink Info: Found SWD-DP ...
django配置*app*登录案例*orm简用
1.静态文件的配置和使用 1.静态文件的配置和使用没有css样式: 添加样式结果: <html lang="en"> <head> <meta c ...
Java中创建线程主要有三种方式
一.继承Thread类创建线程类 (1)定义Thread类的子类,并重写该类的run方法,该run方法的方法体就代表了线程要完成的任务.因此把run()方法称为执行体. (2)创建Thread子类的实 ...
Pandas进阶笔记（0）为什么写这个系列
使用Pandas数年之久了,从最早的0.17版本开始接触Pandas,到现在0.25版本,踩过不少坑,面对各种稀奇古怪的bug抓耳挠腮.每每想要解决bug,或者想要实现一个特定的数据操作需求,首先想到 ...
Bicoloring (并查集/二分图)
题目链接题意: m个查询,每个查询输入a b,表示顶点a b之间涂色. 规定只能涂颜色0 或者颜色 1,一个节点相连的边必须涂成相同的颜色. 问 ,输入m组 a b之后,会不会犯规. 思路: 判 ...
大数据之路week07--day07 （Sqoop 从mysql增量导入到HDFS）
我们之前导入的都是全量导入,一次性全部导入,但是实际开发并不是这样,例如web端进行用户注册,mysql就增加了一条数据,但是HDFS中的数据并没有进行更新,但是又再全部导入一次又完全没有必要. 所以 ...

38、数据源Parquet之使用编程方式加载数据

38、数据源Parquet之使用编程方式加载数据的更多相关文章

随机推荐

热门专题