Spark(二十)【SparkSQL将CSV导入Kudu】

SparkSql 将CSV导入kudu

SparkSql 将CSV导入kudu

pom 依赖

 <properties>

        <spark.version>2.1.0</spark.version>

        <scala.version>2.11</scala.version>

        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>

        <project.reporting.outputEncoding>UTF-8</project.reporting.outputEncoding>

        <java.version>1.8</java.version>

        <maven.version.min>3.5.0</maven.version.min>

        <scala.binary.version>2.11</scala.binary.version>

        <scala.complete.version>${scala.binary.version}.4</scala.complete.version>

        <spark-sql.version>2.1.0</spark-sql.version>

    </properties>

    <dependencies>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.11</artifactId>

            <version>${spark.version}</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>org.apache.kafka</groupId>

            <artifactId>kafka-clients</artifactId>

            <version>0.11.0.0</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-streaming_2.11</artifactId>

            <version>2.1.0</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-sql_2.11</artifactId>

            <version>${spark.version}</version>

            <scope>compile</scope>

            <exclusions>

                <exclusion>

                    <groupId>org.codehaus.janino</groupId>

                    <artifactId>commons-compiler</artifactId>

                </exclusion>

            </exclusions>

        </dependency>

        <dependency>

            <groupId>org.codehaus.janino</groupId>

            <artifactId>commons-compiler</artifactId>

            <version>3.0.9</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>org.apache.hbase</groupId>

            <artifactId>hbase-server</artifactId>

            <version>1.0.0</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-hive_2.11</artifactId>

            <version>${spark.version}</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>org.scala-lang</groupId>

            <artifactId>scala-library</artifactId>

            <version>2.11.12</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>org.scala-lang</groupId>

            <artifactId>scala-compiler</artifactId>

            <version>2.11.12</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>com.typesafe</groupId>

            <artifactId>config</artifactId>

            <version>1.2.1</version>

            <scope>compile</scope>

        </dependency>

        <!-- scalikejdbc_2.11 -->

        <dependency>

            <groupId>org.scalikejdbc</groupId>

            <artifactId>scalikejdbc_2.11</artifactId>

            <version>2.5.0</version>

            <scope>compile</scope>

        </dependency>

        <!-- scalikejdbc-config_2.11 -->

        <dependency>

            <groupId>org.scalikejdbc</groupId>

            <artifactId>scalikejdbc-config_2.11</artifactId>

            <version>2.5.0</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>mysql</groupId>

            <artifactId>mysql-connector-java</artifactId>

            <version>5.1.38</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>redis.clients</groupId>

            <artifactId>jedis</artifactId>

            <version>2.9.0</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>com.xes.bdc</groupId>

            <artifactId>galaxy-engine-common</artifactId>

            <version>1.0-SNAPSHOT</version>

            <exclusions>

                <exclusion>

                    <groupId>org.apache.kudu</groupId>

                    <artifactId>kudu-client</artifactId>

                </exclusion>

            </exclusions>

        </dependency>

        <dependency>

            <groupId>org.apache.kudu</groupId>

            <artifactId>kudu-spark2_2.11</artifactId>

            <version>1.9.0</version>

            <scope>compile</scope>

        </dependency>

    </dependencies>

    <build>

        <!--编译的文件目录-->

        <sourceDirectory>src/main/java</sourceDirectory>

        <resources>

            <resource>

                <directory>src/main/resources</directory>

            </resource>

        </resources>

        <plugins>

            <!-- build-helper-maven-plugin, 设置多个源文件夹 -->

            <plugin>

                <groupId>org.codehaus.mojo</groupId>

                <artifactId>build-helper-maven-plugin</artifactId>

                <version>3.0.0</version>

                <executions>

                    <execution>

                        <id>add-source</id>

                        <phase>generate-sources</phase>

                        <goals>

                            <goal>add-source</goal>

                        </goals>

                        <configuration>

                            <sources>

                                <source>src/main/java</source>

                                <source>src/main/scala</source>

                                <!-- 我们可以通过在这里添加多个source节点，来添加任意多个源文件夹 -->

                            </sources>

                        </configuration>

                    </execution>

                </executions>

            </plugin>

            <plugin>

                <!-- see http://davidb.github.com/scala-maven-plugin -->

                <groupId>net.alchim31.maven</groupId>

                <artifactId>scala-maven-plugin</artifactId>

                <version>3.2.0</version>

                <executions>

                    <execution>

                        <goals>

                            <goal>compile</goal>

                            <goal>testCompile</goal>

                        </goals>

                        <configuration>

                            <scalaVersion>${scala.complete.version}</scalaVersion>

                            <fork>true</fork>

                            <encoding>UTF-8</encoding>

                            <args>

                                <!-- <arg>-make:transitive</arg> -->

                                <arg>-dependencyfile</arg>

                                <arg>${project.build.directory}/.scala_dependencies</arg>

                            </args>

                            <recompileMode>modified-only</recompileMode>

                        </configuration>

                    </execution>

                </executions>

            </plugin>

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-shade-plugin</artifactId>

                <version>2.4.3</version>

                <executions>

                    <execution>

                        <phase>package</phase>

                        <goals>

                            <goal>shade</goal>

                        </goals>

                        <configuration>

                            <transformers>

                            </transformers>

                        </configuration>

                    </execution>

                </executions>

            </plugin>

        </plugins>

    </build>

scala 代码

import org.apache.kudu.spark.kudu.KuduContext

import org.apache.spark.SparkConf

import org.apache.spark.sql.{DataFrame, SparkSession}

/**

 *

 * @description: TODO 将Csv文件导入Kudu

 * @author: HaoWu

 * @create: 2021年04月02日

 */

object LoadCsvToKudu {

  private var kudu_host: String = _

  private var kudu_tableName: String = _

  private var input_path: String = _

  def main(args: Array[String]): Unit = {

    val conf: SparkConf = new SparkConf()

    val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate()

    kudu_host =args(0)

    kudu_tableName = args(1)

    input_path = args(2)

    // 专用的读Csv

    val df: DataFrame = spark.read

      .option("header","true") //第一行作为字段属性

      .csv(input_path)

    //spark.sql("select count(*) from normal_detail_view").show()

    val kuduContext = new KuduContext(kudu_host, spark.sparkContext)

    // real_lp_id,name,workcode,lp_stasus,position,position,dept

    kuduContext.upsertRows(df, kudu_tableName)

    spark.stop()

  }

}

启动脚本

csv_to_kudu.sh

#!/usr/bin/env bash

cd $(dirname $0)

# 用户基础配置

# kudu host

HOST="XXX:7051,XXX:7051,XXX:7051"

#kudu tableName

TABLENAME="impala::odsdb.XXX"

#csv文件路径 , 上传至hdfs

input_path="/user/wx_dp_hive/wuhao36/data/lp.csv"

# 默认配置

clazz=baopinke.LoadCsvToKudu

jarPath=/home/wx_dp_hive/wuhao/learn_poject/kudu_learning/csv-to-kudu.jar

# 提交任务

BASE_SPARK_SUBMIT=/usr/bin/spark2-submit

KEY_TAB=/home/wx_dp_hive/wx_dp_hive.keytab

USER=wx_dp_hive

#--master yarn --deploy-mode cluster \

$BASE_SPARK_SUBMIT \

--principal  $USER --keytab $KEY_TAB  --queue root.wangxiao.dp \

--master yarn --deploy-mode cluster \

--driver-memory 8G --executor-memory 16G \

--executor-cores 2 --num-executors  4 \

--conf spark.dynamicAllocation.enabled=false \

--conf spark.driver.allowMultipleContexts=true \

--class $clazz $jarPath \

$HOST \

$TABLENAME \

$input_path

注意：

1.需要将csv上传至hdfs，不然在yarn模式下文件找不到。

2.要设置csv的第一行为字段属性。

Spark(二十)【SparkSQL将CSV导入Kudu】的更多相关文章

Spark学习之路（二十）SparkSQL的元数据
一.概述 SparkSQL 的元数据的状态有两种: 1.in_memory,用完了元数据也就丢了 2.hive , 通过hive去保存的,也就是说,hive的元数据存在哪儿,它的元数据也就存在哪儿. ...
数据可视化基础专题（三）：Pandas基础（二） csv导入与导出
1.csv导入 1.1 csv导入 .read_csv()函数 pandas.read_csv(filepath_or_buffer: Union[str, pathlib.Path, IO[~Any ...
ComicEnhancerPro 系列教程二十：用“文件比较”看有损、无损
作者:马健邮箱:stronghorse_mj@hotmail.com 主页:http://www.comicer.com/stronghorse/ 发布:2017.07.23 教程二十:用“文件比较” ...
KUDU数据导入尝试一：TextFile数据导入Hive,Hive数据导入KUDU
背景 SQLSERVER数据库中单表数据几十亿,分区方案也已经无法查询出结果.故:采用导出功能,导出数据到Text文本(文本>40G)中. 因上原因,所以本次的实验样本为:[数据量:61w条,文 ...
geotrellis使用（二十五）将Geotrellis移植到spark2.0
目录前言升级spark到2.0 将geotrellis最新版部署到spark2.0(CDH) 总结一.前言事情总是变化这么快,前面刚写了一篇博客介绍如何将geotrellis移植 ...
geotrellis使用（二十二）实时获取点状目标对应的栅格数据值
目录前言实现方法总结一.前言其实这个功能之前已经实现,今天将其采用1.0版的方式进行了重构与完善,现将该内容进行总结. 其实这个功能很常见,比如google地球上 ...
WCF技术剖析之二十九：换种不同的方式调用WCF服务[提供源代码下载]
原文:WCF技术剖析之二十九:换种不同的方式调用WCF服务[提供源代码下载] 我们有两种典型的WCF调用方式:通过SvcUtil.exe(或者添加Web引用)导入发布的服务元数据生成服务代理相关的代码 ...
WCF技术剖析之二十六:如何导出WCF服务的元数据(Metadata)[实现篇]
原文:WCF技术剖析之二十六:如何导出WCF服务的元数据(Metadata)[实现篇] 元数据的导出就是实现从ServiceEndpoint对象向MetadataSet对象转换的过程,在WCF元数据框 ...
WCF技术剖析之二十五: 元数据（Metadata）架构体系全景展现[元数据描述篇]
原文:WCF技术剖析之二十五: 元数据(Metadata)架构体系全景展现[元数据描述篇] 在[WS标准篇]中我花了很大的篇幅介绍了WS-MEX以及与它相关的WS规范:WS-Policy.WS-Tra ...

随机推荐

Spring Cloud Alibaba环境搭建
前言:Spring Cloud Alibaba是目前主流的分布式微服务架构,本文主要讲解了在IDEA中如何搭建Spring Cloud Alibaba环境,以及介绍Spring Cloud Aliba ...
DeWeb 简介
DeWeb是一个可以直接将Delphi程序快速转换为网页应用的工具! 使用DeWeb, 开发者不需要学习HTML.JavaScript.Java.PHP.ASP.C#等新知识,用Delphi搞定一切. ...
C++ IO基础
一:c++I/O处理,按照数据输入输出的过程,形象的将其看做流.数据在流中进行传播. 所有的流有两个基类:ios和streambuf类 streambuf:提供对缓冲区的基本操作,设置缓冲区等 ios ...
Git+windows安装教程（一）
一:Git是什么? Git是目前世界上最先进的分布式版本控制系统. 二:SVN与Git的最主要的区别? SVN是集中式版本控制系统,版本库是集中放在中央服务器的,而干活的时候,用的都是自己的电脑,所以 ...
子查询之 exists 和 in
exists exists用于检查一个子查询是否至少会返回一行数据(即检测行的存在),返回值为boolean型,true或false 语法 exists subquery /* 参数: subquer ...
Ubuntu安装BCC
Ubuntu安装BCC 教程官方文档安装这里官方文档中首先讲到的是二进制文件的安装,直接通过apt进行安装 sudo apt-get install bpfcc-tools linux-head ...
[luogu5180]支配树
对于有向图$G$和起点$s$,有以下定义和性质-- 为了方便,不妨假设$s$能到达$G$中所有点,并任意建立一棵以$s$为根的dfs树,以下节点比较默认均按照两点在这棵dfs树上的dfs序支配点:$ ...
【Tool】IntelliJ 搭建Node.js环境
IntelliJ IDEA 开发 Node.js 2019-07-29 14:12:34 by冲冲 1. 配置插件在IDEA的 file -> setting -> Plugins, ...
volatile不能保证数据完整性的小案例
package juc; import java.util.Collections; import java.util.HashSet; import java.util.Set; public cl ...
Python集合&字典
Python集合&字典 @ 目录字典字典的几种定义方式第一种第二种第三种字典的一些基本操作通过key得到value 增加字典键值对删除字典键值对格式化操作清空字典复制字典 ...

Spark(二十)【SparkSQL将CSV导入Kudu】

SparkSql 将CSV导入kudu

pom 依赖

scala 代码

启动脚本

Spark(二十)【SparkSQL将CSV导入Kudu】的更多相关文章

随机推荐

热门专题