Spark(二十)【SparkSQL将CSV导入Kudu】

SparkSql 将CSV导入kudu

SparkSql 将CSV导入kudu

pom 依赖

 <properties>

        <spark.version>2.1.0</spark.version>

        <scala.version>2.11</scala.version>

        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>

        <project.reporting.outputEncoding>UTF-8</project.reporting.outputEncoding>

        <java.version>1.8</java.version>

        <maven.version.min>3.5.0</maven.version.min>

        <scala.binary.version>2.11</scala.binary.version>

        <scala.complete.version>${scala.binary.version}.4</scala.complete.version>

        <spark-sql.version>2.1.0</spark-sql.version>

    </properties>

    <dependencies>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.11</artifactId>

            <version>${spark.version}</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>org.apache.kafka</groupId>

            <artifactId>kafka-clients</artifactId>

            <version>0.11.0.0</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-streaming_2.11</artifactId>

            <version>2.1.0</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-sql_2.11</artifactId>

            <version>${spark.version}</version>

            <scope>compile</scope>

            <exclusions>

                <exclusion>

                    <groupId>org.codehaus.janino</groupId>

                    <artifactId>commons-compiler</artifactId>

                </exclusion>

            </exclusions>

        </dependency>

        <dependency>

            <groupId>org.codehaus.janino</groupId>

            <artifactId>commons-compiler</artifactId>

            <version>3.0.9</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>org.apache.hbase</groupId>

            <artifactId>hbase-server</artifactId>

            <version>1.0.0</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-hive_2.11</artifactId>

            <version>${spark.version}</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>org.scala-lang</groupId>

            <artifactId>scala-library</artifactId>

            <version>2.11.12</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>org.scala-lang</groupId>

            <artifactId>scala-compiler</artifactId>

            <version>2.11.12</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>com.typesafe</groupId>

            <artifactId>config</artifactId>

            <version>1.2.1</version>

            <scope>compile</scope>

        </dependency>

        <!-- scalikejdbc_2.11 -->

        <dependency>

            <groupId>org.scalikejdbc</groupId>

            <artifactId>scalikejdbc_2.11</artifactId>

            <version>2.5.0</version>

            <scope>compile</scope>

        </dependency>

        <!-- scalikejdbc-config_2.11 -->

        <dependency>

            <groupId>org.scalikejdbc</groupId>

            <artifactId>scalikejdbc-config_2.11</artifactId>

            <version>2.5.0</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>mysql</groupId>

            <artifactId>mysql-connector-java</artifactId>

            <version>5.1.38</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>redis.clients</groupId>

            <artifactId>jedis</artifactId>

            <version>2.9.0</version>

            <scope>compile</scope>

        </dependency>

        <dependency>

            <groupId>com.xes.bdc</groupId>

            <artifactId>galaxy-engine-common</artifactId>

            <version>1.0-SNAPSHOT</version>

            <exclusions>

                <exclusion>

                    <groupId>org.apache.kudu</groupId>

                    <artifactId>kudu-client</artifactId>

                </exclusion>

            </exclusions>

        </dependency>

        <dependency>

            <groupId>org.apache.kudu</groupId>

            <artifactId>kudu-spark2_2.11</artifactId>

            <version>1.9.0</version>

            <scope>compile</scope>

        </dependency>

    </dependencies>

    <build>

        <!--编译的文件目录-->

        <sourceDirectory>src/main/java</sourceDirectory>

        <resources>

            <resource>

                <directory>src/main/resources</directory>

            </resource>

        </resources>

        <plugins>

            <!-- build-helper-maven-plugin, 设置多个源文件夹 -->

            <plugin>

                <groupId>org.codehaus.mojo</groupId>

                <artifactId>build-helper-maven-plugin</artifactId>

                <version>3.0.0</version>

                <executions>

                    <execution>

                        <id>add-source</id>

                        <phase>generate-sources</phase>

                        <goals>

                            <goal>add-source</goal>

                        </goals>

                        <configuration>

                            <sources>

                                <source>src/main/java</source>

                                <source>src/main/scala</source>

                                <!-- 我们可以通过在这里添加多个source节点，来添加任意多个源文件夹 -->

                            </sources>

                        </configuration>

                    </execution>

                </executions>

            </plugin>

            <plugin>

                <!-- see http://davidb.github.com/scala-maven-plugin -->

                <groupId>net.alchim31.maven</groupId>

                <artifactId>scala-maven-plugin</artifactId>

                <version>3.2.0</version>

                <executions>

                    <execution>

                        <goals>

                            <goal>compile</goal>

                            <goal>testCompile</goal>

                        </goals>

                        <configuration>

                            <scalaVersion>${scala.complete.version}</scalaVersion>

                            <fork>true</fork>

                            <encoding>UTF-8</encoding>

                            <args>

                                <!-- <arg>-make:transitive</arg> -->

                                <arg>-dependencyfile</arg>

                                <arg>${project.build.directory}/.scala_dependencies</arg>

                            </args>

                            <recompileMode>modified-only</recompileMode>

                        </configuration>

                    </execution>

                </executions>

            </plugin>

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-shade-plugin</artifactId>

                <version>2.4.3</version>

                <executions>

                    <execution>

                        <phase>package</phase>

                        <goals>

                            <goal>shade</goal>

                        </goals>

                        <configuration>

                            <transformers>

                            </transformers>

                        </configuration>

                    </execution>

                </executions>

            </plugin>

        </plugins>

    </build>

scala 代码

import org.apache.kudu.spark.kudu.KuduContext

import org.apache.spark.SparkConf

import org.apache.spark.sql.{DataFrame, SparkSession}

/**

 *

 * @description: TODO 将Csv文件导入Kudu

 * @author: HaoWu

 * @create: 2021年04月02日

 */

object LoadCsvToKudu {

  private var kudu_host: String = _

  private var kudu_tableName: String = _

  private var input_path: String = _

  def main(args: Array[String]): Unit = {

    val conf: SparkConf = new SparkConf()

    val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate()

    kudu_host =args(0)

    kudu_tableName = args(1)

    input_path = args(2)

    // 专用的读Csv

    val df: DataFrame = spark.read

      .option("header","true") //第一行作为字段属性

      .csv(input_path)

    //spark.sql("select count(*) from normal_detail_view").show()

    val kuduContext = new KuduContext(kudu_host, spark.sparkContext)

    // real_lp_id,name,workcode,lp_stasus,position,position,dept

    kuduContext.upsertRows(df, kudu_tableName)

    spark.stop()

  }

}

启动脚本

csv_to_kudu.sh

#!/usr/bin/env bash

cd $(dirname $0)

# 用户基础配置

# kudu host

HOST="XXX:7051,XXX:7051,XXX:7051"

#kudu tableName

TABLENAME="impala::odsdb.XXX"

#csv文件路径 , 上传至hdfs

input_path="/user/wx_dp_hive/wuhao36/data/lp.csv"

# 默认配置

clazz=baopinke.LoadCsvToKudu

jarPath=/home/wx_dp_hive/wuhao/learn_poject/kudu_learning/csv-to-kudu.jar

# 提交任务

BASE_SPARK_SUBMIT=/usr/bin/spark2-submit

KEY_TAB=/home/wx_dp_hive/wx_dp_hive.keytab

USER=wx_dp_hive

#--master yarn --deploy-mode cluster \

$BASE_SPARK_SUBMIT \

--principal  $USER --keytab $KEY_TAB  --queue root.wangxiao.dp \

--master yarn --deploy-mode cluster \

--driver-memory 8G --executor-memory 16G \

--executor-cores 2 --num-executors  4 \

--conf spark.dynamicAllocation.enabled=false \

--conf spark.driver.allowMultipleContexts=true \

--class $clazz $jarPath \

$HOST \

$TABLENAME \

$input_path

注意：

1.需要将csv上传至hdfs，不然在yarn模式下文件找不到。

2.要设置csv的第一行为字段属性。

Spark(二十)【SparkSQL将CSV导入Kudu】的更多相关文章

Spark学习之路（二十）SparkSQL的元数据
一.概述 SparkSQL 的元数据的状态有两种: 1.in_memory,用完了元数据也就丢了 2.hive , 通过hive去保存的,也就是说,hive的元数据存在哪儿,它的元数据也就存在哪儿. ...
数据可视化基础专题（三）：Pandas基础（二） csv导入与导出
1.csv导入 1.1 csv导入 .read_csv()函数 pandas.read_csv(filepath_or_buffer: Union[str, pathlib.Path, IO[~Any ...
ComicEnhancerPro 系列教程二十：用“文件比较”看有损、无损
作者:马健邮箱:stronghorse_mj@hotmail.com 主页:http://www.comicer.com/stronghorse/ 发布:2017.07.23 教程二十:用“文件比较” ...
KUDU数据导入尝试一：TextFile数据导入Hive,Hive数据导入KUDU
背景 SQLSERVER数据库中单表数据几十亿,分区方案也已经无法查询出结果.故:采用导出功能,导出数据到Text文本(文本>40G)中. 因上原因,所以本次的实验样本为:[数据量:61w条,文 ...
geotrellis使用（二十五）将Geotrellis移植到spark2.0
目录前言升级spark到2.0 将geotrellis最新版部署到spark2.0(CDH) 总结一.前言事情总是变化这么快,前面刚写了一篇博客介绍如何将geotrellis移植 ...
geotrellis使用（二十二）实时获取点状目标对应的栅格数据值
目录前言实现方法总结一.前言其实这个功能之前已经实现,今天将其采用1.0版的方式进行了重构与完善,现将该内容进行总结. 其实这个功能很常见,比如google地球上 ...
WCF技术剖析之二十九：换种不同的方式调用WCF服务[提供源代码下载]
原文:WCF技术剖析之二十九:换种不同的方式调用WCF服务[提供源代码下载] 我们有两种典型的WCF调用方式:通过SvcUtil.exe(或者添加Web引用)导入发布的服务元数据生成服务代理相关的代码 ...
WCF技术剖析之二十六:如何导出WCF服务的元数据(Metadata)[实现篇]
原文:WCF技术剖析之二十六:如何导出WCF服务的元数据(Metadata)[实现篇] 元数据的导出就是实现从ServiceEndpoint对象向MetadataSet对象转换的过程,在WCF元数据框 ...
WCF技术剖析之二十五: 元数据（Metadata）架构体系全景展现[元数据描述篇]
原文:WCF技术剖析之二十五: 元数据(Metadata)架构体系全景展现[元数据描述篇] 在[WS标准篇]中我花了很大的篇幅介绍了WS-MEX以及与它相关的WS规范:WS-Policy.WS-Tra ...

随机推荐

全志Tina_dolphin播放音视频裸流（h264,pcm）验证
最近在验证tina对裸流音视频的支持,主要指h264视频裸流及pcm音频裸流. 在原始sdk中有针对很多video和audio类型的parser,但就是没有找到pcm和h264的parser,所以需要 ...
Tarjan算法求有向图的强连通分量
百度百科 https://baike.baidu.com/item/tarjan%E7%AE%97%E6%B3%95/10687825?fr=aladdin 参考博文 http://blog.csdn ...
dotnet OpenXML 转换 PathFillModeValues 为颜色特效
在 OpenXml 预设形状,有一些形状设置了 PathFillModeValues 枚举,此枚举提供了亮暗的蒙层特效.具体的特效是让形状选择一个画刷,在画刷上加上特效.如立体几何 Cube 形状,在 ...
Piakchu之RCE漏洞
一.Ping(远程系统命令执行) 首先正常输入一个ip,查看页面的返回值.发现有乱码,但是能看出执行了ping命令. 查看源代码,可以看到只是对操作系统进行了判断,而对输入内容是否为ip地址并没有判断 ...
基于eNSP的NAT/NAPT协议仿真实践
一. 基本原理 eNSP(Enterprise Network Simulation Platform)是一款由华为提供的.可扩展的.图形化操作的网络仿真工具平台,主要对企业网络路由器.交换机进行软 ...
PTA 7-2 哈夫曼编码 (30分)
PTA 7-2 哈夫曼编码 (30分) 给定一段文字,如果我们统计出字母出现的频率,是可以根据哈夫曼算法给出一套编码,使得用此编码压缩原文可以得到最短的编码总长.然而哈夫曼编码并不是唯一的.例如对字符 ...
JVM 核心参数
JVM 内存相关的几个核心参数参数部分看我笔记 https://note.youdao.com/s/Ch3awnVu JVM模板 1. ParNew + CMS 版根据服务调整 -Xmx -X ...
Celery Received unregistered task of type
celery -A proj worker --loglevel=info 这个错误原因在于proj这里没有包含对应的task, 可以在这里导入需要的task即可
CodeGuide 300+文档、100+代码库，一个指导程序员写代码的，Github 仓库开源啦！
作者:小傅哥博客:https://bugstack.cn 沉淀.分享.成长,让自己和他人都能有所收获! 一.路怎样走,让你们自己挑 B站视频:https://www.bilibili.com/vi ...
5.0jemter(英文版)录制脚本，进行压力测试
压力测试的目的:找到瓶颈.优化速率 1.jemter,Test Plan-->>Add-->>Threds(users)-->>Thred Group创建线程组 2 ...

Spark(二十)【SparkSQL将CSV导入Kudu】

SparkSql 将CSV导入kudu

pom 依赖

scala 代码

启动脚本

Spark(二十)【SparkSQL将CSV导入Kudu】的更多相关文章

随机推荐

热门专题