spark 基础开发 Tips总结

本篇博客主要是 sparksql 从初始开发注意的一些基本点以及力所能及的可优化部分的介绍：　

所使用spark版本：2.0.0 scala版本：2.11.8

1. SparkSession的初始化：

val sparkSession = SparkSession.builder().master("local[*]").appName("AppName").config("spark.sql.warehouse.dir", "file:///D:/XXXX/XXXX/spark-warehouse").config("spark.sql.shuffle.partitions", 50).getOrCreate()

注意点：

a. spark.sql.warehouse.dir 需要显示设置，否则会抛出 Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: file:... 错误

b. spark.sql.shuffle.partitions 指定 Shuffle 时 Partition 个数，也即 Reducer 个数。根据业务数据量测试调整最佳结果

Partition 个数不宜设置过大：

　　　　　　　　　　　 Reducer（代指 Spark Shuffle 过程中执行 Shuffle Read 的 Task）个数过多，每个 Reducer 处理的数据量过小。大量小 Task 造成不必要的 Task 调度开销与可能的资源调度开销（如果开启了 Dynamic Allocation）

　　　　　　　　　　　　Reducer 个数过大，如果 Reducer 直接写 HDFS 会生成大量小文件，从而造成大量 addBlock RPC，Name node 可能成为瓶颈，并影响其它使用 HDFS 的应用

　　　　　　　　　　　　过多 Reducer 写小文件，会造成后面读取这些小文件时产生大量 getBlock RPC，对 Name node 产生冲击

Partition 个数不宜设置过小：

　　　　　　　　　　　　每个 Reducer 处理的数据量太大，Spill 到磁盘开销增大

　　　　　　　　　　　　Reducer GC 时间增长

　　　　　　　　　　　　Reducer 如果写 HDFS，每个 Reducer 写入数据量较大，无法充分发挥并行处理优势

2. 将非结构化数据转换为结构化数据DataFrame（本人用的自定义模式）:

    val rdd= sparkSession.sparkContext.textFile(path, 250)  // 默认split为2

    val schemaString = "time hour lic"   //结构化数据的列名，可理解为关系型数据库的列名

    val fields = schemaString.split(" ").map(fieldName => StructField(fieldName, StringType, nullable = true))   // 字段名  字段类型  是否可为空

    val schema = StructType(fields)      //上两步组装最终 createDataFrame 时需要的 schema

    val rowRDD = citySECRDD.map(_.split(",")).filter(attributes => attributes.length >= 6 && attributes(1).equals("2")&& attributes(0).split(" ").length > 1 && attributes(0).split(" ")(1).split(":").length > 1).map(attributes => {Row(attributes(0).trim,attributes(0).split(" "                   (1).split(":")(0).trim,attributes(2).trim,attributes(3).trim,attributes(4).trim,attributes(5).trim)})         //自定义一些过滤条件  以及组装最终的 row类型的RDD

    val df= sparkSession.createDataFrame(rowRDD, schema)       //将rdd装换成DataFrame

3. 两种缓存使用方式：

    1)df.persist(StorageLevel.MEMORY_ONLY)     //后续如果需要反复使用DF[DataFrame的简称]，则就把此DF缓存起来                            
     df.unpersist()    //释放缓存

     常用的两种序列化方式：MEMORY_ONLY->不加工在内存中存储   MEMORY_ONLY_SER->在内存中序列化存储（占用内存空间较小）

    2）df.createOrReplaceTempView("table")  

      sparkSession.sql("cache table table")   // 以 sql 形式缓存DF                
      sparkSession.sql("uncache table table")     //释放缓存

4.spark整合Hbase快速批量插入

将计算结果写入Hbase:

注意：1) 如果是带有shuffle过程的,shuffle计算之前使用select()提出只需要的字段然后再进行计算，因为shuffle特别耗费时间，写磁盘的过程，所以要能少写就少写。

df.foreachPartition(partition => {

      val hconf = HBaseConfiguration.create();

      hconf.set(zkClientPort, zkClientPortValue) //zk 端口

      hconf.set(zkQuorum, zkQuorumValue) //zk 地址

      hconf.set(hbaseMaster, hbaseMasterValue) //hbase master

       val myTable = new HTable(hconf, TableName.valueOf(tableName))

       myTable.setAutoFlush(false, false) //关键点1

      myTable.setWriteBufferSize(5 * 1024 * 1024) //关键点2

      partition.foreach(x => {

      val column1 = x.getAs[String]("column1") //列1

      val column2 = x.getAs[String]("column2") //列2

      val column3 = x.getAs[Double]("column3") //列3

      val date = dateStr.replace("-", "") // 格式化后的日期

    val rowkey = MD5Hash.getMD5AsHex(Bytes.toBytes(column1+ date)) + Bytes.toBytes(hour)

    val put = new Put(Bytes.toBytes(rowkey))

    put.add("c1".getBytes(), "column1".getBytes(), licPlateNum.getBytes()) //第一列族 第一列

    put.add("c1".getBytes(), "column2".getBytes(), hour.getBytes()) //第一列族 第二列

    put.add("c1".getBytes(), "column3".getBytes(), interval.toString.getBytes()) //第一列族 第三列

    put.add("c1".getBytes(), "date".getBytes(), date.getBytes()) //第一列族 第四列

    myTable.put(put)

     })

     myTable.flushCommits() //关键点3

    /*

    *关键点1_:将自动提交关闭，如果不关闭，每写一条数据都会进行提交，是导入数据较慢的做主要因素。

     关键点2:设置缓存大小，当缓存大于设置值时，hbase会自动提交。此处可自己尝试大小，一般对大数据量，设置为5M即可，本文设置为3M。

     关键点3:每一个分片结束后都进行flushCommits()，如果不执行，当hbase最后缓存小于上面设定值时，不会进行提交，导致数据丢失。

     注：此外如果想提高Spark写数据如Hbase速度，可以增加Spark可用核数量。

    */

5. spark任务提交shell脚本：

spark-submit --jars /XXX/XXX/hbase/latest/lib/hbase-protocol-0.96.1.1-cdh5.0.2.jar \

         --master yarn\

         --num-executors 200 \

         --conf "spark.driver.extraClassPath=/share/apps/hbase/latest/lib/hbase-protocol-0.96.1.1-cdh5.0.2.jar" \

         --conf "spark.executor.extraClassPath=/share/apps/hbase/latest/lib/hbase-protocol-0.96.1.1-cdh5.0.2.jar" \

         --conf spark.driver.cores=2 \

         --conf spark.driver.memory=10g \

         --conf spark.driver.maxResultSize=2g \

         --conf spark.executor.cores=6 \

         --conf spark.executor.memory=10g \

         --conf spark.shuffle.blockTransferService=nio \

         --conf spark.memory.fraction=0.8 \

         --conf spark.shuffle.memoryFraction=0.4 \

         --conf spark.default.parallelism=1000 \

         --conf spark.sql.shuffle.partitions=400 \                     默认200，如果项目中代码设置了此选项，则代码设置级别优先，会覆盖此处设置

         --conf spark.shuffle.consolidateFiles=true \

         --conf spark.shuffle.io.maxRetries=10 \

         --conf spark.scheduler.listenerbus.eventqueue.size=1000000 \

         --class XXXXX\                                                                项目启动主类引用

         --name zzzz \

         /data/XXX/XXX-jar-with-dependencies.jar \                       项目jar包

        "参数1" "参数2"

注：红色部分是Hbase需要的配置，同时需要在spark集群的spark-defaults.conf 里面配置

spark.driver.extraClassPath 和 spark.executor.extraClassPath 直指 hbase-protocol-0.96.1.1-cdh5.0.2.jar 路径

先写到这里吧，后续会继续完善通过sparkUi 优化细节以及提交spark任务的时候如何分配 executor.cores 和 executor.memory。

spark 基础开发 Tips总结的更多相关文章

Ubuntu14.04或16.04下Hadoop及Spark的开发配置
对于Hadoop和Spark的开发,最常用的还是Eclipse以及Intellij IDEA. 其中,Eclipse是免费开源的,基于Eclipse集成更多框架配置的还有MyEclipse.Intel ...
Spark：利用Eclipse构建Spark集成开发环境
前一篇文章“Apache Spark学习:将Spark部署到Hadoop 2.2.0上”介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上 ...
最全的spark基础知识解答
原文:http://www.36dsj.com/archives/61155 一. Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduc ...
Spark（六）Spark之开发调优以及资源调优
Spark调优主要分为开发调优.资源调优.数据倾斜调优.shuffle调优几个部分.开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则,是高性能Spark作业的基础:数据倾斜调优,主 ...
转】[1.0.2] 详解基于maven管理-scala开发的spark项目开发环境的搭建与测试
场景好的,假设项目数据调研与需求分析已接近尾声,马上进入Coding阶段了,辣么在Coding之前需要干马呢?是的,“统一开发工具.开发环境的搭建与本地测试.测试环境的搭建与测试” - 本文详细记录 ...
FusionInsight大数据开发---Spark应用开发
Spark应用开发要求: 了解Spark基本原理搭建Spark开发环境开发Spark应用程序调试运行Spark应用程序 YARN资源调度,可以和Hadoop集群无缝对接 Spark适用场景大多 ...
Spark基础学习精髓——第一篇
Spark基础学习精髓 1 Spark与大数据 1.1 大数据基础 1.1.1 大数据特点存储空间大数据量大计算量大 1.1.2 大数据开发通用步骤及其对应的技术大数据采集->大数据预处 ...
Windows下搭建Spark+Hadoop开发环境
Windows下搭建Spark+Hadoop开发环境需要一些工具支持. 只需要确保您的电脑已装好Java环境,那么就可以开始了. 一. 准备工作 1. 下载Hadoop2.7.1版本(写Spark和H ...
Centos 基础开发环境搭建之Maven私服nexus
hmaster 安装nexus及启动方式 /usr/local/nexus-2.6.3-01/bin ./nexus status Centos 基础开发环境搭建之Maven私服nexus . 软件 ...

随机推荐

180415_判断闰年的思路及三种 java 实现
世纪年:能整除 100 的年份普通年:不能整除 100 的年份闰年:一年有 366 天,二月有 29 天平年:一年有 365 天,二月有 28 天对于世纪年:能整除 400 为闰年,否则为平年 ...
Fragment的setUserVisibleHint方法实现懒加载
public abstract class LazyFragment extends Fragment { protected boolean isVisible; /** ...
redis 概述、windows版本下载启动访问退出安装、中文乱码、RedisDesktopManager下载
redis 概述 redis的key是string类型的:value有多种类型,但放入的不是特定类型数据,添加的都是string,只是redis把这些值组织成了各种数据结构.key和相应的值都是str ...
.net 下使用Quartz.Net
Quartz.net是作业调度框架 1. 项目中添加quartz.net的引用(这里使用nuget管理) 新建一个类TimingJob,该类主要用于实现任务逻辑 using Quartz; using ...
POST请求上传多张图片并携带参数
POST请求上传多张图片并携带参数在iOS中,用POST请求携带参数上传图片是非常恶心的事情,HTTPBody部分完全需要我们自己来配置,这个HTTPBody分为3个部分,头部分可以携带参数,中间部 ...
【2017.12.05 智能驾驶/汽车电子】转载：如何成为一名无人驾驶工程师 By刘少山
之前对无人驾驶的理解就是通过刘少山老师的书:第一本无人驾驶技术书通读之后,对智能驾驶有了一个初步的认识,如感知.决策.控制都涉及哪些领域,有哪些可以利用的技术: 但经过一段时间的实践,发现即使是在我 ...
spring中MessageSource的配置使用方法1[转]
本文转载仅供自己学习收录,不做任何商业用途,如有需要请访问文章原地址:http://blog.csdn.net/qyf_5445/article/details/8124306 Spring定义了访问 ...
linux下统计目录下所有子目录的大小
du -sh * --exclude=tar |awk '{v=substr($1,length($1),1)}v=="G"{$0="1G "$0}v==&qu ...
EOS资料收集
柚子(EOS)可以理解为Enterprise Operation System,即为商用分布式应用设计的一款区块链操作系统.EOS是EOS软件引入的一种新的区块链架构,旨在实现分布式应用的性能扩展.注 ...
【洛谷】【动态规划/背包】P1833 樱花
[题目描述:] 爱与愁大神后院里种了n棵樱花树,每棵都有美学值Ci.爱与愁大神在每天上学前都会来赏花.爱与愁大神可是生物学霸,他懂得如何欣赏樱花:一种樱花树看一遍过,一种樱花树最多看Ai遍,一种樱花树 ...

spark 基础开发 Tips总结

spark 基础开发 Tips总结的更多相关文章

随机推荐

热门专题