spark-shell 启动设置动态分区，snappy压缩、parquet存储以及备份

1、spark-shell 启动设置动态分区

  --executor-memory 16G \

  --total-executor-cores 10 \

  --executor-cores 10 \

  --conf "spark.hadoop.hive.exec.dynamic.partition=true" \

  --conf "spark.hadoop.hive.exec.dynamic.partition.mode=nonstrict"

  --conf spark.sql.shuffle.partitions=10 \

  --conf spark.default.parallelism=10 \

2、spark-sql对表压缩及备份

val sqlContext = new org.apache.spark.SQLContext(sc);

import org.apache.hadoop.conf.Configuration

import org.apache.fs.{FileSystem, FileUtil, Path ,FileStatus}

import scala.collection.mutable.{ArrayBuffer, ListBuffer}

import scala.io.Source

import java.io.PrintWrite

val tbn = "src_es"

val tbn = Array("middata","decision_info")

for (tb <- tbn){

    println(dbn+"."+tb)

    val df = sqlContext.sql("select * from "+dbn+"."+tb)

    df.write.option("compression","snappy").format("parquet")

    .save("/backupdatafile/"+dbn+".db/"+tb)

    val dbtb = spark.read.parquet("/backupdatafile/"+dbn+".db/"+tb)

    dbtb.createOrReplaceTempView("test_"+tb)

    spark.sql("insert overwrite table "+dbn+"."+tb+" select * from test_"+tb);

}

spark-shell 启动设置动态分区，snappy压缩、parquet存储以及备份的更多相关文章

Spark Shell启动时遇到<console>:14: error: not found: value spark import spark.implicits._ <console>:14: error: not found: value spark import spark.sql错误的解决办法（图文详解）
不多说,直接上干货! 最近,开始,进一步学习spark的最新版本.由原来经常使用的spark-1.6.1,现在来使用spark-2.2.0-bin-hadoop2.6.tgz. 前期博客 Spark ...
HQL之动态分区调整
动态分区插入可以基于查询语句分出出要插入的分区名称.比如,下面向分区表插入数据的SQL: insert into table chavin.emp_pat partition(dname,loc) s ...
什么是hive的静态分区和动态分区，它们又有什么区别呢？hive动态分区详解
面试官问我,什么是hive的静态分区和动态分区,这题我会呀. 简述分区是hive存放数据的一种方式,将列值作为目录来存放数据,就是一个分区,可以有多列. 这样查询时使用分区列进行过滤,只需根据列值直 ...
大数据技术之_08_Hive学习_04_压缩和存储（Hive高级）+ 企业级调优（Hive优化）
第8章压缩和存储(Hive高级)8.1 Hadoop源码编译支持Snappy压缩8.1.1 资源准备8.1.2 jar包安装8.1.3 编译源码8.2 Hadoop压缩配置8.2.1 MR支持的压缩 ...
shell脚本中向hive动态分区插入数据
在hive上建表与普通分区表创建方法一样: CREATE TABLE `dwa_m_user_association_circle`( `device_number` string, `oppo_nu ...
HBase里配置SNAPPY压缩以后regionserver启动不了的问题
配置了HBase的SNAPPY压缩以后,出现regionserver启动不了的问题.分析应该是属性配置错了! 官网上的是:<name>hbase.regionserver.codecs&l ...
[转]Snappy压缩库安装和使用之一
Snappy压缩库安装和使用之一原文地址:http://blog.csdn.net/luo6620378xu/article/details/8521223 近日需要在毕业设计中引入一个压缩库,要求 ...
Hive Experiment 2（表动态分区和IDE）
1.使用oracle sql developer 4.0.3作为hive query的IDE. 下载hive-jdbc driver http://www.cloudera.com/content/c ...
Spark配置&启动脚本分析
本文档基于Spark2.0,对spark启动脚本进行分析. date:2016/8/3 author:wangxl Spark配置&启动脚本分析我们主要关注3类文件,配置文件,启动脚本文件以 ...
Spark源码分析之Spark Shell（上）
终于开始看Spark源码了,先从最常用的spark-shell脚本开始吧.不要觉得一个启动脚本有什么东东,其实里面还是有很多知识点的.另外,从启动脚本入手,是寻找代码入口最简单的方法,很多开源框架,其 ...

随机推荐

可视化探索开源项目的 contributor 关系
引语:作为国内外最大的代码托管平台,根据最新的 GitHub 数据,它拥有超 372,000,000 个仓库,其中有 28,000,000 是公开仓.分布式图数据库 NebulaGraph 便是其中之 ...
C#---串口调试助手
1 using System; 2 using System.Collections.Generic; 3 using System.Linq; 4 using System.Text; 5 usin ...
“田由甲” - Kafka重复消费线上问题暴雷
Kafka作为一款高性能.分布式的消息队列系统,在大数据领域被广泛应用.然而,在使用Kafka时,重复消费问题是一个常见的挑战,可能会对系统的数据一致性和业务逻辑造成影响.我知道Kafka这个名词时还 ...
Spring事务（二）-@Transactional注解
上一节说了Spring的事务配置,其中,声明式事务配置里有5种配置方式, @Transactional注解应该是最为常用的一种方式了.这一节就说说@Transactional注解. @Transact ...
gap 单词学习对标 open
为什么gap 和 open 联系记忆呢? gap是从行为动作中来 open 中 op 就是 up,是从单词字母的角度来但是本意这两个单词都差不多 gap gap : 来自PIE*ghai,打呵 ...
Python中的join()函数的用法实例分析
一.join()函数语法: 'sep'.join(seq) 参数说明sep:分隔符.可以为空seq:要连接的元素序列.字符串.元组.字典上面的语法即:以sep作为分隔符,将seq所有的元素合并成一 ...
Spring Boot中的Freemarker模版引擎引用css和js的正确姿势
最近在弄个软件更新Web管理系统,项目中引用了js和css等样式,但发现iframe中无法成功引入样式,稍微研究之后成功的发现的解决方法,以及spring boot项目中正确引用css和js的正确姿势 ...
day02-功能实现02
功能实现02 6.功能05-显示家居信息 6.1需求分析进入后台系统,可以在页面进行所有家居信息的展示 6.2思路分析完成从后端代码从mapper(dao层)-->Service层--> ...
[置顶] java.io.IOException: No such file or directory解决方案之权限问题
先贴出异常信息: java.io.IOException: No such file or directory at java.io.UnixFileSystem.createFileExclusiv ...
MySQL 如何以当前日期时间作为字段初始默认值？
1.以当前时间作为默认值使用 DEFAULT CURRENT_TIMESTAMP 声明字段,插入记录时不用指定 dt,自动置入当前时间 CREATE TABLE t1 ( dt DATETIME D ...

spark-shell 启动设置动态分区，snappy压缩、parquet存储以及备份

1、spark-shell 启动设置动态分区

2、spark-sql对表压缩及备份

spark-shell 启动设置动态分区，snappy压缩、parquet存储以及备份的更多相关文章

随机推荐

热门专题