sparksql parquet 合并元数据】的更多相关文章

java public class ParquetMergeSchema { private static SparkConf conf = new SparkConf().setAppName("parquetmergeschema").setMaster("local"); private static JavaSparkContext jsc = new JavaSparkContext(conf); private static SparkSession s…
合并元数据:两个数据集,有着一部分相同的列,将他们合并成一个数据集时merge的过程. 合并的规则:相同的列,在新的数据集中,是通用的列, 各自不同的列,也作为新的数据集的列. Spark将数据写入到HDFS中的parquet为例:  准备连个json文件(StudentInfo1.json,StudentInfo2.json),上传到HDFS中: spark程序代码如下: public static void main(String[] args) { SparkConf conf = new…
一.自动分区推断 1.概述 表分区是一种常见的优化方式,比如Hive中就提供了表分区的特性.在一个分区表中,不同分区的数据通常存储在不同的目录中, 分区列的值通常就包含在了分区目录的目录名中.Spark SQL中的Parquet数据源,支持自动根据目录名推断出分区信息. 例如,如果将人口数据存储在分区表中,并且使用性别和国家作为分区列.那么目录结构可能如下所示: tableName |- gender=male |- country=US ... ... ... |- country=CN ..…
spark on yarn模式下配置spark-sql访问hive元数据 目的:在spark on yarn模式下,执行spark-sql访问hive的元数据.并对比一下spark-sql 和hive的效率. 软件环境: hadoop2.7.3 apache-hive-2.1.1-bin spark-2.1.0-bin-hadoop2.7 jd1.8 hadoop是伪分布式安装的,1个节点,2core,4G内存. hive是远程模式. spark的下载地址: http://spark.apach…
Checkpoint Node(检查点节点) NameNode persists its namespace using two files: fsimage, which is the latest checkpoint of the namespace and edits, a journal (log) of changes to the namespace since the checkpoint. When a NameNode starts up, it merges the fsi…
网上找的大部分资料都很旧,最后翻了下文档只找到了说明 大概意思是1.6之后如果想要使用分区推断就要设置数据源的basePath,因此代码如下 java public class ParitionInfer { private static SparkConf conf = new SparkConf().setAppName("partitioninfer"); private static JavaSparkContext jsc = new JavaSparkContext(con…
java public class Demo { private static SparkConf conf = new SparkConf().setAppName("demo").setMaster("local"); private static JavaSparkContext jsc = new JavaSparkContext(conf); private static SparkSession session = new SparkSession(js…
load.save方法的用法          DataFrame usersDF = sqlContext.read().load("hdfs://spark1:9000/users.parquet");                  usersDF.select("name", "favorite_color").write()                 .save("hdfs://spark1:9000/namesAnd…
一.前述       1.SparkSQL介绍 Hive是Shark的前身,Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制. SparkSQL支持查询原生的RDD. RDD是Spark平台的核心概念,是Spark能够高效的处理大数据的各种场景的基础. 能够在Scala中写SQL语句.支持简单的SQL语法检查,能够在Scala中写Hive语句访问Hive数据,并将结果取回作为RDD使用.     2.Spark on Hive和Hive on Spa…
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 1.读取json格式的文件创建DataFrame注意:(1)json文件中的json数据不能嵌套json格式数据.(2)DataFrame是一个一个Row类型的RDD,df.rdd()/df.javaRdd().(3)可以两种方式读取json格式的文件. sqlContext.read()…