CCA Spark and Hadoop 开发者认证技能点【2016只为hadoop达到巅峰】
Required Skills
Data Ingest
The skills to transfer data between external systems and your cluster. This includes the following:
在外部系统和集群之间转移数据的技能,包括以下几个:
- Import data from a MySQL database into HDFS using Sqoop
使用sqoop将数据从mysql导入HDFS - Export data to a MySQL database from HDFS using Sqoop
使用sqoop将数据从HDFS导入mysql - Change the delimiter and file format of data during import using Sqoop
使用sqoop导入的时候改变数据的分隔符和文件格式 - Ingest real-time and near-real time (NRT) streaming data into HDFS using Flume
使用Flume处理实时和接近实时的流数据导入到HDFS中 - Load data into and out of HDFS using the Hadoop File System (FS) commands
使用HDFS 的hadoop FIle System命令导入导出数据 
Transform, Stage, Store
Convert a set of data values in a given format stored in HDFS into new data values and/or a new data format and write them into HDFS. This includes writing Spark applications in both Scala and Python:
将给定的HDFS上的一套数据值转化成为一套新的数据值和数据格式,并且写入到HDFS中。这包括使用Scala和Python编写Spark程序
- Load data from HDFS and storing results back to HDFS using Spark
使用Spark从HDFS中加载数据,并且将运算结果写回到HDFS - Join disparate datasets together using Spark
使用Spark合并不同的数据集 - Calculate aggregate statistics (e.g., average or sum) using Spark
使用Spark计算汇总统计数据 - Filter data into a smaller dataset using Spark
使用Spqrk过滤数据得到更小的数据集 - Write a query that produces ranked or sorted data using Spark
使用Spqrk编写查询得到排名或者排序的数据 
Data Analysis
Use DDL (Data Definition Language) in order to create tables in the Hive metastore for use by Hive and Impala.
使用DDL(数据定义语言)在Hive元数据库中创建表便于hive和impala使用
- Read and/or create a table in the Hive metastore in a given schema
使用指定的模式在Hive metastore中读取或者创建一个表 - Extract an Avro schema from a set of datafiles using avro-tools
使用avro工具从一套数据文件中提取Avro schema - Create a table in the Hive metastore using the Avro file format and an external schema file
使用Avro 文件格式和一个外部schema 文件在hive metastore中创建一个表 - Improve query performance by creating partitioned tables in the Hive metastore
在hive metastore中创建分区来提升查询的效率 - Evolve an Avro schema by changing JSON files
改变JSON文件升级Avro schema 
CCA Spark and Hadoop 开发者认证技能点【2016只为hadoop达到巅峰】的更多相关文章
- 新浪SAE高级开发者认证通过
		
如题,新浪SAE高级开发者认证通过,申请的方式为提交开源项目地址,用的是如下的项目 http://jqext.sinaapp.com/ 之前该项目是部署在 mopaas 上的,在拿到高级开发者资格后迁 ...
 - Hadoop之父Doug Cutting:Lucene到Hadoop的开源之路
		
Hadoop之父Doug Cutting:Lucene到Hadoop的开源之路 Doug Cutting,凭借自己对工作的热情和脚踏实地的态度,开创了Lucene和Nutch两个成功的开源搜索引擎项目 ...
 - hadoop生态搭建(3节点)-04.hadoop配置
		
如果之前没有安装jdk和zookeeper,安装了的请直接跳过 # https://www.oracle.com/technetwork/java/javase/downloads/java-arch ...
 - Hadoop MapReduce执行过程详解(带hadoop例子)
		
https://my.oschina.net/itblog/blog/275294 摘要: 本文通过一个例子,详细介绍Hadoop 的 MapReduce过程. 分析MapReduce执行过程 Map ...
 - Hadoop单机模式安装-(3)安装和配置Hadoop
		
网络上关于如何单机模式安装Hadoop的文章很多,按照其步骤走下来多数都失败,按照其操作弯路走过了不少但终究还是把问题都解决了,所以顺便自己详细记录下完整的安装过程. 此篇主要介绍在Ubuntu安装完 ...
 - [Hadoop] 在Ubuntu系统上一步步搭建Hadoop(单机模式)
		
1 Hadoop的三种创建模式 单机模式操作是Hadoop的默认操作模式,当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,会保守地选择最小配置,即单机模式.该模式主要用于开发调试M ...
 - 解决root用户ssh配置无密码登陆/hadoop用户照仿可以实现相同功能:hadoop用户登录并且把命令的所有root换成home/hadoop
		
http://inuyasha1027.blog.51cto.com/4003695/1132896/ 主机ip:192.168.163.100(hostname: node0) ssh无密码登陆的远 ...
 - hadoop备战:一台x86计算机搭建hadoop的全分布式集群
		
主要的软硬件配置: x86台式机,window7 64位系统 vb虚拟机(x86的台式机至少是4G内存,才干开3台虚机) centos6.4操作系统 hadoop-1.1.2.tar.gz jdk- ...
 - hadoop高速扫盲帖,从零了解hadoop
		
1.MapReduce理论简单介绍 1.1 MapReduce编程模型 MapReduce採用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完毕 ...
 
随机推荐
- soj考试2
			
T1:子图 给你一棵带点权的树,对于所有i∈[1,m],问树上是否存在连通子图的权值和=i? n<=3000,m<=100000. 朴素的背包树形dp有nm的复杂度,bitset也无处优化 ...
 - 0908CSP-S模拟测试赛后总结
			
我早就料到昨天会考两场2333 话说老师终于给模拟赛改名了啊. 距离NOIP祭日还有60天hhh. 以上是废话. %%%DeepinC无敌神 -rank1 zkt神.kx神.动动神 -rank2 有钱 ...
 - bootstrap1总结
			
bootstrap中的排版----标题: 标题(h1~h6/.h1~.h6) 副标题(small) h1:36px h2:30px h3:24px h4:18px h5:14px h6:12px 排版 ...
 - python使用PIL处理图片后返回给前端的坑
			
一.python代码 这里有个坑,之前没有将bytes图片数据转成base64就返回到前端了,但在前端处理的时候,怎么都显示不出图片来,虽然数据拿到了,但bytes被传到前后变str了,所以怎么搞都没 ...
 - Form-Item Slot 自定义label内容
			
<el-form-item> <span slot="label">体 重:</span> <el-input v-model=&qu ...
 - 使用ProGuard混淆JAR包
			
1.在Input/OutPut选项下面,add input 导入需要混淆的jar包2.点击add output,设置混淆后输出jar包的名字和路径.如下图:3.在下面的编辑区右边点击add增加要混淆的 ...
 - Java笔记 - Socket编程
			
两个Java应用程序可以通过一个双向的网络通讯连接实现数据交换,这个双向链路的一端称为一个Socket.java.net包中定义的两个类Socket和ServerSocket,分别用来实现双向链路的c ...
 - git撤销修改及版本回退
			
场景1:当你改乱了工作区某个文件的内容,想直接丢弃工作区的修改时,用命令git checkout -- file. 场景2:当你不但改乱了工作区某个文件的内容,还添加到了暂存区时,想丢弃修改,分两步, ...
 - mybatis-sql语句传参
			
MyBatis中的映射语句有一个parameterType属性来制定输入参数的类型.但是parameterType属性只可以写一个参数,所以如果我们想给映射语句传入多个参数的话,我们可以将所有的输入参 ...
 - VM 虚拟机使用桥接模式却连不上网的解决办法(转载)
			
只需将VM的虚拟网络编辑器中关于 VMnet0 的设置改一下就行了: 1.进入VMware的 编辑 -> 虚拟网络编辑器. 第一步 2.选择更改设置. 3.将VMnet0(或其它类型为桥接模式的 ...