CCA Spark and Hadoop 开发者认证技能点【2016只为hadoop达到巅峰】

MrCharles 2024-11-08 01:32:56 原文

Required Skills

技能要求：

Data Ingest

数据消化：

The skills to transfer data between external systems and your cluster. This includes the following:

在外部系统和集群之间转移数据的技能，包括以下几个：

Import data from a MySQL database into HDFS using Sqoop

使用sqoop将数据从mysql导入HDFS
Export data to a MySQL database from HDFS using Sqoop

使用sqoop将数据从HDFS导入mysql
Change the delimiter and file format of data during import using Sqoop

使用sqoop导入的时候改变数据的分隔符和文件格式
Ingest real-time and near-real time (NRT) streaming data into HDFS using Flume

使用Flume处理实时和接近实时的流数据导入到HDFS中
Load data into and out of HDFS using the Hadoop File System (FS) commands

使用HDFS 的hadoop FIle System命令导入导出数据

Transform, Stage, Store

转化，筹划，存储

Convert a set of data values in a given format stored in HDFS into new data values and/or a new data format and write them into HDFS. This includes writing Spark applications in both Scala and Python:

将给定的HDFS上的一套数据值转化成为一套新的数据值和数据格式，并且写入到HDFS中。这包括使用Scala和Python编写Spark程序

Load data from HDFS and storing results back to HDFS using Spark

使用Spark从HDFS中加载数据，并且将运算结果写回到HDFS
Join disparate datasets together using Spark

使用Spark合并不同的数据集
Calculate aggregate statistics (e.g., average or sum) using Spark

使用Spark计算汇总统计数据
Filter data into a smaller dataset using Spark

使用Spqrk过滤数据得到更小的数据集
Write a query that produces ranked or sorted data using Spark

使用Spqrk编写查询得到排名或者排序的数据

Data Analysis

数据分析

Use DDL (Data Definition Language) in order to create tables in the Hive metastore for use by Hive and Impala.

使用DDL(数据定义语言)在Hive元数据库中创建表便于hive和impala使用

Read and/or create a table in the Hive metastore in a given schema

使用指定的模式在Hive metastore中读取或者创建一个表
Extract an Avro schema from a set of datafiles using avro-tools

使用avro工具从一套数据文件中提取Avro schema
Create a table in the Hive metastore using the Avro file format and an external schema file

使用Avro 文件格式和一个外部schema 文件在hive metastore中创建一个表
Improve query performance by creating partitioned tables in the Hive metastore

在hive metastore中创建分区来提升查询的效率
Evolve an Avro schema by changing JSON files

改变JSON文件升级Avro schema

Charles 2016-1-1 于Phnom Phen

版权说明：

本文由Charles Dong原创，本人支持开源以及免费有益的传播，反对商业化谋利。

CSDN博客：http://blog.csdn.net/mrcharles

个人站：http://blog.xingbod.cn

EMAIL：charles@xingbod.cn

CCA Spark and Hadoop 开发者认证技能点【2016只为hadoop达到巅峰】的更多相关文章

新浪SAE高级开发者认证通过
如题,新浪SAE高级开发者认证通过,申请的方式为提交开源项目地址,用的是如下的项目 http://jqext.sinaapp.com/ 之前该项目是部署在 mopaas 上的,在拿到高级开发者资格后迁 ...
Hadoop之父Doug Cutting：Lucene到Hadoop的开源之路
Hadoop之父Doug Cutting:Lucene到Hadoop的开源之路 Doug Cutting,凭借自己对工作的热情和脚踏实地的态度,开创了Lucene和Nutch两个成功的开源搜索引擎项目 ...
hadoop生态搭建（3节点）-04.hadoop配置
如果之前没有安装jdk和zookeeper,安装了的请直接跳过 # https://www.oracle.com/technetwork/java/javase/downloads/java-arch ...
Hadoop MapReduce执行过程详解（带hadoop例子）
https://my.oschina.net/itblog/blog/275294 摘要: 本文通过一个例子,详细介绍Hadoop 的 MapReduce过程. 分析MapReduce执行过程 Map ...
Hadoop单机模式安装-(3)安装和配置Hadoop
网络上关于如何单机模式安装Hadoop的文章很多,按照其步骤走下来多数都失败,按照其操作弯路走过了不少但终究还是把问题都解决了,所以顺便自己详细记录下完整的安装过程. 此篇主要介绍在Ubuntu安装完 ...
[Hadoop] 在Ubuntu系统上一步步搭建Hadoop（单机模式）
1 Hadoop的三种创建模式单机模式操作是Hadoop的默认操作模式,当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,会保守地选择最小配置,即单机模式.该模式主要用于开发调试M ...
解决root用户ssh配置无密码登陆/hadoop用户照仿可以实现相同功能:hadoop用户登录并且把命令的所有root换成home/hadoop
http://inuyasha1027.blog.51cto.com/4003695/1132896/ 主机ip:192.168.163.100(hostname: node0) ssh无密码登陆的远 ...
hadoop备战：一台x86计算机搭建hadoop的全分布式集群
主要的软硬件配置: x86台式机,window7 64位系统 vb虚拟机(x86的台式机至少是4G内存,才干开3台虚机) centos6.4操作系统 hadoop-1.1.2.tar.gz jdk- ...
hadoop高速扫盲帖，从零了解hadoop
1.MapReduce理论简单介绍 1.1 MapReduce编程模型 MapReduce採用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完毕 ...

随机推荐

thinkphp 运算符
我们可以对模板输出使用运算符,包括对“+”“ –” “*” “/”和“%”的支持. 大理石平台厂家例如: 运算符使用示例 + {$a+$b} - {$a-$b} * {$a*$b} / {$a/$ ...
数据提取--JSON
什么是数据提取? 简单的来说,数据提取就是从响应中获取我们想要的数据的过程非结构化的数据:html等结构化数据:json,xml等处理方法:正则表达式.xpath 处理方法:转化为python数 ...
线性dp，后缀处理——cf1016C好题
绝对是好题 #include<bits/stdc++.h> using namespace std; #define maxn 300005 #define ll long long ll ...
js和jQuery以及ajax的小练习
今天学习了通过鼠标的点击事件然后让边框变颜色,还有怎么设置一个点击浏览器的输入框然后显示一个边框,还学习了通过ajak来获取post和get的值,通过它如何调用这个函数. 第一部分: 通过鼠标的点击让 ...
vue框架介绍
vue框架介绍一.vue 概念 vue 是一种开发用户界面的渐进式开发框架.渐进式指的是:你可以将vue作为一部分嵌入到web应用中,带来丰富的交互体验二.vue特点及常见开发中的高级功能 1.解 ...
FTP Active & Passive
在主动模式下,FTP客户端随机开启一个大于1024的端口N向服务器的21号端口发起连接,然后开放N+1号端口进行监听,并向服务器发出PORT N+1命令.服务器接收到命令后,会用其本地的F ...
修改Chrome的UserAgent
修改Chrome的UserAgent 直接在chrome商店中搜索user-agent switcher 打开chrome 商店,搜索 user-agent switcher 点击免费, 然后执行 ...
VS2010-MFC（常用控件：列表框控件ListBox）
转自:http://www.jizhuomi.com/software/186.html 列表框控件简介列表框给出了一个选项清单,允许用户从中进行单项或多项选择,被选中的项会高亮显示.列表框可分为单 ...
C#winform datagridview单元格的单击处理
首先看看效果图: 需求:要求是的在datagridview里面绑定数据后,可以任意点击想要点击的某列的单元格进行改变数据.需要在datagridview里面写3个事件 1.RowPrePaint事件: ...
ZOJ-1107-FatMouse and Cheese-dfs+记忆化搜索
FatMouse has stored some cheese in a city. The city can be considered as a square grid of dimension ...