Hadoop概念学习系列之谈hadoop/spark里为什么都有，键值对呢？（四十）

　　很少有人会这样来自问自己？只知道，以键值对的形式处理数据并输出结果，而没有解释为什么要以键值对的形式进行。

包括hadoop的mapreduce里的键值对，spark里的rdd里的map等。

　　这是为什么呢？

1、键值对的具体含义

　　首先，我们会通过强调Java标准库中的类似概念，来阐明我们所说的键值对的含义。

java.util.Map接口是常用类，如HashMap，甚至原始Hashtable的父类（通过向后重构代码库）。

　　对于任何Java Map对象，其内容是从指定类型的给定键到相关值的一组映射，键与值的数据类型可能不同。例如，一个HashMap对象可以包含从人名（String）到其生日（Date）的一组映射。

　　Hadoop中的数据包含与相关值关联的键。这些数据的存储方式允许对数据集的不同值根据键进行分类和重排。如果使用键值对数据，应该会有如下疑问：

　　1、在数据集中，一个给定的键必然有映射值吗？

　　2、给定键的关联值是什么?

　　3、键的完整集合是什么？

　　回忆我们很熟悉的wordcount吧。该程序的输出显然是键/值关系的组合。对于每个字（键），都有对应着它出现的次数（值）。

　　键/值数据的一些重要特征就变得清晰起来，具体如下：

　　1、键必须是唯一的，而值并不一定是唯一的。

　　2、每个值必须与键相关联，但键可能没有值（虽然在这个特定的例子中没有出现这种情况）。

　　3、对键进行明确定义非常重要。它决定了计数是否区分大小写，这将产生不同的结果。

　　注意，我们需要审慎对待“键是唯一的”这一概念，这并不是说键只出现一次。在我们的数据集中，可以看到键多次出现。并且我们看到，MapReduce模型有一股将所有与特定键关联的数据汇集的步骤。键的唯一性保证了，假如我们为某一给定键汇集对应的值，结果将是从该键的实例到每个值的映射，不会忽略掉任何值。

2、为什么会采用键/值数据

　　键/值数据作为mapreduce操作的基础，成就了一个强大的编程模型，使mapreduce获得了令人惊讶的广泛应用。hadoop和mapreduce被多种不同行业的问题领域所采用即证实了这一点。很多数据要么本身即为键/值形式，要么可以以键/值这种方式来表示。键值数据这一简单的模型具有广泛的适用性，以这种形式定义的程序可以应用于hadoop和spark框架。

　　当然，数据模型本身并非是使hadoop如此强大的唯一要素，它真正的强大之处在于如何运用并行处理技术以及分而治之思想。我们可以在大量主机上存储、执行数据，甚至使用将较大任务分割成较小任务的框架，然后将所有并行结果整合成最终结论。

　　但是，我们需要上述框架提供一种描述问题的方法，即便用户不懂该框架的运行机理，也能表达清楚要处理的问题。我们只需要对数据所需的转换进行描述，其余事情由该框架完成。

　　mapreduce利用其键/值接口提供了这样的抽象：程序员只需指定所要求的转换，hadoop完成对任意规模数据集的复杂的数据转换处理过程。

　　一些实际应用

　　为了更为具体的理解键值对，可以想象一些实际应用的键值对数据：

　　通讯簿将一个名字（键）和联系方法（值）关联起来；

　　银行账号使用一个账号（键）关联账户明细（值）；

　　一本书的索引关联一个关键字（键）和其所在的页码（值）；

　　在计算机文件系统中，根据文件名（键）访问各类数据，如文本、图片和语音（值）。

　　我这里，刻意列举了一些范围宽泛的例子，帮助你认识到，键/值数据并不是只能应用于高端数据挖掘的约束模型，其实啊，就环绕在我们身边的非常普通的类型啊！

摘自于：Hadoop基础教程张治起译的第44-46页

Hadoop概念学习系列之谈hadoop/spark里为什么都有，键值对呢？（四十）的更多相关文章

Hadoop概念学习系列之谈hadoop/spark里为什么都有，YARN呢？（四十一）
在Hadoop集群里,有三种模式: 1.本地模式 2.伪分布模式 3.全分布模式在Spark集群里,有四种模式: 1.local单机模式结果xshell可见: ./bin/spark-submit ...
Hadoop概念学习系列之谈hadoop/spark里分别是如何实现容错性？（四十二）
Hadoop使用数据复制来实现容错性(I/O高) Spark使用RDD数据存储模型来实现容错性. RDD是只读的.分区记录的集合.如果一个RDD的一个分区丢失,RDD含有如何重建这个分区的相关信息. ...
Hadoop概念学习系列之为什么hadoop/spark执行作业时，输出路径必须要不存在？（三十九）
很多人只会,但没深入体会和想为什么要这样? 拿Hadoop来说,当然,spark也一样的道理. 输出路径由Hadoop自己创建,实际的结果文件遵守part-nnnn的约定. 如何指定一个已有目录作为H ...
Hadoop概念学习系列之Hadoop新手学习指导之入门需知（二十）
不多说,直接上干货! 零基础学习hadoop,没有想象的那么困难,也没有想象的那么容易.从一开始什么都不懂,到能够搭建集群,开发.整个过程,只要有Linux基础,虚拟机化和java基础,其实hadoo ...
Hadoop概念学习系列之Java调用Shell命令和脚本，致力于hadoop/spark集群（三十六）
前言说明的是,本博文,是在以下的博文基础上,立足于它们,致力于我的大数据领域! http://kongcodecenter.iteye.com/blog/1231177 http://blog.cs ...
Hadoop概念学习系列之Hadoop、Spark学习路线（很值得推荐）（十八）
不多说,直接上干货! 说在前面的话此笔,对于仅对于Hadoop和Spark初中学者.高手请忽略! 1 Java基础: 视频方面: 推荐<毕向东JAVA基础视频教程>.学 ...
Hadoop概念学习系列之Hadoop、Spark学习路线（很值得推荐）
说在前面的话此笔,对于仅对于Hadoop和Spark初中学者.高手请忽略! 1 Java基础: 视频方面: 推荐<毕向东JAVA基础视频教程>.学习hadoop不需要过 ...
Hadoop概念学习系列之Hadoop、Spark学习路线
1 Java基础: 视频方面: 推荐<毕向东JAVA基础视频教程>.学习hadoop不需要过度的深入,java学习到javase,在Java虚拟机的内存管理.以及多线程. ...
Hadoop概念学习系列之如何去找到历史版本的Hadoop发行包（三十四）
如何去找到历史版本的Hadoop发行包找到Hadoop历史版本这里我需要的Hadoop版本是2.0.3.打开hadoop的下载页面 http://www.apache.org/dyn/closer ...

随机推荐

SQLI DUMB SERIES-4
less4 输入单引号发现回显正常,说明单引号被过滤了,输入双引号: ?id=1" 说明输入的Id被一对双引号和圆括号包围,因此闭合双引号和圆括号就行,其他方法跟less1差不多例如:un ...
CentOS安装LibreOffice
查找yum源的安装包$ yum search libreoffice 查看yum源上安转包基本信息$ yum info libreoffice可安装的软件包名称 :libreoffice架构 :x86 ...
oracle服务器重启后无法进入系统，登录系统时提示model is unknow
这个是因为安装oracle时,修改了一些系统参数,导致开机异常在选择系统列表那里直接按e,进入系统开机配置大概在倒数第二行,也就是有utf8那行,添加init=/bin/sh 然后ctrl+x重启 ...
MySQL Export--导出数据
=========================================================== SELECT INTO OUTFILE语法格式: SELECT [columns ...
人教版高中数学(A版)
必修1 (已看) 第一章集合与函数概念 1.1 集合 1.2 函数及其表示 1.3 函数的基本性质第二章基本初等函数(1) 2.1 指数函数 2.2 对数函数 2.3 幂函数第三章函数的应用 ...
Linux或树莓派3——挂载U盘、移动硬盘并设置rwx权限
话说最近在树莓派上搭建了一个owncloud,因为树莓派的存储空间有限,就插了个16G的U盘,然后设置成开机自动挂载.这里稍微注意一下的是U盘的格式最好不要NTFS,因为一般情况下NTFS格式的文件系 ...
ThreadLocal使用注意
ThreadLocal<T>的出现是一种空间换时间的思想的运用,是为了多线程环境下单线程内变量共享的问题.它的原理就是每个线程通过ThreadLocal.ThreadLocalMap,保存 ...
MySQL 数据类型对比：char 与 varchar；varchar 与 text；datetime 与 timestamp；blob 与 text；
char 与 varchar char(n) 若存入字符数小于n,则以空格补于其后,查询之时再将空格去掉.所以 char 类型存储的字符串末尾不能有空格,varchar 不限于此. char(n) 固 ...
webpack 3 升级到 webpack 4，遇到问题解决
报错:Error: Chunk.entrypoints: Use Chunks.groupsIterable and filter by instanceof Entrypoint instead 解 ...
WPF 控件总结
内容控件:1.Button:当Button.IsCancel="True"时,点击按钮,对话框关闭.当Button.IsDefault="True",按回车触发 ...

Hadoop概念学习系列之谈hadoop/spark里为什么都有，键值对呢？（四十）

Hadoop概念学习系列之谈hadoop/spark里为什么都有，键值对呢？（四十）的更多相关文章

随机推荐

热门专题