Hadoop: The Definitive Guide (3rd Edition)

chapter 1

解决计算能力不足的问题，不是去制造更大的计算机，而是用更多的计算机来解决问题。

我们生活在一个数据的时代。“大数据”的到来不仅仅是影响到那些科研和金融机构，对小型企业以及我们个人都有影响力。

datanode

tasktracker

namenode

jobtracker

secondary namenode

HDFS Clusters don't benefit from RAID fro datanode storage(It's OK for namenode).

为了方便集群的安装，推荐使用自动化安装方法，比如Red Hat的Kickstart或者是Debian的Fully Automatic Installation。

最好专门创建一个使用Hadoop的用户，这样便于把Hadoop的安装和其它运行在机器上的服务相隔离。

大数据代表的不是一种解决方案，而是一类问题。大数据谈的不仅仅是数据量（Volume），还包括数据的时效性（Velocity），多样性（Variety）和可疑性（Veracity）。

数据量，就是指大量数据的产生，处理和存储，PB级数据，甚至ZB级数据。

时效性，指利用大数据做市场预测的时候，如果需要太长时间，就失去了预测的意义。

多样性，指数据的形态，包括文字，影音，网页，串流等结构性和无结构性的数据。

可疑性，指当数据来源变得多元时，这些数据的可靠度，质量是否满足，如果数据本身有问题，分析数据后得出的结果就不可能正确。

ZB=1000EB=1000,000PB=1000,000,000TB

Hadoop: The Definitive Guide (3rd Edition)的更多相关文章

Hadoop – The Definitive Guide Examples,,IntelliJ
IntelliJ Project for Building Hadoop – The Definitive Guide Examples http://vichargrave.com/intellij ...
Hadoop: the definitive guide 第三版拾遗第十二章之Hive初步
Hive简介 Hive是建立在 Hadoop 上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据的机制 ...
Hadoop: the definitive guide 第三版拾遗第十二章之Hive分区表、桶
Hive分区表在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作.有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念.分区表指的是在创建表时指 ...
Hadoop: the definitive guide 第三版拾遗第十章之Pig
概述: Pig的安装很简单,注意一下几点: 1.设置系统环境变量: export PIG_HOME=.../pig-x.y.z export PATH=$PATH:$PIG_HOME/bin 设置完成 ...
Hadoop: the definitive guide 第三版拾遗第十三章之HBase起步
指南上这一章的开篇即提出:HBase是一个分布式的.面向列的开源数据库.如果需要实时的随机读/写超大规模数据集,HBase无疑是一个好的选择. 简介 HBase 是一个高可靠性.高性能.面向列.可伸缩 ...
Hadoop: the definitive guide 第三版拾遗第四章
第四章中提到了通过CompressionCodec对streams进行压缩和解压缩,并提供了示例程序: 输入:标准输入流输出:压缩后的标准输出流 // cc StreamCompressor A p ...
《Hadoop权威指南》(Hadoop:The Definitive Guide) 气象数据集下载脚本
已过时,无法使用从网上找到一个脚本,修改了一下 #!/bin/bash CURRENT_DIR=$(cd `dirname $0`; pwd) [ -e $CURRENT_DIR/ncdc ] || ...
Translation perface: <<Professional JavaScript for Web Developers, 3rd Edition>>
It is a huge pitty to breaking translating this book. Sincerly speaking, I am striken by this great ...
Introduction to Windows 8: The Definitive Guide for Developer
<Windows 8应用开发权威指南>介绍 Introduction to Windows 8: The Definitive Guide for Developer 一.封面设计要求及文 ...

随机推荐

谈谈final、finally和finalize
final: final为修饰符, 如果类被声明为final,则不能派生新子类. 如果变量被声明为final,则必须在声明时初始化,在以后的引用只能读取,不可修改. 如果方法被final声明,则只能使 ...
CentOS7 安装 swoole
sudo pecl install swoole 即可安装.安装完后修改php.ini,加入extension=swoole.so 重启 sudo systemctl restart php-fpm ...
很棒的Sketch动画教程
就像别人可以用PPT做动画,而你只会用它做演示,别人可以拿ps做gif,你却只会用它p照片.软件就是这样,我们使用大多数的软件也就是了解的程度,很难算得上精通.(后面补充了小教程,想看干货的直接看后面 ...
Java学习日志-01-Hello World
1.安装JDK1.7 2.安装eclipse 3.eclipse上写第一个java程序-hello world 先建工程,再建包,养成良好的习惯,然后新建类若不先建立包,可能会提示"The ...
Python线程
原文出处: AstralWind 1. 线程基础 1.1. 线程状态线程有5种状态,状态转换的过程如下图所示: 1.2. 线程同步(锁) 多线程的优势在于可以同时运行多个任务(至少感觉起来是这样). ...
【boost】使用装饰者模式改造boost::thread_group
在项目中使用boost::thread_group的时候遇到几个问题: 1.thread_group不提供删除全部thread列表的方法,一直使用create会是其内部列表不断增加. 2.thread ...
mysql 的 GROUP_CONCAT
GROUP_CONCAT 通常跟 group by 一起用,但也可以不用.例:select GROUP_CONCAT(pct_id) as pct_ids from (select max(pct_i ...
schedule和scheduleUpdate
在init()函数里面加上scheduleUpdate(),这样才会每一帧都调用update(). Schedule() 函数有两种方式,一种带时间参数,一种不带时间参数. 带时间参数的,间隔指定时间 ...
dom 学习的开始~简单留言1
<!doctype html> <html> <head> <meta charset="utf-8"> <title> ...
linux rar工具
rar系统工具: wget http://www.rarlab.com/rar/rarlinux-3.8.0.tar.gz tar -zxvf rarlinux-3.8.0.tar.gz cd rar ...

Hadoop: The Definitive Guide (3rd Edition)

Hadoop: The Definitive Guide (3rd Edition)的更多相关文章

随机推荐

热门专题