了解Hadoop和大数据

1. 场景：

现在人产生数据越来越快，机器则更快，所以需要另外的一种处理数据的方法。
硬盘容量增加，但是性能没跟上，解决办法是将数据分到多块硬盘，然后同时读取。

问题:
硬件问题 -- 复制数据解决(RAID)
分析需要从不同的硬盘读取的数据： MapReduce

Hadoop:
1) 可靠的共享存储(分布式存储)
2) 抽象的分析接口(分布式分析)

2. 大数据
-- 可以理解为不能使用一台机器处理的数据

大数据的核心是样本 = 总体

特性：大量性快速性多样性易变性准确性复杂性

关键技术：
1) 数据分布在多台机器
-- 可靠性：每个数据块都复制到多个节点
性能：多个节点同时处理数据
2) 计算随数据走
网络IO速度<<本地磁盘速度，大数据系统会尽量地将任务分配到离数据最近的机器上运行
(程序运行时，将程序及其依赖包都复制到数据所在的机器运行)
代码向数据迁移，避免大规模数据时，造成大量数据迁移的情况，尽量让一段数据的计算发生在同一台机器上
3) 串行IO取代随机IO
传输时间<<寻道时间，一般数据写入后不再修改

** 大数据主要解决的是数据比较多，所以存放到多台机器上，那么需要关注数据存储的问题，以及数据的安全保障，还有数据的计算问题，计算的性能；

3. Hadoop

Hadoop高容错、高可靠性、高扩展性，特别适合写一次，读多次的场景。

适合：
大规模数据
流式数据(写一次，读多次)
商用硬件(一般硬件)

不适合：
低延迟的数据访问
大量的小文件
频繁修改文件(基本就是写1次)

** 4. Hadoop架构

HDFS: 分布式文件存储
YARN：分布式资源管理
MapReduce：分布式计算
Others：利用YARN的资源管理功能实现其他的数据处理方式

内部各个节点基本都是采用Master-Woker架构

了解Hadoop和大数据的更多相关文章

Hadoop！ | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户
你正在使用过时的浏览器,Amaze UI 暂不支持. 请升级浏览器以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:1 ...
学习Hadoop+Spark大数据巨量分析与机器学习整合开发-windows利用虚拟机实现模拟多节点集群构建
记录学习<Hadoop+Spark大数据巨量分析与机器学习整合开发>这本书. 第五章 Hadoop Multi Node Cluster windows利用虚拟机实现模拟多节点集群构建 5 ...
Hadoop生态圈-大数据生态体系快速入门篇
Hadoop生态圈-大数据生态体系快速入门篇作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.大数据概念 1>.什么是大数据大数据(big data):是指无法在一定时间 ...
Hadoop，大数据，云计算三者之间的关系
大数据和云计算是何关系?关于大数据和云计算的关系人们通常会有误解.而且也会把它们混起来说,分别做一句话直白解释就是:云计算就是硬件资源的虚拟化;大数据就是海量数据的高效处理.大数据.hadoop及云计 ...
Java之使用Hadoop探索大数据的世界
什么是大数据 PB = 1024tb 7123913827189tb Reids 无共享 HDFS 优点 :特别适合存储大型文件 TFS hdfs 架构 NameNode: 整个hadoop总管,只有 ...
[Hadoop 周边] Hadoop和大数据：60款顶级大数据开源工具（2015-10-27）【转】
说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hado ...
Hadoop和大数据：60款顶级大数据开源工具
一.Hadoop相关工具 1. Hadoop Apache的Hadoop项目已几乎与大数据划上了等号.它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算. 支持的操作系统: ...
【转载】Hadoop和大数据：60款顶级大数据开源工具
一.Hadoop相关工具 1. Hadoop Apache的Hadoop项目已几乎与大数据划上了等号.它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算. 支持的操作系统: ...
基于Hadoop的大数据平台实施记——整体架构设计[转]
http://blog.csdn.net/jacktan/article/details/9200979 大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底 ...

随机推荐

Druid Monitor监控JavaSE,杀cmd端口进程
1.需要在启动命令添加相关jvm参数 -Dcom.sun.management.jmxremote -Djava.rmi.server.hostname -Dcom.sun.management.jm ...
EJDK, Raspberry Pi, and NetBeans IDE 8
https://blogs.oracle.com/geertjan/entry/youtube_ejdk_raspberry_pi_and
SpringBoot-Learning
SpringBoot-Learning 本项目内容为Spring Boot教程程序样例. 作者博客:http://blog.didispace.com Spring Boot系列博文:http://b ...
基于log4net的支持动态文件名、按日期和大小自动分割文件的日志组件
最近处理一个日志功能,用log4net的配置不能完全满足要求,所以在其基础上简单封装了一下,支持以下功能: 1 零配置内置默认配置,引用dll后不需要添加或修改任何配置文件也可以使用 2 动态指定文 ...
java中的那些坑
最近准备换工作,为了少让人家鄙视,就要狠狠地藐视这些面试题目.找了本电子书,发了有好多坑,都是特别简单,但是很少有人做对的题目.面对这样的题目,我却有一种兴奋的感觉,也许是因为一直做着重复的工作没有新 ...
mysql - 其它
1.mysql查看表字段和字段描述 SELECT column_name, column_comment FROM information_schema.columns WHERE table_sch ...
asp.net LINQ实现数据分页
using System; using System.Collections.Generic; using System.Linq; using System.Web; using System.We ...
使用oh-my-zsh后导致的卡顿问题
现象是每次cd和ll时都会被卡住很长时间根本受不了,最后在官方github查明原因是使用的主题会自动获取git信息,可以使用以下命令禁止zsh自动获取git信息,解决卡顿问题 git config - ...
【简易版】HashMap（增删改查）
1.HashMap概述 (1)首先HashMap是基于哈希表的Map接口实现的.另外HashMap中存储的数据是按照键值跟键值对的关系来进行存储的. (2)不同于ArrayList方法的是,Array ...
nginx支持pathinfo并且隐藏index.php
How To Set Nginx Support PATHINFO URL Model And Hide The /index.php/ 就像这样 The URL before setting lik ...

了解Hadoop和大数据

了解Hadoop和大数据的更多相关文章

随机推荐

热门专题