大数据笔记01:大数据之Hadoop简介
1. 背景
随着大数据时代来临,人们发现数据越来越多。但是如何对大数据进行存储与分析呢?
单机PC存储和分析数据存在很多瓶颈,包括存储容量、读写速率、计算效率等等,这些单机PC无法满足要求。
2. 为解决这些存储容量、读写速率、计算效率等等问题,google大数据技术开发了三大革命性技术解决这些问题,这三大技术为:
(1)MapReduce
(2)BigTable
(3)GFS
技术革命性:
革命性变化01:成本降低,能使用PC,就不用大型机和高端存储。
革命性变化02:软件容错硬件故障视为常态,通过软件保证可靠性。
革命性变化03:简化并行分布式计算,无须控制节点同步和数据交换。
但是google只是发表了相关的技术论文,没有开放源代码。
3.幸运的是,一个模仿了Google大数据技术的开源实现来了,他就是:
Hadoop
那么我们有必要说明一下Hadoop的功能与优势:
(1)首先Hadoop是什么?
Hadoop是一个开源的分布式存储 和 分布式计算的平台。
(2)为什么Hadoop可以进行分布式存储 和 分布式计算?
这是因为Hadoop里面包括两个核心的组成:
• HDFS :分布式文件系统,存储海量的数据
• MapReduce :并行处理的框架,实现任务分解和调度
(3)Hadoop可以用来做什么呢?
搭建大型数据仓库,PB级数据存储、处理、分析、统计等业务。

(4)Hadoop的优势
• 优势1:高扩展(理论上无限)
• 优势2:低成本
• 优势3:成熟的生态圈(非常丰富的工具链)


这些大量的工具是围绕Hadoop衍生出来的,它们的存在使得Hadoop变得更加高效和方便。
(5)Hadoop的应用情况

目前国内和国外很多大公司都是使用Hadoop搭建这个大数据平台。
(6)Hadoop已经成为业界大数据平台搭建的首选,同时Hadoop的人才的需求也越来越大。
大数据笔记01:大数据之Hadoop简介的更多相关文章
- 大数据笔记(二)——Apache Hadoop的体系结构
一.分布式存储 NameNode(名称节点) 1.维护HDFS文件系统,是HDFS的主节点. 2.接收客户端的请求:上传.下载文件.创建目录等. 3.记录客户端操作的日志(edits文件),保存了HD ...
- Tomcat笔记 #01# WEB应用管理工具简介
索引 查看JVM以及SERVLET/接口的情况 动态管理WEB应用 Tomcat自带了一个基于网页的web应用管理工具,可以帮助我们监控&管理部署上去的WEB APP,特别方便!恰好之前碰到的 ...
- java大数据最全课程学习笔记(1)--Hadoop简介和安装及伪分布式
Hadoop简介和安装及伪分布式 大数据概念 大数据概论 大数据(Big Data): 指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发 ...
- 大数据笔记02:大数据之Hadoop的生态系统和版本
1.Hadoop的生态系统: (1)图1: (2)图2: 图1 和 图2 都是形象说明了Hadoop的生态圈. 2.举例介绍Hadoop生态圈的小工具: (1)Hive工具(中文意思:小蜜蜂) 利用H ...
- discuz论坛apache日志hadoop大数据分析项目:清洗数据核心功能解说及代码实现
discuz论坛apache日志hadoop大数据分析项目:清洗数据核心功能解说及代码实现http://www.aboutyun.com/thread-8637-1-1.html(出处: about云 ...
- 后Hadoop时代的大数据技术思考:数据即服务
1. Hadoop 的神话正在破灭 IBM leads BigInsights for Hadoop out behind barn. Shots heard IBM has announced th ...
- 大数据学习(一) | 初识 Hadoop
作者: seriouszyx 首发地址:https://seriouszyx.top/ 代码均可在 Github 上找到(求Star) 最近想要了解一些前沿技术,不能一门心思眼中只有 web,因为我目 ...
- 【学习笔记】大数据技术原理与应用(MOOC视频、厦门大学林子雨)
1 大数据概述 大数据特性:4v volume velocity variety value 即大量化.快速化.多样化.价值密度低 数据量大:大数据摩尔定律 快速化:从数据的生成到消耗,时间窗口小,可 ...
- 别老扯什么Hadoop了,你的数据根本不够大
本文原名“Don't use Hadoop when your data isn't that big ”,出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯朗研究所博士后,搞过 ...
随机推荐
- C# trace debug TraceListener调试信息详解
在C#编程中,可能要碰到把调试信息输出的问题,我们可以自己把信息显示在某个控件上,但是MS自己提供了一套机制帮助我们输出一些调试信息,这些信息有助于我们判断程序的走向,不用自己再去额外写调试代码了. ...
- 【USACO 3.2.5】魔板
[描述] 在成功地发明了魔方之后,鲁比克先生发明了它的二维版本,称作魔板.这是一张有8个大小相同的格子的魔板: 1 2 3 4 8 7 6 5 我们知道魔板的每一个方格都有一种颜色.这8种颜色用前8个 ...
- JDK1.5中LOCK,Condition的使用
import java.util.concurrent.locks.Condition; import java.util.concurrent.locks.Lock; import java.uti ...
- java获得系统当前日期
package com.web.test; import java.text.ParseException; import java.text.SimpleDateFormat; import jav ...
- gdb调试memcached
1.memcached安装前,要安装libevent 2.memcached在configure中 加上 CPPFLAGS='-ggdb3'选项 例如 本机 ./configure -prefix ...
- phalcon安装和输出 hello word
1:下载和安装Wampserver2.4-x86.exe 服务器: 2:到phalcon官方网站下载对应的dll文件 phalcon_x86_VC9_php5.4.0_1.2.5 我下的是这个版本 所 ...
- [C]记录C语言中由于粗心遇到的奇葩错误.
1. 正确代码: for( word = strtok( buf, whitespace); word != NULL; word = strtok( NULL, whitespace)) { ) 错 ...
- FCKEditor使用说明
1.基本设置 先看看效果是什么样的: 效果图: 那么为什么说是FCKeditor的冰冷之心呢?这不是哗众取宠,主要是说它使用起来有点麻烦,下文就详细说明如何搞定这玩意儿. 1.FCKedito ...
- CodeForces 569A 第六周比赛C踢
C - C Time Limit:2000MS Memory Limit:262144KB 64bit IO Format:%I64d & %I64u Submit Statu ...
- mongod的主要参数有
------------------------------------基本配置---------------------- --quiet # 安静输出 --port arg # 指定服务端口号 ...