Hadoop学习1—浅谈hadoop

skyfeng713 2024-11-08 17:40:12 原文

　　大数据这个词越来越热，本人一直想学习一下，正巧最近有时间了解一下。先从hadoop入手，在此记录学习中的点滴。

什么是hadoop？

　　What Is Apache Hadoop?

　　The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing

　　作者：Doug Cutting

　　受Google三篇论文的启发(GFS、MapReduce、BigTable)

　　解决问题：

　　　　海量数据的存储（HDFS）

　　　　海量数据的分析（MapReduce）

　　　　资源管理调度（YARN）

hadoop具体能干什么？

　　1、日志分析，hadoop擅长日志分析，对日志进行分析筛选

　　2、搜索引擎（Doug Cutting 设计Hadoop的初衷，为了针对大规模的网页快速建立索引）。

　　3、大数据存储，利用Hadoop的分布式存储能力，例如数据备份、数据仓库等。

　　4、大数据处理，利用Hadoop的分布式处理能力，例如数据挖掘、数据分析等。

hadoop核心

　　HDFS: Hadoop Distributed File System 分布式文件系统

　　YARN: Yet Another Resource Negotiator 资源管理调度系统

　　Mapreduce：分布式运算框架

HDFS的架构

主从结构

　　　　a) 主节点，只有一个namenode

　　　　b)从节点，有很多个: datanode

namenode负责管理：

　　　　a) 接收用户操作请求

　　　　b) 维护文件系统的目录结构

　　　　c) 管理文件与block之间关系，block与datanode之间关系

datanode负责数据存储：

　　　　a)存储文件

　　　　b)文件被分成block存储在磁盘上

　　　　c)为保证数据安全，文件会有多个副本，分别存储在不同的datanode上

Hadoop的特点

　　1.扩容能力（Scalable）：能可靠地（reliably）存储和处理千兆字节（PB）数据。

　　2.成本低（Economical）：可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。

　　3.高效率（Efficient）：通过分发数据，hadoop可以在数据所在的节点上并行地（parallel）处理它们，这使得处理非常的快速。

　　4.可靠性（Reliable）：hadoop能自动地维护数据的多份副本，并且在任务失败后能自动地重新部署（redeploy）计算任务。

总结

　　我也是刚刚接触hadoop，只是把自己了解的记录下来，比较浅显，也没有形成自己的见解，望各位见谅并指正！！！

Hadoop学习1—浅谈hadoop的更多相关文章

Hadoop学习总结之五：Hadoop的运行痕迹
Hadoop学习总结之五:Hadoop的运行痕迹 Hadoop 学习总结之一:HDFS简介 Hadoop学习总结之二:HDFS读写过程解析 Hadoop学习总结之三:Map-Reduce入门 Ha ...
TensorFlow 2.0 深度学习实战 —— 浅谈卷积神经网络 CNN
前言上一章为大家介绍过深度学习的基础和多层感知机 MLP 的应用,本章开始将深入讲解卷积神经网络的实用场景.卷积神经网络 CNN(Convolutional Neural Networks,Conv ...
Hadoop学习之Ubuntu12.04 Hadoop 环境搭建笔记
SSH无密码配置 Hadoop在Ubuntu12.04上搭建环境报错及问题 SSH无密码配置参考:Linux(Centos)配置OpenSSH无密码登陆注意问题: Hadoop集成环境三台机器都 ...
hadoop学习笔记--找到执行hadoop的入口
参与个hadoop项目,之前没搞过,赶紧学习: 照葫芦画瓢,得到代码是hdfs2local.sh脚本和LiaoNingFilter.jar包,迫不及待用jd-gui打开jar包,搜索到main(在MA ...
hadoop学习通过虚拟机安装hadoop完全分布式集群
要想深入的学习hadoop数据分析技术,首要的任务是必须要将hadoop集群环境搭建起来,可以将hadoop简化地想象成一个小软件,通过在各个物理节点上安装这个小软件,然后将其运行起来,就是一个had ...
python学习(28) 浅谈可变对象的单例模式设计
python开发,有时候需要设计单例模式保证操作的唯一性和安全性.理论上python语言底层实现和C/C++不同,python采取的是引用模式,当一个对象是可变对象,对其修改不会更改引用的指向,当一个 ...
关于AngularJS学习整理---浅谈$scope(作用域) 新手必备！
作为初次接触 AngularJS的新手,想要深层理解里面的内容短时间还是不可能的,所以标题写了浅谈字样,以下内容是参考各位大神以及相关书籍整理加个人理解,出现错误的地方请大家指正. $scope(作用 ...
浅谈hadoop中mapreduce的文件分发
近期在做数据分析的时候.须要在mapreduce中调用c语言写的接口.此时就须要把动态链接库so文件分发到hadoop的各个节点上,原来想自己来做这个分发,大概过程就是把so文件放在hdfs上面,然后 ...
Hadoop学习笔记之一：Hadoop IPC
因为某些原因需要把前一段时间对Hadoop(版本基于0.20.2)的学习积累搬到这里,成为一个系列.写得会很简单,只为必要时给自己提醒. IPC框架所有Hadoop协议接口的实现都依赖Hadoop ...

随机推荐

ms2
# 准备: robots UA 池图片懒加载 cookie IP ajax js 加密(js逆向字体加密/大众点评/ base64 md5 AES python复写要不就是第三方库执行js代码) ...
IntelliJ IDEA 2017.3尚硅谷-----配置 Maven
zabbix监控规划及实施
一.规划监控拓扑二.主机分组例:交换机.Nginx.Tomcat.MySQL 三.监控对象识别: 1.使用SNMP监控交换机 a.交换机开启snmp config -t snmp-server c ...
每天进步一点点------Allegro 手工布线时控制面板各选项说明
在进行手工布线过程中,最重要的就是对控制面板中的各个选项进行设置,因此首先介绍控制面板中各个选项的含义. 手工布线的命令为Route->connect,执行命令后,右侧控制面板如图8.14所示. ...
python-excel读取-pyodbc
https://github.com/mkleehammer/pyodbc/wiki/Cursor 利用pyodbc读取数据库,流程基本一样,就是配置connect对象时有所不同,下面是excel的: ...
pandas 数据可视化之折线图
官网地址:https://openpyxl.readthedocs.io/en/stable/charts/line.html#id1 openpyxl+pandas # coding=utf-8 i ...
如何获取object数据的描述符
const data = { portLand: '78/50', Dublin: '88/52', Lima: '58/40' } Object.defineProperty(data, 'Lima ...
TP5.1 分页(带参数传递)
不带参数: $rs = Db::name('admin')->order(['id'=>'desc'])->paginate(1); 带参数传递: $rs=Db::name('adm ...
Java compareTo的用法
compareTo() 方法用于将 Number 对象与方法的参数进行比较.可用于比较 Byte, Long, Integer等. 该方法用于两个相同数据类型的比较,两个不同类型的数据不能用此方法来比 ...
当map的key为对象时，js无法解析key的属性值
重写对象的toString方法,按照json数据的规则然后前台string转json 控制台打印这个方法不需要引入其他包如果map的key属性过多,或者key是集合,可以在后台先转json,然后 ...