Hadoop笔记（一）

1.大数据的概述

　大数据：巨量数据、海量数据，首先在数据的量上达到一定的规模，首先是人或者计算机在不合理时间内是不能够实现的数据量。

2.特点：数据量比较大，数据类型多样化、处理速度问题

3.大数据平台分为硬件和软件

4.hadoop出现：数据的不断加大，单机的计算机无法在硬盘、网络IO，计算机的CPU，内存存储上是无法达到的情况下出现的一种处理方式。

5.hadoop是Apache基金会所开发的分布式的基本跨架，可以在不了解分布式的情况下开发分布式的程序，充分的利用集群的高速运算和存储。

6.解决的问题：大数据存储大，数据分析是hadoop的两大核心，HDFS和mapreduce

7.HDFS：可扩展、容错、高性能的分布式文件管理文件系统，异步开发一次开发多次使用，主要用于存储。

8.mapreduce为分布式的计算框架，主要包含map和reduce过程复杂对HDFS中的数据进行计算。

9.hadoop的优点：高可靠性、高性能、高扩展性、高效性、容错性、低成本。

HDFS

1.hdfs是一个分布式的文件系统，可以进行创建、删除、移动、重命名文件或者文件夹与linux的文件系统类似。

2.它由多个节点组成：nameNode（一个）、DataNode（多个）

nameNode ：只有一个，用于nebula提供元数据的服务，

secondary Namenode:名称节点，帮助节点用与整合和恢复

DataNode：他为hdfs提供真正的存储。

注意：在hadoop中nameNode只有一个，在hadoop2.X之后，有了很大的改善

3.存储文档在HDFS中。被分割成块，然后这些块以流的方式复制到各个节点，存储在不同的机架上，默认块的大小是128MB，备份的数目，这是可以用客户设置的。内部使用网络通信

4.NameNode通过在HDFS机架中单独机架上运行，负责文件系统的客户端请求。

Hadoop笔记（一）的更多相关文章

Hadoop笔记系列一用Hadoop进行分布式数据处理(1)
学习资料参考地址: 1.http://blog.csdn.net/zhoudaxia/article/details/8801769 1.先说说什么是Hadoop? 个人理解:一个分布式文件存储系统+ ...
hadoop 笔记
我们常说的分布式系统,其实就是分布式软件系统,支持分布式处理的软件系统.他是在通信网络互联的多处理机体系结构上执行任务. hadoop是分布式软件系统中文件系统层的软件,他实现了分布式文件系统和部 ...
Hadoop笔记
教程: Elasticsearch.MongoDB和Hadoop比较: http://blog.csdn.net/hong0220/article/details/47631409
hadoop 笔记（hbase）
hbase 基础: hbase是基于列的数据,其数据模式如下: 1.安装 1.1)hbase安装分为单机.伪分布式.分布式,单机下安装不依赖于hadoop:因为不需要分布式文件系统支持: 1.2)安装 ...
Hadoop笔记HDFS(2)
高级Hadoop MapReduce管理 1 调试部署好的Hadoop的配置 2 运行基准测试检验Hadoop的安装 3 重新利用JVM提升性能 4 容错性 5 调试脚本-分析失败任务原因 6 设置失 ...
Hadoop笔记HDFS(1)
环境:Hadoop2.7.3 1.Benchmarking HDFS 1.1测试集群的写入运行基准测试是检测HDFS集群是否正确安装以及表现是否符合预期的好方法.DFSIO是Hadoop自带的一个基 ...
hadoop笔记之Hive的数据存储(内部表)
Hive的数据存储(内部表) Hive的数据存储(内部表) 基于HDFS 可使用hadoop给我们提供的web管理工具查看数据.打开管理工具localhost:9000–>Utilities下的 ...
hadoop笔记之Hive入门(Hive的体系结构)
Hive入门(二) Hive入门(二) Hive的体系结构 ○ Hive的元数据 Hive将元数据存储在数据库中(metastore),支持mysql.derby.oracle等数据库,Hive默认是 ...
hadoop笔记之Hive入门(什么是Hive)
Hive入门(一) Hive入门(一) 什么是Hive? Hive是个数据仓库,数据仓库就是数据库,但又与一般意义上的数据库有点区别实际上,Hive是构建在hadoop HDFS上的一个数据仓库. ...
hadoop笔记之MapReduce的应用案例(利用MapReduce进行排序)
MapReduce的应用案例(利用MapReduce进行排序) MapReduce的应用案例(利用MapReduce进行排序) 思路: Reduce之后直接进行结果合并具体样例: 程序名:Sort. ...

随机推荐

Python标准库：内置函数all(iterable)
假设可迭代的对象的所有元素所有非空(或者空迭代对象),就返回True.这个函数主要用来推断列表.元组.字典等对象是否有空元素.比方有10000个元素的列表,假设没有提供此函数,须要使用循环来实现.那么 ...
7.Emmet----HTML以及CSS的缩写请查看
js的类和继承
因为我使用java语言入门的编程,所以对javascript的类和继承有种想当然一样,或者是差不多的感觉,但实际上两者还是有很多不同的首先我们说类,javascript中类的实现是基于原型继承机制的 ...
Self-Taught Learning to Deep Networks
In this section, we describe how you can fine-tune and further improve the learned features using la ...
zabbix3.4.7搭建及邮件告警
Zabbix3.4.7部署系统环境:CentOs7.2 1.关闭selinux 1.1 [root@localhost ~]# setenforce 0 #临时关闭 1.2 [root@localh ...
【Henu ACM Round #12 B】 Alice, Bob, Two Teams
[链接] 我是链接,点我呀:) [题意] 在这里输入题意 [题解] 写个前缀和和一个后缀和. (即前i个字符A所代表的数字的和以及前i个字符B所代表的数字的和.. 然后枚举前i个字符翻转. 求B对 ...
java.lang.ClassNotFoundException: org.springframework.web.content.ContextLoaderListener
1.错误描写叙述严重: Error configuring application listener of class org.springframework.web.content.Context ...
userAgent判断客户端，以及各个浏览器的ua
userAgent判断客户端,以及各个浏览器的ua http://blog.csdn.net/yoyoosyy/article/details/70142884 navigator.userAgent ...
TextView-显示自己添加的字体样式
1.首先要把我们的字体放到相应的目录下如果我们仅仅是想要验证一个字体,我们可以直接我们的字体push到手机 /system/fonts/ 目录下面 2.在代码中进行设置 import andro ...
李笑来～执行力WWH
什么是秘密秘密是指只有极少数人知道的实用信息.这个实用信息可以为知道且懂得运用的人获得收益,这个收益可能包括钱.名声和快感. 什么是执行力执行力=What + Why + How,即WWH 执行力 ...

Hadoop笔记（一）

Hadoop笔记（一）的更多相关文章

随机推荐

热门专题