hadoop第二课

1.1为什么需要Hadoop

(1)数据分析者面临的问题

　　– 数据日趋庞大，读写都出现性能瓶颈；

　　– 用户的应用和分析结果，对实时性和响应时间要求越来越高；

　　– 使用的模型越来越复杂,计算量指数级上升。

(2)期待的解决方案

　　– 解决性能瓶颈，在可见的未来不会出现新瓶颈之前的技术可以平稳过渡，如SQL；

　　– 转移成本，如软硬件成本，开发成本，技能培养成本，维护成本

(3)关系型数据库和Hadoop的比较

课堂笔记

关系型数据库属于集中型的数据方案。

数据大小：

1PB=2¹⁰GB

访问：

交互式处理—处理在线数据，实时处理，通俗一点就是一问一答的意思。

批处理—处理离线数据，举个例子，学生问老师10个问题，老师将这10个问题解决后，一次性将解答打包给学生。

更新：

一次写入多次读写—eg：百度搜索。（倒排索引）

ps：增删改查，Hadoop中没有改，当写错时，就只有直接覆盖。

另外，关系型数据库的数据结构是表，，在建好的表上增加或删除属性，成本是很大的。

结构：

怎么说呢？在传统关系型数据库Mysql中，比如学生管理系统，其中关于学生的一个表，有很多属性，Sno Sname Sage Ssex Sdept，其中，某些属性对应的属性值是null，存储时是会占空间的，而Hadoop的话，null值是不会占空间的。数据一大，那优势就体现出来了。

完整性：

范式是符合某一种级别的关系模式的集合。关系数据库中的关系必须满足一定的要求，满足不同程度要求的为不同范式。

换句话说，就是规则(约束)，进而有了完整性一说。

因而在关系型数据库中，因为有外键的存在，在删除某个表时，要删除从表信息，才能删除主表的信息。

Hadoop就不同，它是一张大表，就没有关系型数据库的那些麻烦。

那么，问题来了，既然如此，那么我们的生活中就不需要关系型数据库了吗？

举个例子，教务系统，当中有学生的信息，老师的管理，课程的安排等等，不可能只用一张表能装下如此错综复杂的信息。因而我们生活中还是要用关系型数据库！

横向扩展：

嗯...没有图，将就了吧。想象一下，这里有个二维函数，横坐标是服务器的台数，纵坐标是性能，Hadoop和RDBMS(关系型数据库)在第一区间的函数分别是怎样的呢？前者是一个一次函数，一直上升；后者的函数先极速上升，后趋向平缓，进而无论后面增加多少台服务器，性能都趋于定值。

Hadoop思想-小鱼与鲨鱼，高富帅与屌丝

(4)集群

集群的定义

　　– 集群是一组相互独立的、通过高速网络互联的计算机，它们构成了一个组，并以单一系统的模式加以管理。

　　– 一个客户与集群相互作用时，集群像是一个独立的服务器。

集群的作用

　　– 在付出较低成本的情况下获得在性能、可靠性、灵活性方面的相对较高的收益

使用集群的目的

　　– 提高性能(横向扩展)

　　– 降低成本(买一台百万级的服务器，用分布式10万块就可以办到)

　　– 提高可扩展性(加一台机器，性能呈上升)

　　– 增强可靠性(比如说一台机子宕机了)

使用集群的场景

　　– 科学集群

　　– 负载均衡集群

　　– 高可用性集群

集群的构建

　　– 从硬件角度来看可以分为节点机系统、通讯系统、存储系统等

　　– 软件角度则主要有操作系统、集群操作系统（COS）、并行环境、编译环境和用户应用软件等

集群的关键技术

　　 – 任务调度——进程迁移

(5)Hadoop体系下的分析手段

　　– 主流:Java 程序

　　– 海量离线数据处理技术:MapReduce

　　– 分布式文件系统：HDFS

　　– NoSQL(Not Only不止一个数据库的意思)数据库:Hbase

　　– SQL技巧平稳:Hive

1.2Hadoop2.0生态系统

（1）Hadoop自身包括以下内容：

　　Hadoop Common: hadoop的基础

　　Hadoop Distributed File System (HDFS): 分布式文件系统

　　Hadoop YARN: 集群任务资源管理及任务调度的框架

　　Hadoop MapReduce: 基于YARN的分布式计算

（2）与hadoop相关的产品大致上分为两大部分：

数据服务（Data Services）

　　– HBase: 将文件建于HDFS上的分布式KeyValue数据库要先搭建Hadoop平台！

　　– Hive: 有比较友好接口（相对来讲）的数据仓库，它实际上是基于MapReduce的一个应用。搭建Hive之前不必要搭建Hbase，但要搭建Hadoop。

　　– Pig:它使用一个叫做“Pig Latin”的东西来作为用户交互语言，底层依然是MapReduce。它与 Hive有类似之处，都是用来做大数据处理，但它似乎比Hive要简单一些，没有“存储”的概念（metadata,“表”等），接口也少。

　　– HCatalog：这是一个hadoop数据管理层，你可以用Hive, Pig , MapReduce等来存取 hadoop的数据，而不用关心这些数据是如何存储的。

运行维护（Operational Services）

　　– ZooKeeper:分布式应用协调器。只能搭建奇数个集群。

其他相关产品/项目：

　　– Mahout: 机器学习和数据挖掘

　　– Spark：内存计算

　　– Storm：实时计算

ps：现在其余两个已经被Spark取代。

（3）Hadoop2.0中各种产品的相互关系

灰色的Hadoop自带，绿色的是与Hadoop相关的产品。

Amban：运维工具

Avro：某种协议

Cassandra：最最专业的NoSQL工具

Oozie：向Hadoop提交数据

三大主流的数据库：Cassandra；芒果；Hbase。

hadoop第二课的更多相关文章

马士兵hadoop第二课：hdfs集群集中管理和hadoop文件操作
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
马士兵hadoop第二课：hdfs集群集中管理和hadoop文件操作（转）
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
Hadoop第二课：Hadoop集群环境配置
一.Yum配置 1.检查Yum是否安装 rpm -qa|grep yum 2.修改yum源,我使用的是163的镜像源(http://mirrors.163.com/),根据自己的系统选择源, #进入目 ...
马士兵hadoop第一课：虚拟机搭建和安装hadoop及启动（转）
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
CI(CodeIgniter)框架入门教程——第二课初始MVC
本文转载自:http://www.softeng.cn/?p=53 今天的主要内容是,使用CodeIgniter框架完整的MVC内容来做一个简单的计算器,通过这个计算器,让大家能够体会到我在第一节课中 ...
OpenCV 第二课认识图像的存储结构
OpenCV 第二课认识图像的存储结构 Mat Mat 类包含两部分,矩阵头和矩阵体.矩阵头包含矩阵的大小,存储方式和矩阵体存储空间的指针.因此,Mat中矩阵头的大小是固定的,矩阵体大小是不定的. ...
Kali Linux Web 渗透测试视频教程— 第二课 google hack 实战
Kali Linux Web 渗透测试— 第二课代理简介文/玄魂课程地址: http://edu.51cto.com/course/course_id-1887.html 目录 shellKal ...
【第二课】深入理解Handler
简要讲解Handler是做什么的我们知道,在Android中,app启动会启动一个进程一个线程——UI线程,UI线程是主线程,并且不允许这个线程阻塞超过5秒,一旦超过5秒就会ANR. 所以较为耗时的 ...
ruby代码重构第二课
(文章都是从我的个人主页上粘贴过来的, 大家也可以访问我的主页 www.iwangzheng.com) 在第一课里提取出了相通的代码,第二课里就把常量提取出来吧一般把常量的定义写的对应的app/mo ...

随机推荐

广告中的AdNetwork、AdExchange、DSP、SSP、RTB和DMP是什么？
[https://www.douban.com/note/557732418/?type=rec] AdNetwork.AdExchange.DSP.SSP.RTB.DMP这些模式之间存在着内在的关系 ...
mac下更新自带的PHP版本到5.6
OS X 10.11自带的PHP版本是PHP 5.5.x,如果我们想更新PHP的版本到5.6或者是7.0该怎么办呢? 下载和安装PHP 5.6 打开终端并且运行如下命令: curl -s http:/ ...
一个网卡配置多个ip配置实现，centos7系统
仅一个网卡情况下,配置多个ip可以让该设备通过几个ip被访问,或隐藏常用ip,让其他人访问临时ip 一.永久性增加一个IP 方法1: vim /etc/sysconfig/network-script ...
Shiro的原理及Web搭建
shiro(java安全框架) 以下都是综合之前的人加上自己的一些小总结 Apache Shiro是一个强大且易用的Java安全框架,执行身份验证.授权.密码学和会话管理.使用Shiro的易于理解的A ...
WinFom中经典小游戏(含源码)
最近整理了若干经典的小游戏,无聊时可以打发时间.程序本身不大,练手非常不错,主要是GDI编程,主界面地址如下图所示源码下载方式 1,关注微信公众号:小特工作室(也可直接扫描签名处二维码) 2,发送: ...
RAC节点两边存储名字不一致导致的故障及相关延伸
起因:一个客户的实际故障,该故障非常典型,其他客户类似的环境也非常多,所以很值得梳理并记录下来. 环境:Oracle 11.2.0.4 RAC(2 nodes)+ RHEL 6.6 共享存储:EMC ...
js中的isNaN()函数
<html> <head> <script type="text/javascript" src="function.js"> ...
java中的Collection集合类
随着1998年JDK 1.2的发布,同时新增了常用的Collections集合类,包含了Collection和Map接口.而Dictionary类是在1996年JDK 1.0发布时就已经有了.它们都可 ...
web2 - JavaScript
JavaScript 知识要点参考教材一参考教材二参考教材三 1.JavaScript 和 Java 的关系? 2.JavaScript 在编程中可以做什么? 3.如何在 html 中使用 Ja ...
python——Django项目模板
views.py # -*- coding: utf-8 -*- from __future__ import unicode_literals from django.shortcuts impor ...

hadoop第二课

hadoop第二课的更多相关文章

随机推荐

热门专题