2.1 Hadoop概论

创始人:Doug Cutting

1.简介:

开源免费;

操作简单,极大降低使用的复杂性;

Hadoop是Java开发的;

在Hadoop上开发应用支持多种编程语言、不限于Java;

Hadoop两大核心:HDFS+MapReduce

HDFS:海量数据存储

MapReduce:海量数据的处理

2.起源:

原本是文本搜索库,模仿谷歌的搜索引擎;

融入了谷歌相关技术:分布式文件系统GFS;分布式并行编程框架MapReduce;

3.成名史:数据排序 的傲人成绩

4.特性:

1.高可靠性

2.高效性

3高可扩展性

4.高容错性

5.低成本

6.运行在Linux平台上

7.支持多种编程语言

5.应用现状:

例如:Facebook

2.2 Hadoop项目结构

HDFS:分布式文件存储

MapReduce:数据处理,基于磁盘

Spark(性能比MapReduce高一个数量级):数据处理,基于内存

Hive:数据仓库;做决策分析;支持SQL语句(把SQL语句转成MapReduce作业,再去执行);

Pig:流数据处理,轻量级数据;提供类似SQL的查询语句Pig Latin;

Oozie:作业流调度系统

Zookeeper:分布式协调服务;分布式锁;集群管理;

HBase:列族数据库,随机读写

Flume:日志收集

Sqoop:数据导入导出,关系型数据库到HDFS、HBase、Hive互导

Ambari:快速部署工具

2.3 Hadoop安装与使用

1.Linux选择:

选择Linux版本:Ubuntu

内存选择:看电脑。内存大于4G,选择64位

2.系统安装 虚拟机还是双系统:

看电脑配置

电脑比较新,装虚拟机

3.关于Linux基础知识

1.Shell:命令解析器

2.sudo命令:权限管理机制,管理员可以授权普通用户去执行一些需要root权限执行的操作

3.输入密码:看不见自己输入的密码

4.输入法中英文切换:使用“shift”键

5.Ubuntu终端赋值黏贴快捷键:ctrl+shift+V

4.安装方式:

单机模式,伪分布式模式,分布式模式

5.创建虚拟机:

1.材料与工具:虚拟机软件与系统映像文件

2.确认系统版本:

2.4 Hadoop集群的部署与使用

考虑HDFS和MapReduce

(后补)

慕课链接:https://www.icourse163.org/learn/XMU-1002335004?tid=1003965001#/learn/content

大数据技术原理与应用:【第二讲】大数据处理架构Hadoop的更多相关文章

  1. 【学习笔记】大数据技术原理与应用(MOOC视频、厦门大学林子雨)

    1 大数据概述 大数据特性:4v volume velocity variety value 即大量化.快速化.多样化.价值密度低 数据量大:大数据摩尔定律 快速化:从数据的生成到消耗,时间窗口小,可 ...

  2. 2016中国大数据技术大会( BDTC ) 共商大数据时代发展之计

    中国大数据技术大会(BDTC)的前身是Hadoop中国云计算大会(HadoopinChina,HiC).从2008年仅60余人参加的技术沙龙发展到当下数千人的技术盛宴,目前已成为国内最具影响力.规模最 ...

  3. 大数据技术原理与应用——分布式文件系统HDFS

    分布式文件系统概述 相对于传统的本地文件系统而言,分布式文件系统(Distribute File System)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统.分布式文件系统的设计一般采用 ...

  4. 大数据技术原理与应用——大数据处理架构Hadoop

    Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构. Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以 ...

  5. 大数据技术原理与应用【第五讲】NoSQL数据库:5.1 NoSQL概论&5.2 NoSQL与关系数据库的比较

    5.1 NoSQL概论 最初:反SQL 概念演变,现在:Not only SQL 特点: 1.灵活的可扩展性 所以支持海量数据存储 2.灵活的数据模型 例如:HBase 3.和云计算的紧密结合 (一) ...

  6. 大数据技术原理与应用【第五讲】NoSQL数据库:5.6 文档数据库MongoDB

    文档数据库介于关系数据库和NoSql之间: 是最像关系数据库的一款产品,也是当前最热门的一款产品. 1.MongoDB简介:   1)     2)文档类型BSON(Binary JSON),结构类似 ...

  7. 大数据技术原理与应用【第五讲】NoSQL数据库:5.4 NoSQL的三大基石

    NoSQL的三大基石:cap,Base,最终一致性   5.4.1 cap理论(帽子理论):   consistency:一致性availability:可用性partition tolerance: ...

  8. 大数据技术原理与应用【第五讲】NoSQL数据库:5.3 NoSQL的四大类型

    5.3 NoSQL的四大类型   5.3.1 键值数据库和列族数据库 可以分为四大类产品:键值数据库,列族数据库,文档数据库,图数据库 (代表)   1.键值数据库:   用的多:redis云数据库: ...

  9. 学一下HDFS,很不错(大数据技术原理及应用)

    http://study.163.com/course/courseMain.htm?courseId=1002887002 里面的HDFS这一部分.

随机推荐

  1. raid,磁盘配额,DNS综合测试题

    DNS解析综合学习案例1.用户需把/dev/myvg/mylv逻辑卷以支持磁盘配额的方式挂载到网页目录下2.在网页目录下创建测试文件index.html,内容为用户名称,通过浏览器访问测试3.创建用户 ...

  2. twig输出转义

    twig输出转义--需求:传一个变量到 twig 中,需要插入几个空格,类似于下面这样:sprintf("%s%s -- %s", str_repeat(' ', $path_le ...

  3. thinkphp5.0 - 安装

    1.thinkphp 5.0 可以通过下载,git 等方式安装,我这里采用下载完整版安装,解压到一个目录下就行了 2.配置 web 服务器配置文件,我是用的是 nginx(nginx/1.9.15) ...

  4. Redis数据结构及常用命令(草稿)

    通用命令 数据类型 string 字符 list 列表 set 集合 zset 有序集合 hash 散列(字典中的字典) bitmap 位图 hyperloglog

  5. SpringBoot集成Spring Security(5)——权限控制

    在第一篇中,我们说过,用户<–>角色<–>权限三层中,暂时不考虑权限,在这一篇,是时候把它完成了. 为了方便演示,这里的权限只是对角色赋予权限,也就是说同一个角色的用户,权限是 ...

  6. mongodb集群化

    转自:https://www.cnblogs.com/nulige/p/7613721.html 一.mongodb主从复制配置 主从复制是MongoDB最常用的复制方式,也是一个简单的数据库同步备份 ...

  7. 异步IO与回调

    最好了解 Java NIO 中 Buffer.Channel 和 Selector 的基本操作,主要是一些接口操作,比较简单. 本文将介绍非阻塞 IO 和异步 IO,也就是大家耳熟能详的 NIO 和 ...

  8. 【05】Jenkins:用户权限管理

    写在前面的话 在一个企业研发部门内部,可能存在多个运维人员,而这些运维人员往往负责不同的项目,但是有可能他们用的又是同一个 Jenkins 的不同用户.那么我们就希望实现一个需求,能够不同的用户登录 ...

  9. Blend Brush介绍

    原文:Blend Brush介绍 这篇文章会介绍 Blend怎么设置Brush 全局画刷 1)blend面板的介绍 这5个rectangle分别对应 blend中的 5个设置 1 设置无颜色 2 设置 ...

  10. 如何提高sql查询性能到达优化程序的目的

    1.关于SQL查询效率,100w数据 SQL查询效率 step by step -- setp 1.-- 建表create table t_userinfo(userid int identity(1 ...