2.1 Hadoop概论

创始人:Doug Cutting

1.简介:

开源免费;

操作简单,极大降低使用的复杂性;

Hadoop是Java开发的;

在Hadoop上开发应用支持多种编程语言、不限于Java;

Hadoop两大核心:HDFS+MapReduce

HDFS:海量数据存储

MapReduce:海量数据的处理

2.起源:

原本是文本搜索库,模仿谷歌的搜索引擎;

融入了谷歌相关技术:分布式文件系统GFS;分布式并行编程框架MapReduce;

3.成名史:数据排序 的傲人成绩

4.特性:

1.高可靠性

2.高效性

3高可扩展性

4.高容错性

5.低成本

6.运行在Linux平台上

7.支持多种编程语言

5.应用现状:

例如:Facebook

2.2 Hadoop项目结构

HDFS:分布式文件存储

MapReduce:数据处理,基于磁盘

Spark(性能比MapReduce高一个数量级):数据处理,基于内存

Hive:数据仓库;做决策分析;支持SQL语句(把SQL语句转成MapReduce作业,再去执行);

Pig:流数据处理,轻量级数据;提供类似SQL的查询语句Pig Latin;

Oozie:作业流调度系统

Zookeeper:分布式协调服务;分布式锁;集群管理;

HBase:列族数据库,随机读写

Flume:日志收集

Sqoop:数据导入导出,关系型数据库到HDFS、HBase、Hive互导

Ambari:快速部署工具

2.3 Hadoop安装与使用

1.Linux选择:

选择Linux版本:Ubuntu

内存选择:看电脑。内存大于4G,选择64位

2.系统安装 虚拟机还是双系统:

看电脑配置

电脑比较新,装虚拟机

3.关于Linux基础知识

1.Shell:命令解析器

2.sudo命令:权限管理机制,管理员可以授权普通用户去执行一些需要root权限执行的操作

3.输入密码:看不见自己输入的密码

4.输入法中英文切换:使用“shift”键

5.Ubuntu终端赋值黏贴快捷键:ctrl+shift+V

4.安装方式:

单机模式,伪分布式模式,分布式模式

5.创建虚拟机:

1.材料与工具:虚拟机软件与系统映像文件

2.确认系统版本:

2.4 Hadoop集群的部署与使用

考虑HDFS和MapReduce

(后补)

慕课链接:https://www.icourse163.org/learn/XMU-1002335004?tid=1003965001#/learn/content

大数据技术原理与应用:【第二讲】大数据处理架构Hadoop的更多相关文章

  1. 【学习笔记】大数据技术原理与应用(MOOC视频、厦门大学林子雨)

    1 大数据概述 大数据特性:4v volume velocity variety value 即大量化.快速化.多样化.价值密度低 数据量大:大数据摩尔定律 快速化:从数据的生成到消耗,时间窗口小,可 ...

  2. 2016中国大数据技术大会( BDTC ) 共商大数据时代发展之计

    中国大数据技术大会(BDTC)的前身是Hadoop中国云计算大会(HadoopinChina,HiC).从2008年仅60余人参加的技术沙龙发展到当下数千人的技术盛宴,目前已成为国内最具影响力.规模最 ...

  3. 大数据技术原理与应用——分布式文件系统HDFS

    分布式文件系统概述 相对于传统的本地文件系统而言,分布式文件系统(Distribute File System)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统.分布式文件系统的设计一般采用 ...

  4. 大数据技术原理与应用——大数据处理架构Hadoop

    Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构. Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以 ...

  5. 大数据技术原理与应用【第五讲】NoSQL数据库:5.1 NoSQL概论&5.2 NoSQL与关系数据库的比较

    5.1 NoSQL概论 最初:反SQL 概念演变,现在:Not only SQL 特点: 1.灵活的可扩展性 所以支持海量数据存储 2.灵活的数据模型 例如:HBase 3.和云计算的紧密结合 (一) ...

  6. 大数据技术原理与应用【第五讲】NoSQL数据库:5.6 文档数据库MongoDB

    文档数据库介于关系数据库和NoSql之间: 是最像关系数据库的一款产品,也是当前最热门的一款产品. 1.MongoDB简介:   1)     2)文档类型BSON(Binary JSON),结构类似 ...

  7. 大数据技术原理与应用【第五讲】NoSQL数据库:5.4 NoSQL的三大基石

    NoSQL的三大基石:cap,Base,最终一致性   5.4.1 cap理论(帽子理论):   consistency:一致性availability:可用性partition tolerance: ...

  8. 大数据技术原理与应用【第五讲】NoSQL数据库:5.3 NoSQL的四大类型

    5.3 NoSQL的四大类型   5.3.1 键值数据库和列族数据库 可以分为四大类产品:键值数据库,列族数据库,文档数据库,图数据库 (代表)   1.键值数据库:   用的多:redis云数据库: ...

  9. 学一下HDFS,很不错(大数据技术原理及应用)

    http://study.163.com/course/courseMain.htm?courseId=1002887002 里面的HDFS这一部分.

随机推荐

  1. 2019 SDN上机第2次作业

    1.利用mininet创建如下拓扑,要求拓扑支持OpenFlow 1.3协议,主机名.交换机名以及端口对应正确,请给出拓扑Mininet执行结果,展示端口连接情况 1.1拓扑 1.2 代码 #!/us ...

  2. thinkphp5.0学习(九):TP5.0视图和模板

    原文地址:http://blog.csdn.net/fight_tianer/article/details/78602711 一.视图 1.加载页面 1.继承系统控制器类 return $this- ...

  3. thinkphp5.0 - 安装

    1.thinkphp 5.0 可以通过下载,git 等方式安装,我这里采用下载完整版安装,解压到一个目录下就行了 2.配置 web 服务器配置文件,我是用的是 nginx(nginx/1.9.15) ...

  4. FWT-快速沃尔什变换

    FWT-快速沃尔什变换 FWT有啥用啊 我们知道,FFT可以解决多项式的卷积,即 \[ C_k=\sum_{i+j=k}A_i*B_j \] 如果将操作符换一下,换成集合运算符 比如 \[ C_k=\ ...

  5. 用Python搞定九宫格式的朋友圈。内附“马云”朋友圈

    PIL(Python Imaging Library)是一个非常强大的Python库,但是它支持Python2.X, 在Python3中则使用的是Pillow库,它是从PIL中fork出来的一个分支. ...

  6. 《Interest Rate Risk Modeling》阅读笔记——第四章:M-absolute 和 M-square 风险度量

    目录 第四章:M-absolute 和 M-square 风险度量 思维导图 两个重要不等式的推导 关于 \(M^A\) 的不等式 关于 \(M^2\) 的不等式 凸性效应(CE)和风险效应(RE)的 ...

  7. Android系统HAL基本概念

    1.前言 Android系统硬件抽象层(Hardware Abstraction Layer),简写为HAL,是连接Android Framework与Linux内核设备驱动的重要桥梁.HAL存在的意 ...

  8. Vue.js 源码分析(十二) 基础篇 组件详解

    组件是可复用的Vue实例,一个组件本质上是一个拥有预定义选项的一个Vue实例,组件和组件之间通过一些属性进行联系. 组件有两种注册方式,分别是全局注册和局部注册,前者通过Vue.component() ...

  9. Feign切换client到okhttp无法生效天坑!(附带发生的原因)

    提示:如果只看如何解决问题,请看文章的末尾如何解决这个问题 1. 场景描述 最近项目中使用了feign当做http请求工具来使用.相对于httpclient.resttemplate来说,fegin用 ...

  10. 极简 Spring Boot 整合 Thymeleaf 页面模板

    虽然现在慢慢在流行前后端分离开发,但是据松哥所了解到的,还是有一些公司在做前后端不分的开发,而在前后端不分的开发中,我们就会需要后端页面模板(实际上,即使前后端分离,也会在一些场景下需要使用页面模板, ...