大数据技术原理与应用:【第二讲】大数据处理架构Hadoop
2.1 Hadoop概论
创始人:Doug Cutting
1.简介:
开源免费;
操作简单,极大降低使用的复杂性;
Hadoop是Java开发的;
在Hadoop上开发应用支持多种编程语言、不限于Java;
Hadoop两大核心:HDFS+MapReduce
HDFS:海量数据存储
MapReduce:海量数据的处理
2.起源:
原本是文本搜索库,模仿谷歌的搜索引擎;
融入了谷歌相关技术:分布式文件系统GFS;分布式并行编程框架MapReduce;
3.成名史:数据排序 的傲人成绩
4.特性:
1.高可靠性
2.高效性
3高可扩展性
4.高容错性
5.低成本
6.运行在Linux平台上
7.支持多种编程语言
5.应用现状:
例如:Facebook

2.2 Hadoop项目结构
HDFS:分布式文件存储

MapReduce:数据处理,基于磁盘
Spark(性能比MapReduce高一个数量级):数据处理,基于内存
Hive:数据仓库;做决策分析;支持SQL语句(把SQL语句转成MapReduce作业,再去执行);
Pig:流数据处理,轻量级数据;提供类似SQL的查询语句Pig Latin;
Oozie:作业流调度系统
Zookeeper:分布式协调服务;分布式锁;集群管理;
HBase:列族数据库,随机读写
Flume:日志收集
Sqoop:数据导入导出,关系型数据库到HDFS、HBase、Hive互导
Ambari:快速部署工具
2.3 Hadoop安装与使用

1.Linux选择:
选择Linux版本:Ubuntu
内存选择:看电脑。内存大于4G,选择64位
2.系统安装 虚拟机还是双系统:
看电脑配置
电脑比较新,装虚拟机
3.关于Linux基础知识
1.Shell:命令解析器
2.sudo命令:权限管理机制,管理员可以授权普通用户去执行一些需要root权限执行的操作
3.输入密码:看不见自己输入的密码
4.输入法中英文切换:使用“shift”键
5.Ubuntu终端赋值黏贴快捷键:ctrl+shift+V
4.安装方式:
单机模式,伪分布式模式,分布式模式

5.创建虚拟机:
1.材料与工具:虚拟机软件与系统映像文件
2.确认系统版本:

2.4 Hadoop集群的部署与使用
考虑HDFS和MapReduce
(后补)
慕课链接:https://www.icourse163.org/learn/XMU-1002335004?tid=1003965001#/learn/content
大数据技术原理与应用:【第二讲】大数据处理架构Hadoop的更多相关文章
- 【学习笔记】大数据技术原理与应用(MOOC视频、厦门大学林子雨)
1 大数据概述 大数据特性:4v volume velocity variety value 即大量化.快速化.多样化.价值密度低 数据量大:大数据摩尔定律 快速化:从数据的生成到消耗,时间窗口小,可 ...
- 2016中国大数据技术大会( BDTC ) 共商大数据时代发展之计
中国大数据技术大会(BDTC)的前身是Hadoop中国云计算大会(HadoopinChina,HiC).从2008年仅60余人参加的技术沙龙发展到当下数千人的技术盛宴,目前已成为国内最具影响力.规模最 ...
- 大数据技术原理与应用——分布式文件系统HDFS
分布式文件系统概述 相对于传统的本地文件系统而言,分布式文件系统(Distribute File System)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统.分布式文件系统的设计一般采用 ...
- 大数据技术原理与应用——大数据处理架构Hadoop
Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构. Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以 ...
- 大数据技术原理与应用【第五讲】NoSQL数据库:5.1 NoSQL概论&5.2 NoSQL与关系数据库的比较
5.1 NoSQL概论 最初:反SQL 概念演变,现在:Not only SQL 特点: 1.灵活的可扩展性 所以支持海量数据存储 2.灵活的数据模型 例如:HBase 3.和云计算的紧密结合 (一) ...
- 大数据技术原理与应用【第五讲】NoSQL数据库:5.6 文档数据库MongoDB
文档数据库介于关系数据库和NoSql之间: 是最像关系数据库的一款产品,也是当前最热门的一款产品. 1.MongoDB简介: 1) 2)文档类型BSON(Binary JSON),结构类似 ...
- 大数据技术原理与应用【第五讲】NoSQL数据库:5.4 NoSQL的三大基石
NoSQL的三大基石:cap,Base,最终一致性 5.4.1 cap理论(帽子理论): consistency:一致性availability:可用性partition tolerance: ...
- 大数据技术原理与应用【第五讲】NoSQL数据库:5.3 NoSQL的四大类型
5.3 NoSQL的四大类型 5.3.1 键值数据库和列族数据库 可以分为四大类产品:键值数据库,列族数据库,文档数据库,图数据库 (代表) 1.键值数据库: 用的多:redis云数据库: ...
- 学一下HDFS,很不错(大数据技术原理及应用)
http://study.163.com/course/courseMain.htm?courseId=1002887002 里面的HDFS这一部分.
随机推荐
- 2019 SDN上机第2次作业
1.利用mininet创建如下拓扑,要求拓扑支持OpenFlow 1.3协议,主机名.交换机名以及端口对应正确,请给出拓扑Mininet执行结果,展示端口连接情况 1.1拓扑 1.2 代码 #!/us ...
- thinkphp5.0学习(九):TP5.0视图和模板
原文地址:http://blog.csdn.net/fight_tianer/article/details/78602711 一.视图 1.加载页面 1.继承系统控制器类 return $this- ...
- thinkphp5.0 - 安装
1.thinkphp 5.0 可以通过下载,git 等方式安装,我这里采用下载完整版安装,解压到一个目录下就行了 2.配置 web 服务器配置文件,我是用的是 nginx(nginx/1.9.15) ...
- FWT-快速沃尔什变换
FWT-快速沃尔什变换 FWT有啥用啊 我们知道,FFT可以解决多项式的卷积,即 \[ C_k=\sum_{i+j=k}A_i*B_j \] 如果将操作符换一下,换成集合运算符 比如 \[ C_k=\ ...
- 用Python搞定九宫格式的朋友圈。内附“马云”朋友圈
PIL(Python Imaging Library)是一个非常强大的Python库,但是它支持Python2.X, 在Python3中则使用的是Pillow库,它是从PIL中fork出来的一个分支. ...
- 《Interest Rate Risk Modeling》阅读笔记——第四章:M-absolute 和 M-square 风险度量
目录 第四章:M-absolute 和 M-square 风险度量 思维导图 两个重要不等式的推导 关于 \(M^A\) 的不等式 关于 \(M^2\) 的不等式 凸性效应(CE)和风险效应(RE)的 ...
- Android系统HAL基本概念
1.前言 Android系统硬件抽象层(Hardware Abstraction Layer),简写为HAL,是连接Android Framework与Linux内核设备驱动的重要桥梁.HAL存在的意 ...
- Vue.js 源码分析(十二) 基础篇 组件详解
组件是可复用的Vue实例,一个组件本质上是一个拥有预定义选项的一个Vue实例,组件和组件之间通过一些属性进行联系. 组件有两种注册方式,分别是全局注册和局部注册,前者通过Vue.component() ...
- Feign切换client到okhttp无法生效天坑!(附带发生的原因)
提示:如果只看如何解决问题,请看文章的末尾如何解决这个问题 1. 场景描述 最近项目中使用了feign当做http请求工具来使用.相对于httpclient.resttemplate来说,fegin用 ...
- 极简 Spring Boot 整合 Thymeleaf 页面模板
虽然现在慢慢在流行前后端分离开发,但是据松哥所了解到的,还是有一些公司在做前后端不分的开发,而在前后端不分的开发中,我们就会需要后端页面模板(实际上,即使前后端分离,也会在一些场景下需要使用页面模板, ...