大数据技术原理与应用:【第二讲】大数据处理架构Hadoop
2.1 Hadoop概论
创始人:Doug Cutting
1.简介:
开源免费;
操作简单,极大降低使用的复杂性;
Hadoop是Java开发的;
在Hadoop上开发应用支持多种编程语言、不限于Java;
Hadoop两大核心:HDFS+MapReduce
HDFS:海量数据存储
MapReduce:海量数据的处理
2.起源:
原本是文本搜索库,模仿谷歌的搜索引擎;
融入了谷歌相关技术:分布式文件系统GFS;分布式并行编程框架MapReduce;
3.成名史:数据排序 的傲人成绩
4.特性:
1.高可靠性
2.高效性
3高可扩展性
4.高容错性
5.低成本
6.运行在Linux平台上
7.支持多种编程语言
5.应用现状:
例如:Facebook

2.2 Hadoop项目结构
HDFS:分布式文件存储

MapReduce:数据处理,基于磁盘
Spark(性能比MapReduce高一个数量级):数据处理,基于内存
Hive:数据仓库;做决策分析;支持SQL语句(把SQL语句转成MapReduce作业,再去执行);
Pig:流数据处理,轻量级数据;提供类似SQL的查询语句Pig Latin;
Oozie:作业流调度系统
Zookeeper:分布式协调服务;分布式锁;集群管理;
HBase:列族数据库,随机读写
Flume:日志收集
Sqoop:数据导入导出,关系型数据库到HDFS、HBase、Hive互导
Ambari:快速部署工具
2.3 Hadoop安装与使用

1.Linux选择:
选择Linux版本:Ubuntu
内存选择:看电脑。内存大于4G,选择64位
2.系统安装 虚拟机还是双系统:
看电脑配置
电脑比较新,装虚拟机
3.关于Linux基础知识
1.Shell:命令解析器
2.sudo命令:权限管理机制,管理员可以授权普通用户去执行一些需要root权限执行的操作
3.输入密码:看不见自己输入的密码
4.输入法中英文切换:使用“shift”键
5.Ubuntu终端赋值黏贴快捷键:ctrl+shift+V
4.安装方式:
单机模式,伪分布式模式,分布式模式

5.创建虚拟机:
1.材料与工具:虚拟机软件与系统映像文件
2.确认系统版本:

2.4 Hadoop集群的部署与使用
考虑HDFS和MapReduce
(后补)
慕课链接:https://www.icourse163.org/learn/XMU-1002335004?tid=1003965001#/learn/content
大数据技术原理与应用:【第二讲】大数据处理架构Hadoop的更多相关文章
- 【学习笔记】大数据技术原理与应用(MOOC视频、厦门大学林子雨)
1 大数据概述 大数据特性:4v volume velocity variety value 即大量化.快速化.多样化.价值密度低 数据量大:大数据摩尔定律 快速化:从数据的生成到消耗,时间窗口小,可 ...
- 2016中国大数据技术大会( BDTC ) 共商大数据时代发展之计
中国大数据技术大会(BDTC)的前身是Hadoop中国云计算大会(HadoopinChina,HiC).从2008年仅60余人参加的技术沙龙发展到当下数千人的技术盛宴,目前已成为国内最具影响力.规模最 ...
- 大数据技术原理与应用——分布式文件系统HDFS
分布式文件系统概述 相对于传统的本地文件系统而言,分布式文件系统(Distribute File System)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统.分布式文件系统的设计一般采用 ...
- 大数据技术原理与应用——大数据处理架构Hadoop
Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构. Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以 ...
- 大数据技术原理与应用【第五讲】NoSQL数据库:5.1 NoSQL概论&5.2 NoSQL与关系数据库的比较
5.1 NoSQL概论 最初:反SQL 概念演变,现在:Not only SQL 特点: 1.灵活的可扩展性 所以支持海量数据存储 2.灵活的数据模型 例如:HBase 3.和云计算的紧密结合 (一) ...
- 大数据技术原理与应用【第五讲】NoSQL数据库:5.6 文档数据库MongoDB
文档数据库介于关系数据库和NoSql之间: 是最像关系数据库的一款产品,也是当前最热门的一款产品. 1.MongoDB简介: 1) 2)文档类型BSON(Binary JSON),结构类似 ...
- 大数据技术原理与应用【第五讲】NoSQL数据库:5.4 NoSQL的三大基石
NoSQL的三大基石:cap,Base,最终一致性 5.4.1 cap理论(帽子理论): consistency:一致性availability:可用性partition tolerance: ...
- 大数据技术原理与应用【第五讲】NoSQL数据库:5.3 NoSQL的四大类型
5.3 NoSQL的四大类型 5.3.1 键值数据库和列族数据库 可以分为四大类产品:键值数据库,列族数据库,文档数据库,图数据库 (代表) 1.键值数据库: 用的多:redis云数据库: ...
- 学一下HDFS,很不错(大数据技术原理及应用)
http://study.163.com/course/courseMain.htm?courseId=1002887002 里面的HDFS这一部分.
随机推荐
- nodejs的一些基操
Nodejs 是基于 CHrome V8 引擎的 JaveScriptnpm: node 包管理器为我们提供了: nodejs 运行时,javascript 代码运行时的环境 提供了核心模块,具体会在 ...
- 2019 SDN上机第2次作业
1.利用mininet创建如下拓扑,要求拓扑支持OpenFlow 1.3协议,主机名.交换机名以及端口对应正确,请给出拓扑Mininet执行结果,展示端口连接情况 1.1拓扑 1.2 代码 #!/us ...
- 剑指offer:对称的二叉树
题目描述: 请实现一个函数,用来判断一颗二叉树是不是对称的.注意,如果一个二叉树同此二叉树的镜像是同样的,定义其为对称的. 思路分析: 二叉树的镜像就是左右相反,对称二叉树即镜像相等.利用一个递归函数 ...
- [Powershell]使用Msbuild构建基于.NET Framework的WebAPI项目
查找最高版本的MsBuildTools. 清理缓存垃圾. 还原NuGet包. 构建解决方案. 按项目发布程序到本地. 按项目ZIP打包. <# .NOTES ================== ...
- (十)golang--运算符
1.算术运算符 + - * / % ++ -- 使用细节:(1)对于"/"号,整数除和小数除的区别: (2)++和--只能独立使用,即a=a++是不允许的:没有++a和--a:i ...
- Java并发之原子性,可见性,有序性
原子性 原子性指的是一个或者多个操作在 CPU 执行的过程中不被中断的特性 在多线程情况下,线程会被操作系统调度进行任务切换,占有CPU时间片段的就执行,否则就阻塞 java中对基础类型的变量赋值是 ...
- MySQL 快速添加百万条数据
需要向数据库添加100W条测试数据,直接在普通表中添加速度太慢,可以使用内存表添加,然后将内存表数据复制到普通表 创建表 # 内存表 DROP TABLE IF EXISTS `test_memory ...
- Idea java 中导包路径分析
工具类所在包: 查看工具类详情: 调用这个工具类时,导入的包路径为: 路径就是第1张图片中的包名utils+类名NumberUtils组成的utils.NumberUtils
- Java 函数式编程--流操作
GitHub Page: http://blog.cloudli.top/posts/Java-函数式编程-流操作/ 外部迭代到内部迭代 在使用集合类时,通用的方式是在使用 for 循环集合上进行迭代 ...
- WPF 精修篇 非UI进程后台更新UI进程
原文:WPF 精修篇 非UI进程后台更新UI进程 <Grid> <Grid.RowDefinitions> <RowDefinition Height="11* ...