一.分布式存储 NameNode(名称节点) 1.维护HDFS文件系统,是HDFS的主节点. 2.接收客户端的请求:上传.下载文件.创建目录等. 3.记录客户端操作的日志(edits文件),保存了HDFS最新的状态 1)Edits文件保存了自最后一次检查点之后所有针对HDFS文件系统的操作,比如:增加文件.重命名文件.删除目录等 2)保存目录:$HADOOP_HOME/tmp/dfs/name/current 可以使用 hdfs oev -i 命令将日志(二进制)输出为 XML文件 hdfs o…
1.安装Hadoop (1)准备Linux环境 (2)安装JDK (3)配置Hadoop 2.准备Linux环境 (1)我们用户可能都是使用Windows环境,一般用户都是先安装虚拟机,然后在虚拟机上安装Linux系统,这个这里不推荐. (2)这里我们使用租用云主机方法,比如阿里云.UnitedStack等等.   这里我们使用UnitedStack,创建好了云主机(按小时计费),还需要申请一个公网IP(也是按小时计费),申请完了公网IP,我们就要把本地IP和申请的IP进行绑定. 3. 安装JD…
一.Hadoop安装部署的预备条件 准备:1.安装Linux和JDK. 安装JDK 解压:tar -zxvf jdk-8u144-linux-x64.tar.gz -C ~/training/ 设置环境变量:vi ~/.bash_profile JAVA_HOME=/root/training/jdk1.8.0_144 export JAVA_HOME PATH=$JAVA_HOME/bin:$PATH export PATH 生效环境变量: source ~/.bash_profile 2.关…
1. 背景 随着大数据时代来临,人们发现数据越来越多.但是如何对大数据进行存储与分析呢?   单机PC存储和分析数据存在很多瓶颈,包括存储容量.读写速率.计算效率等等,这些单机PC无法满足要求. 2. 为解决这些存储容量.读写速率.计算效率等等问题,google大数据技术开发了三大革命性技术解决这些问题,这三大技术为: (1)MapReduce (2)BigTable (3)GFS 技术革命性:    革命性变化01:成本降低,能使用PC,就不用大型机和高端存储.    革命性变化02:软件容错…
1.Hadoop的生态系统: (1)图1: (2)图2: 图1 和 图2 都是形象说明了Hadoop的生态圈. 2.举例介绍Hadoop生态圈的小工具: (1)Hive工具(中文意思:小蜜蜂) 利用Hive这个工具,不用编写复杂的Hadoop程序,只需要编写一个SQL语句,Hive就会把你编写的SQL语句转化为Hadoop任务去执行. 这样降低使用Hadoop的门槛. (2)hbase 存储结构化数据的分布式数据库 图1: 图2: (3)zookeeper(中文意思:动物管理员) zookeep…
作者: seriouszyx 首发地址:https://seriouszyx.top/ 代码均可在 Github 上找到(求Star) 最近想要了解一些前沿技术,不能一门心思眼中只有 web,因为我目前对 Java 语言及其生态相对熟悉,所以在网上搜集了 Hadoop 相关文章,并做了整合. 本篇文章在于对大数据以及 Hadoop 有一个直观的概念,并上手简单体验. Hadoop 基础概念 Hadoop 是一个用 Java 实现的开源框架,是一个分布式的解决方案,将大量的信息处理所带来的压力分摊…
1 大数据概述 大数据特性:4v volume velocity variety value 即大量化.快速化.多样化.价值密度低 数据量大:大数据摩尔定律 快速化:从数据的生成到消耗,时间窗口小,可用于生成决策的时间非常少:1秒定律,这和传统的数据挖掘技术有着本质区别(谷歌的dremel可以在1秒内调动上千台服务器处理PB级数据) 价值密度低,商业价值高 大数据影响: 对科学研究影响:出现科学研究第四方式数据(前三个分别是实验.理论.计算) 对思维方式影响:全样而非抽样.效率而非准确.相关而非…
本文原名“Don't use Hadoop when your data isn't that big ”,出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯朗研究所博士后,搞过高频交易平台,当过创业公司的CTO,更习惯称自己为统计学者.对了,他现在自己创业,提供数据分析.推荐优化咨询服务,他的邮件是:stucchio@gmail.com . “你有多少大数据和Hadoop的经验?”他们问我.我一直在用Hadoop,但很少处理几TB以上的任务.我基本上只是一个大数据新手——…
    你正在使用过时的浏览器,Amaze UI 暂不支持. 请 升级浏览器 以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:14:39 作者:陈飚 “昔我十年前,与君始相识.” 一瞬间Hadoop也到了要初中择校的年龄了. 十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有了Hadoop的集群在运行了各式各样的任务. 2006年项目成立的一开始,“Hadoop…
本文原名"Don't use Hadoop when your data isn't that big ",出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯朗研究所博士后,搞过高频交易平台,当过创业公司的CTO,更习惯称自己为统计学者.对了,他现在自己创业,提供数据分析.推荐优化咨询服务,他的邮件是:stucchio@gmail.com .       有人问我,"你在大数据和Hadoop方面有多少经验?"我告诉他们,我一直在使用Hadoop…