Hadoop自学系列集(四) ---- Hadoop集群

【Hadoop自学系列集(四) ---- Hadoop集群】的更多相关文章

golang 自学系列（四）——debug for vscode

golang 自学系列(四)--(调试)VSCode For Debug 这里如何装 vscode 我就不说了这里如何在 vscode 正常写代码我也不说了在能正常用 vscode 写 go 语言的前提下(何为正常?就是写代码有智能提示的那种) 在终端/cmd/iterm 输出以下命令 xcode-select --install // vscode 第一次运行这个命令会弹出一个提示是否安装这个软件,点击是即可 go install github.com/derekparker/delve…

Hadoop自学系列集(四) ---- Hadoop集群

久等了,近期公司比较忙,学习的时间都没有啊,到今日才有时间呢!!!好了,下面就跟着笔者开始配置Hadoop集群吧. hosts文件和SSH免密码登录配置好了之后,现在进入Hadoop安装目录,修改一些配置文件,修改配置还是相对简单的,一下是需要修改的文件内容(当然这里只是学习时的配置,更加深入的配置笔者也不会了,嘿嘿嘿),四台机相同配置,以下是一些修改的文件(红色为修改部分): conf/hadoop-env.sh: export JAVA_HOME=/usr/local/java/jdk1.6…

Hadoop自学系列集(三) ---- Hadoop安装

这节就开始讲述Hadoop的安装吧.在这之前先配置下SSH免密码登录,为什么需要配置这个呢?大家都知道Hadoop集群中可能有几十台机器甚至是上千台机器,而每次启动Hadoop都需要输入密码才能够登录到每台机器的DataNode上的,所以为了避免后期繁琐的操作,一般都会配置SSH免密码登录. 注:笔者使用的远程连接工具是XShell,很好用的一款远程连接工具,推荐大家使用,还可以安装一下xftp文件传输工具,方便于将自己电脑上的软件拷贝到虚拟机中,xftp和Xshell是可以配套使用的. 配置S…

Hadoop概念学习系列之谈hadoop/spark里为什么都有，YARN呢？（四十一）

在Hadoop集群里,有三种模式: 1.本地模式 2.伪分布模式 3.全分布模式在Spark集群里,有四种模式: 1.local单机模式结果xshell可见: ./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[1] ./lib/spark-examples-1.3.1-hadoop2.4.0.jar 100 这里写local,就是local[1] 2.standalone集群模式需要的配置…

Hadoop自学系列集(二) ---- CentOS下安装JDK

上篇我们讲述了如何使用VMware安装CentOS系统,接下来就看如何安装我们最为熟悉的jdk吧!安装前先看看系统上有没有安装过jdk,输入java -version,如果查询出了其他版本的jdk版本,就先删除了,笔者这里使用jdk1.6.说开始就开始,下面开始说明安装步骤吧. 1.我们去Oracle获取jdk1.6安装文件,地址分享:http://download.oracle.com/otn/java/jdk/6u45-b06/jdk-6u45-linux-i586.bin,这地址不能直接进…

Hadoop自学系列集(一) ---- 使用VMware安装CentOS

1.概述笔者的学习环境--在VMware虚拟机下安装四个CentOS系统(搭建Hadoop集群用),其中一个为Master,三个为Slave,Master作为Hadoop集群中的NameNode,三个Slave作为DataNode.同时我们将四个CentOS系统的IP设置为静态,防止IP变化而导致集群不可用(IP变化了,就得修改配置才能使用Hadoop集群了) 2.安装VMware 下载完毕后双击运行,然后想安装其他软件一样一直点击下一步,即可完成安装.安装位置可以修改一下,笔者安装目录是:…

Hadoop概念学习系列之谈hadoop/spark里分别是如何实现容错性？（四十二）

Hadoop使用数据复制来实现容错性(I/O高) Spark使用RDD数据存储模型来实现容错性. RDD是只读的.分区记录的集合.如果一个RDD的一个分区丢失,RDD含有如何重建这个分区的相关信息.这就避免了使用数据复制来保证容错性的要求,从而减少了对磁盘的访问.通过RDD,后续步骤如果需要相同数据集时就不必重新计算或从磁盘加载.…

Hadoop概念学习系列之谈hadoop/spark里为什么都有，键值对呢？（四十）

很少有人会这样来自问自己?只知道,以键值对的形式处理数据并输出结果,而没有解释为什么要以键值对的形式进行. 包括hadoop的mapreduce里的键值对,spark里的rdd里的map等. 这是为什么呢? 1.键值对的具体含义首先,我们会通过强调Java标准库中的类似概念,来阐明我们所说的键值对的含义. java.util.Map接口是常用类,如HashMap,甚至原始Hashtable的父类(通过向后重构代码库). 对于任何Java Map对象,其内容是从指定类型的给定键到相关值的一组映射…

Hadoop笔记系列一用Hadoop进行分布式数据处理(1)

学习资料参考地址: 1.http://blog.csdn.net/zhoudaxia/article/details/8801769 1.先说说什么是Hadoop? 个人理解:一个分布式文件存储系统+一个分布式计算框架,在其上还有很多的开源项目来丰富他的功能,如Hbase,hive等等.官方:Hadoop是一个用Java编写的开源系统,可安排在大规模的计算平台上,从而提高计算效率.本质上它只是一个海量数据处理平台架构. 2.Hadoop与MapReduce,有什么关系? Hadoop生态圈的三个…

Hadoop概念学习系列之为什么hadoop/spark执行作业时，输出路径必须要不存在？（三十九）

很多人只会,但没深入体会和想为什么要这样? 拿Hadoop来说,当然,spark也一样的道理. 输出路径由Hadoop自己创建,实际的结果文件遵守part-nnnn的约定. 如何指定一个已有目录作为Hadoop作业的输出路径,作业将无法进行,并会抛出异常抗议一个已经存在的目录.如果想让Hadoop将输出存储到一个目录,它必须是不存的目录.其实,我们可以把这个特点当做Hadoop的一种安全机制,它可以防止Hadoop重写有用的文件以及用户总是忘记弄清的事.…