转载请在页首明显处注明作者与出处 一:说明 此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6.4 上一篇:hadoop系列一:hadoop集群安装 二:HDFS的shell命令 上一章说完了安装HADOOP集群部分,这一张讲HDFS. 其实基本上操作都是通过JAVA API来操作,所以这里的shell命令只是简单介绍一下,实际操作中自然是JAVA API更加方便,功能也更加强大,JAVA…
一. hdfs shell命令 可以通过hadoop fs 查看所有的shell命令及其用法. 传文件到hdfs: hadoop fs -put /home/koushengrui/Downloads/hadoop-2.7.4.tar.gz hdfs://centos1:9000/ 注意,代表hdfs文件系统的hdfs://centos1:9000/最后面的斜杠不要漏掉,/代表根目录. 从hdfs下载文件: hadoop fs -get hdfs://centos1:9000/ /home/ko…
Java版本程序开发过程主要包含三个步骤,一是map.reduce程序开发:第二是将程序编译成JAR包:第三使用Hadoop jar命令进行任务提交. 下面拿一个具体的例子进行说明,一个简单的词频统计,输入数据是一个单词文本,输出每个单词的出现个数. 一.MapReduce程序 标准的MapReduce程序包含一个Mapper函数.一个Reducer函数和一个main函数 1.主程序 package hadoop; import org.apache.hadoop.conf.Configurat…
在 cd  /home/hadoop/hadoop-2.5.2/bin 下 执行的./hdfs namenode -format 报错[hadoop@node1 bin]$ ./hdfs namenode –format 16/07/11 09:21:21 INFO namenode.NameNode: STARTUP_MSG:/************************************************************STARTUP_MSG: Starting Na…
常用命令: memcached设计的原则就是简单,所以支持的命令也不是特别多~ 1.查看memcached的状态,主要用于分析内存的使用状况.优化内存分配等 stats 查看memcached的运行状态 stats items 查看items的状态 stats slabs 查看slabs的内存分配状态,注重点在性能而非计数 stats sizes 查看 2.存 set 存值,若key已存在会覆盖原值 add 存值,若key已存在保存失败 replace 替换原值,若key不存在替换失败 appe…
一.hdfs的概念 Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS. Hadoop是Apache Lucene创始人Doug Cutting开发的使用广泛的文本搜索库.它起源于Apache Nutch,后者是一个开源的网络搜索引擎,本身也是Luene项目的一部分.Aapche Hadoop架构是MapReduce算法的一种开源应用,是Google开创其帝国的重要基石. 什么是文件系统呢,其实我们最熟悉的windows用的是NT…
前面简单介绍了hadoop生态圈,大致了解hadoop是什么.能做什么.带着这些目的我们深入的去学习他.今天一起看一下hadoop的基石--文件存储.因为hadoop是运行与集群之上,处于分布式环境之中,所以他的文件存储也不同与普通的本地存储,而是分布式存储系统,HDFS(The Hadoop Distributed File System). 因为数据量越来越大,一台机器管理的磁盘数量是有限的,所有的数据由很多台机器管理.那么对于这么多台机器管理的数据如何进行协调处理呢?这个时候分布式文件管理…
一.环境配置 安装虚拟机vmware,并在该虚拟机机中安装CentOS 6.4: 修改hostname(修改配置文件/etc/sysconfig/network中的HOSTNAME=hadoop),修改IP到主机名的映射(vi /etc/hosts ,添加 127.0.0.1   hadoop); 按照JDK,下载jdk1.7.0_60并解压到/soft目录中,然后在/etc/profile中添加  export JAVA_HOME=/soft/jdk1.7.0_60 和 export PATH…
    1.环境简述2.QJM HA简述2.1为什么要做HDFS HA?2.2 HDFS HA的方式2.2 HSFS HA的结构2.3 机器要求3.部署HDFS HA3.1 详细配置3.2 部署HDFS HA4. HDFS HA的管理5.自动切换5.1 使用zookeeper实现HA原理5. 部署hdfs自动切换5.1 关闭集群5.2 添加HA配置5.3 在zookeeper中初始化HA状态5.4 开启集群5.5 使用zookeeper时的安全机制6.FAQ7.做了HA后HDFS的升级.回滚7.…
1.根据 Maven 的约定,我们在D盘根目录手动创建如下目录及文件结构: 2.打开 pom.xml 文件,添加如下内容: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http:/…