一. hbase的原理知识 1. hbase介绍 hbase是hadoop的一个重要成员,主要用于存储结构化数据,构建在hdfs之上的分布式存储系统,它主要通过横向扩展,通用不断增加廉价服务器增加计算和存储能力. 2. hbase的特点 1. 大:一个表可以有数十亿行,上百万列: 2. 无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列: 3. 面向列:面向列(族)的存储和权限控制,列(族)独立检索: 4. 稀疏:空(null)列并不占用…
1. 显示当前目录结构 # 显示当前目录结构 hadoop fs -ls <path> # 递归显示当前目录结构 hadoop fs -ls -R <path> # 显示根目录下内容 hadoop fs -ls / 2. 创建目录 # 创建目录 hadoop fs -mkdir <path> # 递归创建目录 hadoop fs -mkdir -p <path> 3. 删除操作 # 删除文件 hadoop fs -rm <path> # 递归删除…
前言 笔者在分类中的hbase栏目之前已经分享了hbase的安装以及一些常用的shell命令的使用,这里不仅仅重新复习一下shell命令,还会介绍hbase的DDL以及DML的相关操作. hbase的shell操作 启动hbase shell 在hbase的安装目录的bin目录下面启动我们的hbase,执行命令:hbase shell,执行效果以>结束,如下执行效果: [root@mini1 bin]# ./hbase shell SLF4J: Class path contains multi…
阅读目录 前言 一.hbase的shell操作 1.1启动hbase shell 1.2执行hbase shell的帮助文档 1.3退出hbase shell 1.4使用status命令查看hbase现在的状态 1.5使用version命令查看hbase的相关的版本 1.6table_help 1.7whoami 二.hbase的DDL相关的操作 2.1使用hbase创建表 2.1.1创建表 2.1.2验证创建 2.2使用hbase禁用表 2.2.1禁用表 2.2.2验证禁用 2.2.3is_d…
附:HDFS shell guide文档地址 http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-common/FileSystemShell.html 启动HDFS后,输入hadoop fs命令,即可显示HDFS常用命令的用法 [hadoop@localhost hadoop-]$ hadoop fs Usage: hadoop fs [generic options] [-appendToFile <localsrc…
一.节点增删改查 1.1 启动服务和连接服务 # 启动服务 bin/zkServer.sh start #连接服务 不指定服务地址则默认连接到localhost:2181 zkCli.sh -server hadoop001:2181 1.2 help命令 使用help可以查看所有命令及格式. 1.3 查看节点列表 查看节点列表有ls path和 ls2 path两个命令,后者是前者的增强,不仅可以查看指定路径下的所有节点,还可以查看当前节点的信息. [zk: localhost:2181(CO…
一.ZooKeeper 的实现 1.1 ZooKeeper处理单点故障 我们知道可以通过ZooKeeper对分布式系统进行Master选举,来解决分布式系统的单点故障,如图所示. 图 1.1 ZooKeeper解决单点故障…
MapReduce概念 MapReduce是一种分布式计算模型,由谷歌提出,主要用于搜索领域,解决海量数据计算问题. MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数实现分布式计算. 这两个函数的形参是key,value对,表示函数的输入信息. MP执行流程 客户端提交给jobtracker,jobtracker分配给tasktracker. trasktracker会对任务进行mapper和reducer操作. MapReduce原理 一个map输入…
Hive目的是为了简化MapReduce编程 实际应用中,Hive与Hbase不经常链接…
一,架构   二.名词解释 (一)NameNode(简称NN),Hadoop的主节点,负责侦听节点是否活跃,对外开放接口等.在未来的大数据处理过程中,由于访问量和节点数量的不断增多,需要该节点的处理能力较高,因此从集群搭建的角度,建议该节点的CPU配置较高. (二)SecondNameNode(SNN),Hadoop高可用的备份节点,主要用途是主节点宕机或者不可用的情况下,自行切换到备用节点. 身份决定了该节点需要同步NN的信息,因此采用心跳的方式从NN发现数据,并同步到自身.由于不可预知的本机…