临时做个随笔 下载snappy-1.1.1.tar.gz 解压后需要提前安装: yum -y update gccyum -y install gcc+ gcc-c++ ======================= 然后在解压后的snappy目录执行: ./confurati make make install 解压完毕会在/usr/local/lib下剩下: 然后将里面的内容拷贝到hadoop/lib/native下和/opt/cdh/hbase-1.2.0-cdh5.14.0/lib/na…
原文链接:开启hadoop和Hbase集群的lzo压缩功能 问题导读: 1.如何启动hadoop.hbase集群的压缩功能? 2.lzo的作用是什么? 3.hadoop配置文件需要做哪些修改? 首先我们明白一个概念: LZO 是致力于解压速度的一种数据压缩算法,LZO 是 Lempel-Ziv-Oberhumer 的缩写. 安装前: # yum -y install  lzo-devel zlib-devel  gcc autoconf automakelibtool lzo-2.06.tar.…
HDFS基本命令 接触大数据挺长时间了,项目刚刚上完线,趁着空闲时间整理下大数据hadoop.Hbase等常用命令以及各自的优化方式,当做是一个学习笔记吧. HDFS命令基本格式:Hadoop  fs  -cmd < args > ls 命令 hadoop fs -ls /  列出hdfs文件系统根目录下的目录和文件 hadoop fs -ls -R /  递归列出hdfs文件系统所有的目录和文件 put 命令 hadoop fs -put < local file > <…
环境介绍: 系统:centos7 软件包: apache-phoenix-4.14.0-HBase-1.4-bin.tar.gz  下载链接:http://mirror.bit.edu.cn/apache/phoenix/apache-phoenix-4.14.1-HBase-1.4/bin/apache-phoenix-4.14.1-HBase-1.4-bin.tar.gz hadoop-3.1.1.tar.gz 下载链接:http://mirror.bit.edu.cn/apache/had…
1 Ganglia简介 Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点.每台计算机都运行一个收集和发送度量数据(如处理器速度.内存使用量等)的名为 gmond 的守护进程.它将从操作系统和指定主机中收集.接收所有度量数据的主机可以显示这些数据并且可以将这些数据的精简表单传递到层次结构中.正因为有这种层次结构模式,才使得 Ganglia 可以实现良好的扩展.gmond 带来的系统负载非常少,这使得它成为在集群中各台计算机上运行的一段代码,而不会影响用…
配置 hadoop+yarn+hbase+storm+kafka+spark+zookeeper 高可用集群,同时安装相关组建:JDK,MySQL,Hive,Flume 文章目录 环境介绍 节点介绍 集群介绍 软件版本介绍 前期准备 相关配置 新建用户 centos 添加sudo权限 更改用户名 主机名与IP映射 显示当前文件的绝对路径 ssh免密登录 关闭防火墙 两个批处理脚本 批分发指令脚本(xcall.sh) 批同步脚本(xsync.sh):类似于 scp 指令 集群环境搭建 安装JDK…
第2节 mapreduce深入学习:14.mapreduce数据压缩-使用snappy进行压缩 文件压缩有两大好处,节约磁盘空间,加速数据在网络和磁盘上的传输. 方式一:在代码中进行设置压缩 代码: FlowMain: public static void main(String[] args) throws Exception {// 设置我们的map阶段的压缩Configuration configuration = new Configuration(); configuration.se…
一,环境准备 hadoop 2.8.2 分布式环境(三个节点 安装请参考 hadoop分布式环境安装) hbase 1.2.6  分布式环境(三个节点 ,安装参考hbase分布式环境安装 ) 主节点采用 ubuntu 16.04 桌面版 ,从节点为服务器版的ubuntu 16.04 主机: 172.16.12.1          zhoujun (主机点) 172.16.12.129      hadoop3 172.16.12.131      hadoop2 二,Ganglia的简介 关于…
一.Ganglia简介 Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点.每台计算机都运行一个收集和发送度量数据(如处理器速度.内存使用量等)的名为 gmond 的守护进程.它将从操作系统和指定主机中收集.接收所有度量数据的主机可以显示这些数据并且可以将这些数据的精简表单传递到层次结构中.正因为有这种层次结构模式,才使得 Ganglia 可以实现良好的扩展.gmond 带来的系统负载非常少,这使得它成为在集群中各台计算机上运行的一段代码,而不会影响用…
项目描述: 今天花了680元买了阿里云的一台内存1G, 带宽1M 的云主机. 想以后方便测试用,而且想把自己的博客签到自己的主机上.所以自己就搭了一个测试的环境. 可以用来进行基本的hbase 入库, hadoop  mrjob 的运行. 步骤: 1.配置JDK 我的安装路径如下:/usr/local/java/jdk1.7.0_79 设置环境变量: JAVA_HOME=/usr/local/java/jdk1.7.0_79 export PATH=$JAVA_HOME/bin:$PATH 刷新…