1 硬件环境 Ubuntu 14.10 64位 2 软件环境 openjdk-7-jdk hadoop 2.6.0 zookeeper-3.4.6 hbase-1.0.0 3 机群规划 3.1 zookeeper配置-机器结点 192.168.1.100 1421-0000192.168.1.106 1421-0003192.168.1.107 1421-0004192.168.1.108 1421-0005192.168.1.109 1421-0006 3.2 hadoop配置-机器结点 19…
在http://www.aboutyun.com/thread-8130-1-1.html 这里看到到,安装过程遇到了上面说的问题,所以将此文转载过来,以备不时之需,感谢此作者. 问题导读: 1.如果获取hadoop src  maven包? 2.编译hadoop需要装哪些软件? 3.如何编译hadoop2.4? 扩展: 编译hadoop为何安装这些软件? 一.首先下载hadoop源码包 下载的方式还是比较多的 1.svn的方式 svn下载首先需要安装SVN,如果想尝试使用svn,可以参考源码管…
折腾了一天,其间配置SSH时候出现了问题,误删了ssh-keygen相关文件,导致配置SSH彻底萎了,又重装了系统.... 采用伪分布式模式,即hadoop将所有进程运行于同一台主机上,但此时Hadoop将使用分布式文件系统,而且各jobs也是由JobTracker服 务管理的独立进程.同时,由于伪分布式的Hadoop集群只有一个节点,因此HDFS的块复制将限制为单个副本,其secondary-master和 slave也都将运行于本地主机.此种模式除了并非真正意义的分布式之外,其程序执行逻辑完…
Ubuntu 14.10下基于Nginx搭建mp4/flv流媒体服务器(可随意拖动)并支持RTMP/HLS协议(含转码工具) 最近因为项目关系,收朋友之托,想制作秀场网站,但是因为之前一直没有涉及到这方面的东西,没有什么感觉可言:搜索了一些资料以后,虽然有开业的实现方式,但是大家都没有完成的说明的,或者说我还没有更深入的研究到.不过让我找到了关于假设流媒体播放器的资料,不过是基于centos的操作,那我就试做成ubuntu的step by step吧. ###步骤如下: step1准备ubunt…
关于 Ganglia 软件,Ganglia是一个跨平台可扩展的,高性能计算系统下的分布式监控系统,如集群和网格.它是基于分层设计,它使用广泛的技术,如XML数据代表,便携数据传输,RRDtool用于数据存储和可视化.它利用精心设计的数据结构和算法实现每节点间并发非常低的. 它已移植到广泛的操作系统和处理器架构上,目前在世界各地成千上万的集群正在使用.它已 被用来连结大学校园和世界各地,可以处理2000节点的规模. 1 环境 系统:Ubuntu 14.10 Hadoop:2.5.0 Spark:1…
1 系统环境 Ubuntu 14.10 JDK-7 Hadoop 2.6.0 2 安装步骤 2.1 下载Hive 我第一次安装的时候,下载的是Hive-1.2.1,配置好之后,总是报错 [ERROR] Terminal initialization failed; falling back to unsupported java.lang.IncompatibleClassChangeError: Found class jline.Terminal, but interface was exp…
系统环境,Ubuntu 14.10 ,64位 1 下载JD-GUI,网址http://221.3.153.126/1Q2W3E4R5T6Y7U8I9O0P1Z2X3C4V5B/jd.benow.ca/jd-gui/downloads/jd-gui-0.3.5.linux.i686.tar.gz 2 将jd-gui-0.3.5.linux.i686 .tar.gz解压到指定目录,可尝试下能否打开jd-gui,如果能打开,就完事儿了,不能打开看下面 3 安装依赖软件 sudo apt-get ins…
环境说明: Ubuntu 14.10 64位 1 下载DokuWiki:http://download.dokuwiki.org/ 2 解压到 /var/www/html下面 3 如果没有安装Apace和PHP,那么需要安装 sudo apt-get install apache2 php5 4 解压完dokuwiki之后,还需要设置它的权限,增加写的权限,要不然instal的时候会报错 5 启动apace,浏览器打开localhost/dokuwiki,会跳转到安装界面,输入一些信息之后,就可…
简介 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大.简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理. awk有3个不同版本: awk.nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本. awk其名称得自于它的创始人 Alfred Aho .Peter Weinberger 和 Brian Kernighan 姓氏的首个字母.实际上 AWK…
在安装Ubuntu server 14.10 时候选择了中文版,但是装好系统发现,里面的中文有乱码,解决办法 打开 /etc/default/locale sudo nano /etc/default/locale 原来是中文编码,修改成英文的 #LANG="zh_CN.UTF-8" #LANGUAGE="zh_CN:zh" LANG="en_US.UTF-8" LANGUAGE="en_US:en" 注销系统,重登就行了 参…
1 环境准备 1.1 下载IDEA,可在官网下载 1.2 IDEA与Eclipse有点不同,IDEA中的New Projects相当于Eclipse中的workspace,New Module才是新建工程 2 建立Spark程序 2.1 首先新建项目,New Projects,名字随便取:Create New Project -> Scala -> SBT -> 创建名为SparkExample的project 2.2 创建Module,New Module,名字随便取:New Modu…
linux查看系统的硬件信息,并不像windows那么直观,这里我罗列了查看系统信息的实用命令,并做了分类,实例解说. cpu lscpu命令,查看的是cpu的统计信息. blue@blue-pc:~$ lscpu Architecture: i686 #cpu架构 CPU op-mode(s): 32-bit, 64-bit Byte Order: Little Endian #小尾序 CPU(s): 4 #总共有4核 On-line CPU(s) list: 0-3 Thread(s) pe…
1.Tachyon简介 Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,就像Spark和 MapReduce那样.通过利用信息继承,内存侵入,Tachyon获得了高性能.Tachyon工作集文件缓存在内存中,并且让不同的 Jobs/Queries以及框架都能内存的速度来访问缓存文件.因此,Tachyon可以减少那些需要经常使用的数据集通过访问磁盘来获得的次数. 2.Tachyon能解决什么问题:(摘自Tachyon 分布式内存文件系统) 1.不同Fra…
转自 http://www.linuxidc.com/Linux/2015-01/112370.htm 一.在Ubuntu下创建Hadoop组和hadoop用户 增加hadoop用户组,同时在该组里增加hadoop用户,后续在涉及到hadoop操作时,我们使用该用户. 1.创建hadoop用户组 2.创建hadoop用户 sudo adduser -ingroup hadoop hadoop 回车后会提示输入新的UNIX密码,这是新建用户hadoop的密码,输入回车即可. 如果不输入密码,回车后…
本地独立模式,MySQL作为元数据库 1 安装环境准备 1.1 安装JDK,在安装hadoop时候已经安装了,参考http://www.cnblogs.com/liuchangchun/p/4097286.html 1.2 安装hadoop,参考http://www.cnblogs.com/liuchangchun/p/4097286.html 1.3 安装MySQL数据库,参考http://www.cnblogs.com/liuchangchun/p/4099003.html 1.4 新建hi…
HBase 安装分为:单击模式,伪分布式,完全分布式,在单机模式中,HBase使用本地文件系统而不是HDFS ,所有的服务和zooKeeper都运作在一个JVM中.本文是安装的伪分布式. 安装步骤如下 1 环境配置 2 安装说明 1 环境配置 1.1 Java JDK 安装,下载JDK,配置环境变量 sudo nano /etc/profile export JAVA_HOME=/usr/dev/jdk1.7.0_51 export HADOOP_HOME=/home/lcc/software/…
ifstat 介绍 ifstat工具是个网络接口监测工具,比较简单看网络流量 实例 默认使用 #ifstat eth0 eth1 KB/s in KB/s out KB/s in KB/s out 0.07 0.20 0.00 0.00 0.07 0.15 0.58 0.00 默认ifstat不监控回环接口,显示的流量单位是KB. 监控所有网络接口 # ifstat -a lo eth0 eth1 KB/s in KB/s out KB/s in KB/s out KB/s in KB/s ou…
简介 grep (global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来. Unix的grep家族包括grep.egrep和fgrep.egrep和fgrep的命令只跟grep有很小不同.egrep是grep的扩展,支持更多的re元字符, fgrep就是fixed grep或fast grep,它们把所有的字母都看作单词,也…
因为hadoop集群中需要配置一个图形化管理数据的截面,后来找到HUE,那么在配置HUE的过程中,发现需要配置httpfs,因为配置了httpfs,hue才能去操作hdfs中的数据. HttpFs能干啥呢,它可以使你能在浏览器中管理HDFS上的文件,例如在HUE中:它还提供了一套REST风格的API用来管理HDFS 1 集群环境 Ubuntu-14.10 openjdk-7 hadoop-2.6.0 HA(双NN) hue-3.8.1(development) 2 安装 因为hadoop中自带了…
Ubuntu下公认最易上手的ftp软件是vsftpd,既然标题都说了是“简易”的,那么必然是用最大众的..下面是正题 目标需求:搭建一个允许匿名/本地登录的FTP,并且支持上传/下载/修改功能,同时FTP的端口可自主决定,FTP的根目录可自主决定. PS:部署过程中遇到任何问题可以先看看本文最下方的Note部分,也许你现在遇到的问题正是我曾经遇到而且解决了的^..^ 步骤一:安装vsftpd sudo apt-get update   # 更新源 sudo apt-get install vsf…
修改 /etc/network/interfaces 文件 sudo nano /etc/network/interfaces 修改为 # 前面的不变auto eth0 iface eth0 inet static # Ip address address 192.168.152.133 # wang guan gateway 192.168.152.2 # zi wang yan ma netmask 255.255.255.0 # DNS dns-nameservers 192.168.15…
有些时候需要在远程机器上执行命令,如果每次都等进去挺麻烦的,所以用脚本执行会方便很多.下面介绍一下在shell脚本中执行远程命令. 1,首先写好要运行的脚本 run-command.sh, 加上执行权限 chmod +x test.sh 2,把脚本文件放到远程服务器对应的用户目录 3,在本机执行 ssh remote_user@remote_ip "source /etc/profile;~/run-command.sh" 4,加上/etc/profile这样就不会出现找不到自己的环境…
sort sort 命令对 File 参数指定的文件中的行排序,并将结果写到标准输出.如果 File 参数指定多个文件,那么 sort 命令将这些文件连接起来,并当作一个文件进行排序. sort语法 [root@www ~]# sort [-fbMnrtuk] [file or stdin] 选项与参数: -f :忽略大小写的差异,例如 A 与 a 视为编码相同: -b :忽略最前面的空格符部分: -M :以月份的名字来排序,例如 JAN, DEC 等等的排序方法: -n :使用『纯数字』进行排…
简介 sed 是一种在线编辑器,它一次处理一行内容.处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕.接着处理下一行,这样不断重复,直到文件末尾.文件内容并没有 改变,除非你使用重定向存储输出.Sed主要用来自动编辑一个或多个文件:简化对文件的反复操作:编写转换程序等. sed使用参数 [root@www ~]# sed [-nefr] [动作] 选项与参数: -n :使用安静(sil…
最近老板提出一个需求,要用Hadoop机群管理生物数据,并且生物数据很多动辄几十G,几百G,所以需要将这些数据传到HDFS中,在此之前搭建了HUE用来图形化截面管理HDFS数据,但是有个问题,上面使用的REST API接口,用的是HTTP协议,速度慢,并且一旦挂了就得重来,所以迫切需要一个FTP工具来进行上传下载. 其实HDFS整合了众多文件系统,在其中有一个综合性的文件系统抽象,它提供了文件系统实现的各类接口,HDFS只是这个抽象文件系统的一个实例.提供了一个高层的文件系统抽象类org.apa…
1 服务器分布 服务器 说明 192.168.1.100 NameNode 192.168.1.101 DataNode 192.168.1.102 DataNode 2 软件环境 2.1 安装JDK,添加环境变量 2.2 安装Scala,添加环境变量 2.3 SSH免密码登陆,A登陆A,A登陆B,可参考http://blog.csdn.net/codepeak/article/details/14447627 ssh-keygen -t rsa -P '' cat ~./ssh/id_rsa.…
环境介绍 64位Ubuntu14.10,Hadoop 2.5.0 ,HBase 0.99.0 准备环境 1 安装Hadoop 2.5.0,可参考http://www.cnblogs.com/liuchangchun/p/4097286.html 2 安装HBase 0.99.0 ,可参考http://www.cnblogs.com/liuchangchun/p/4096891.html 3 安装Ecliose 新建Java工程 1 运行Eclipse,创建一个新的Java工程“MyHBase”,…
准备环境 1 安装好了Hadoop,之前安装了Hadoop 2.5.0,安装参考http://www.cnblogs.com/liuchangchun/p/4097286.html 2 安装Eclipse,这个直接在其官网下载即可 安装步骤 1 下载Eclipse插件,我找的是Hadoop 2.2 的插件,在Hadoop 2.5 下可以正常用,获取插件这里有两种方式 1.1 一是自己下载源码自己编译,过程如下 首先,下载eclipse-hadoop的插件,网址是https://github.co…
在安装brunch的时候npm install -g brunch发现如下问题: Error: Cannot find module ‘npmlog’ at Function.Module._resolveFilename (module.js::) at Function.Module._load (module.js::) at Module.:) at :) at /usr/: at Object.<anonymous> (/usr/:) at Module._compile (modu…
介绍 Linux下的IO统计工具如iostat, nmon等大多数是只能统计到per设备的读写情况, 如果你想知道每个进程是如何使用IO的就比较麻烦. iotop 是一个用来监视磁盘 I/O 使用状况的 top 类工具.iotop 具有与 top 相似的 UI,其中包括 PID.用户.I/O.进程等相关信息. 实例 直接运行就好 iotop 输出如下 Total DISK READ: 6.01 M/s | Total DISK WRITE: 3.85 K/s TID PRIO USER DISK…