系统:ubuntu14.04

一、hadoop安装

ssh免密码登陆详情见上一篇博客。

解压hadoop1.2.1到某个目录下,这里解压到ubuntu下载目录下(注意没必要使用管理员权限)

在hadoop1.2.1 conf目录下的core-site.xml添加一下内容:

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property> <property>
<name>hadoop.tmp.dir</name>
<value>/home/你的用户名/下载/hadoop-1.2./hadoop_tmp</value>
</property>
</configuration>

在hdfs-site.xml中添加一下内容:

<configuration>
<property>
<name>dfs.replication</name>
<value></value>
</property>
</configuration>

在mapre-site.xml中添加以下内容:

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:</value>
</property>
</configuration>

在hadoop-env.sh中找到JAVA_HOME这一行,然后填写上你自己的java路径。

如果你已经设置好了ssh免密码登陆,那么就可以进去到hadoop目录下用bin/start-all.sh来启动伪分布式hadoop了。如果你想在任意目录下都可以使用hadoop命令则需要在/etc/profile中配置以下内容:

export HADOOP_HOME =hadoop安装路径
export PATH=在末尾添加:$HADOOP_HOME/bin

要启动hadoop,第一次先格式化namenode,命令为hadoop namenode -format

二、hbase

使用的hbase为hbase-0.90.4,同样解压到下载目录下。

然后配置conf目录下的hbase-site.xml,添加以下内容:

<configuration>

  <property>
<name>hbase.rootdir</name>
<value>hdfs://localhost:9000/hbase</value>
</property> <property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property> <property>
<name>hbase.zookeeper.quorum</name>
<value>localhost</value>
</property> </configuration>

同样在hbase-env.sh中找到JAVA_HOME,然后添加上自己的JAVA配置路径。

同时需要找到HBASE_MANAGES_ZK这一行,把后面的值设置为true。

接着替换jar包,使用以下命令:

rm /home/hadoop/hbase-0.90./lib/hadoop-core-0.20-append-r1056497.jar

cp /home/hadoop/hadoop-1.2./hadoop-core-1.2..jar /home/hadoop/hbase-0.90./lib

cp /home/hadoop/hadoop-1.2./lib/commons-collections-3.2..jar /home/hadoop/hbase-0.90./lib

cp /home/hadoop/hadoop-1.2./lib/commons-configuration-1.6.jar /home/hadoop/hbase-0.90./lib

路径要根据你们自己的路径来配置,主要就是把hbase中lib文件夹下的三个依赖hadoop的jar包替换为我们安装的hadoop-1.2.1的jar包。(ps:看路径最好进入到文件夹下右键用属性看具体路径)

同样在/etc/profile中需要设置一下HBASE_HOME,然后再PATH后面加上HBASE_HOME/bin。

至此,hbase配置完成,在hadoop启动的前提下,启动hbase ,命令:bin/start-hbase.sh(ps:启动hbase前必须启动hadoop,关闭hadoop前先关闭hbase,因为hbase是基于hadoop 的)

启动完成后用jps查看, 如果看到的是9个进程那就对了。

三、es安装

下载es就不说了。同样在下载目录下解压,解压后就完成了安装了~~~~~就是这么简单。

不过一般需要安装head插件和其他扩展 插件,可以自行百度,这里不在讲解。

进入到elasticsearch目录下,bin/elasticsearch启动es,然后用curl命令查看是否成功(没有curl命令的需要安装,sudo apt-get install curl)

curl -XGET 'localhost:9200/_cluster/health?pretty'

此条命令查看es是否成功启动,如果执行完后返回一组字符代表启动成功。

四、nutch2.2.1安装

此处可能会出比较多的问题。

下载解压后,先首先修改一个源码:

进入src/java/org/apache/nutch/crawl目录,修改GeneratorJob.java中的public Map<String,Object> run(Map<String,Object> args) 方法。

// generate batchId
 int randomSeed = Math.abs(new Random().nextInt());  
 String batchId = (curTime / 1000) + "-" + randomSeed;  
 getConf().set(BATCH_ID, batchId);   注意放置位置。

把nutch自带的hbase-site.xml 文件替换为我们自己的hbas-site.xml文件

修改nutch-site.xml文件为:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put site-specific property overrides in this file. --> <configuration> <property>
<name>storage.data.store.class</name>
<value>org.apache.gora.hbase.store.HBaseStore</value>
</property>
<property>
<name>http.agent.name</name>
<value>NutchCrawler</value>
</property>
<property>
<name>http.robots.agents</name>
<value>NutchCrawler,*</value>
</property>

在ivy.xml文件中找到以下内容:

<dependency org="org.apache.gora" name="gora-hbase" rev="0.3"
conf="*->default" />
去掉注释即可
同时为了让nutch2.2.1支持es0.90.5,找到这一行:

<dependency org="org.elasticsearch" name="elasticsearch" rev="0.19.4"
conf="*->default"/>

将0.19.4修改为0.90.5


在conf目录下找到gora.properties文件,添加以下内容:

gora.datastore.default=org.apache.gora.hbase.store.HBaseStore

接下来就是ant编译了,如果没有安装ant,请先安装ant。

ant clean

ant runtime

至此,nutch安装成功,可能在ant中会报一个Failed什么错误(忘记了。。。不过具体解决办法就是进入到提示的那个源码中,把小写改为大写即可。)

注:如果要成功连接hbase,最好把/etc/hosts中的127.0.1.1改为当前电脑上网ip,或者是单独设置一个静态ip对应,因为hbase的连接是通过网络进行连接的,不管是内网还是外网。

hadoop1.2.1+hbase0.90.4+nutch2.2.1+elasticsearch0.90.5配置(伪分布式)的更多相关文章

  1. hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5安装配置攻略

    一.背景 最近由于项目和论文的需要,需要搭建一个垂直搜索的环境,查阅了很多资料,决定使用Apache的一套解决方案hadoop+hbase+nutch+es.这几样神器的作用就不多作介绍了,自行参考各 ...

  2. 谁说他们版本不兼容——hadoop1.2.1+hbase0.94.11+nutch2.2.1+el

    一.背景 最近由于项目和论文的需要,需要搭建一个垂直搜索的环境,查阅了很多资料,决定使用Apache的一套解决方案hadoop+hbase+nutch+es.这几样神器的作用就不多作介绍了,自行参考各 ...

  3. Ubuntu环境下Hadoop1.2.1, HBase0.94.25, nutch2.2.1各个配置文件一览

    /×××××××××××××××××××××××××××××××××××××××××/ Author:xxx0624 HomePage:http://www.cnblogs.com/xxx0624/ ...

  4. nutch-2.2.1 hadoop-1.2.1 hbase-0.92.1 集群部署

    国内私募机构九鼎控股打造APP,来就送 20元现金领取地址:http://jdb.jiudingcapital.com/phone.html 内部邀请码:C8E245J (不写邀请码,没有现金送) 国 ...

  5. 伪分布式hadoop1.1.2和hbase0.94.11配置

    Hadoop 1.1.2 和Hbase 0.94.11版本配置 测试时ip  172.19.32.128 这个版本需要把/etc/hosts的aa-vm改成127.0.0.1,也就是和localhos ...

  6. (四)伪分布式下jdk1.6+Hadoop1.2.1+HBase0.94+Eclipse下运行wordCount例子

    本篇先介绍HBase在伪分布式环境下的安装方式,然后将MapReduce编程和HBase结合起来使用,完成WordCount这个例子. HBase在伪分布环境下安装 一.   前提条件 已经成功地安装 ...

  7. Hadoop1 Centos伪分布式部署

    前言:       毕业两年了,之前的工作一直没有接触过大数据的东西,对hadoop等比较陌生,所以最近开始学习了.对于我这样第一次学的人,过程还是充满了很多疑惑和不解的,不过我采取的策略是还是先让环 ...

  8. [转]CentOS下安装伪分布式Hadoop-1.2.1

    From: http://blog.csdn.net/yinan9/article/details/16805275 环境:CentOS 5.10(虚拟机下) [root@localhost hado ...

  9. Ubuntu环境下手动配置ElasticSearch0.90.5

    1 下载elasticsearch-0.90.5 2 修改配置(可选) 修改内存:(可选) bin/elasticsearch.in.sh中: ES_MIN_MEM ES_MAX_MEM 修改搜索引擎 ...

随机推荐

  1. UESTC_敢说就敢做 CDOJ 631

    敢说就敢做 Time Limit: 3000/1000MS (Java/Others)     Memory Limit: 65535/65535KB (Java/Others) Submit Sta ...

  2. Find Median from Data Stream 解答

    Question Median is the middle value in an ordered integer list. If the size of the list is even, the ...

  3. poj1363

    堆栈的模拟,给定序列,1,2,3,4,...判断堆栈出栈顺序是否合法 5 //5个数入栈1 2 3 4 5 //出栈顺序5 4 1 2 3 //出栈顺序0 //5个数的结束6 //6个数的入栈6 5 ...

  4. SVN版本分支合并

    SVN,开发中常用的工具,也没什么可说的.这里只是记录一下,以免太久不用了想用的时候又忘了. 首先已经有两个目录,一个是分支目录SVNChild,一个是主干目录SVNMain.SVNChild是从SV ...

  5. JQuery 选择器 *很重要 多记

    1)基本选择器: 跟CSS选择器类似 2) 层次选择器 div>span   紧接这div同一级下的全部span .one+div     同一等级的div #two~div    同一等级di ...

  6. Hibernaate事务管理

    Hibernate使用session时需要继承HibernateDaoSupport对象 HibernateDaoSupport对象中包含默认的getSession()方法,但不可以通过该方法直接启动 ...

  7. Timer.5 - Synchronising handlers in multithreaded programs

    This tutorial demonstrates the use of the boost::asio::strand class to synchronise callback handlers ...

  8. SQLLoader3(数据文件没有分隔符时的导入)

    数据文件:D:\oracletest\ldr_tab_fiile.dat1.数据文件字段中间以制表符TAB隔开:7369 SMITH CLERK7499 ALLEN SALESMAN7521 WARD ...

  9. 前端--关于CSS文本

    文本是网页中最重要的一种内容形式,文本几乎可以写在任何地方,块级元素中可以写行内元素中也可以写.文本都是由一个个字符组成的 ,在css布局中,每一个字符都有一个em框,通常font-size设置的大小 ...

  10. 代码先行-log4Net初体验

    1.安装 从http://logging.apache.org/log4net/download_log4net.cgi下载编译好的log4Net包并解压. 找到 bin\net\4.0\releas ...