hadoop1.2.1+hbase0.90.4+nutch2.2.1+elasticsearch0.90.5配置（伪分布式）

系统:ubuntu14.04

一、hadoop安装

ssh免密码登陆详情见上一篇博客。

解压hadoop1.2.1到某个目录下，这里解压到ubuntu下载目录下（注意没必要使用管理员权限）

在hadoop1.2.1 conf目录下的core-site.xml添加一下内容：

<configuration>

    <property>

        <name>fs.default.name</name>

        <value>hdfs://localhost:9000</value>

    </property>

    <property>

        <name>hadoop.tmp.dir</name>

        <value>/home/你的用户名/下载/hadoop-1.2./hadoop_tmp</value>

    </property>

</configuration>

在hdfs-site.xml中添加一下内容：

<configuration>

    <property>

       <name>dfs.replication</name>

       <value></value>

    </property>

</configuration>

在mapre-site.xml中添加以下内容：

<configuration>

    <property>

       <name>mapred.job.tracker</name>

       <value>localhost:</value>

    </property>

</configuration>

在hadoop-env.sh中找到JAVA_HOME这一行，然后填写上你自己的java路径。

如果你已经设置好了ssh免密码登陆，那么就可以进去到hadoop目录下用bin/start-all.sh来启动伪分布式hadoop了。如果你想在任意目录下都可以使用hadoop命令则需要在/etc/profile中配置以下内容:

export HADOOP_HOME =hadoop安装路径

export PATH=在末尾添加:$HADOOP_HOME/bin

要启动hadoop，第一次先格式化namenode,命令为hadoop namenode -format

二、hbase

使用的hbase为hbase-0.90.4，同样解压到下载目录下。

然后配置conf目录下的hbase-site.xml，添加以下内容：

<configuration>

  <property>

    <name>hbase.rootdir</name>

    <value>hdfs://localhost:9000/hbase</value>

  </property>

  <property>

    <name>hbase.cluster.distributed</name>

    <value>true</value>

  </property>

  <property>

    <name>hbase.zookeeper.quorum</name>

    <value>localhost</value>

  </property>

</configuration>

同样在hbase-env.sh中找到JAVA_HOME，然后添加上自己的JAVA配置路径。

同时需要找到HBASE_MANAGES_ZK这一行，把后面的值设置为true。

接着替换jar包，使用以下命令：

rm /home/hadoop/hbase-0.90./lib/hadoop-core-0.20-append-r1056497.jar

cp /home/hadoop/hadoop-1.2./hadoop-core-1.2..jar /home/hadoop/hbase-0.90./lib

cp /home/hadoop/hadoop-1.2./lib/commons-collections-3.2..jar /home/hadoop/hbase-0.90./lib

cp /home/hadoop/hadoop-1.2./lib/commons-configuration-1.6.jar /home/hadoop/hbase-0.90./lib

路径要根据你们自己的路径来配置，主要就是把hbase中lib文件夹下的三个依赖hadoop的jar包替换为我们安装的hadoop-1.2.1的jar包。（ps：看路径最好进入到文件夹下右键用属性看具体路径）

同样在/etc/profile中需要设置一下HBASE_HOME，然后再PATH后面加上HBASE_HOME/bin。

至此，hbase配置完成，在hadoop启动的前提下，启动hbase ，命令：bin/start-hbase.sh（ps：启动hbase前必须启动hadoop，关闭hadoop前先关闭hbase，因为hbase是基于hadoop 的）

启动完成后用jps查看，如果看到的是9个进程那就对了。

三、es安装

下载es就不说了。同样在下载目录下解压，解压后就完成了安装了~~~~~就是这么简单。

不过一般需要安装head插件和其他扩展插件，可以自行百度，这里不在讲解。

进入到elasticsearch目录下，bin/elasticsearch启动es，然后用curl命令查看是否成功（没有curl命令的需要安装，sudo apt-get install curl）

curl -XGET 'localhost:9200/_cluster/health?pretty'

此条命令查看es是否成功启动，如果执行完后返回一组字符代表启动成功。

四、nutch2.2.1安装

此处可能会出比较多的问题。

下载解压后，先首先修改一个源码：

进入src/java/org/apache/nutch/crawl目录，修改GeneratorJob.java中的public Map<String,Object> run(Map<String,Object> args) 方法。

// generate batchId

 int randomSeed = Math.abs(new Random().nextInt());  

 String batchId = (curTime / 1000) + "-" + randomSeed;  

 getConf().set(BATCH_ID, batchId);  

注意放置位置。

把nutch自带的hbase-site.xml 文件替换为我们自己的hbas-site.xml文件

修改nutch-site.xml文件为：

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

    <property>

        <name>storage.data.store.class</name>

        <value>org.apache.gora.hbase.store.HBaseStore</value>

    </property>

    <property>

        <name>http.agent.name</name>

        <value>NutchCrawler</value>

    </property>

    <property>

        <name>http.robots.agents</name>

        <value>NutchCrawler,*</value>

    </property>

在ivy.xml文件中找到以下内容：

<dependency org="org.apache.gora" name="gora-hbase" rev="0.3"

conf="*->default" />

去掉注释即可
同时为了让nutch2.2.1支持es0.90.5，找到这一行：

<dependency org="org.elasticsearch" name="elasticsearch" rev="0.19.4"
conf="*->default"/>

将0.19.4修改为0.90.5

在conf目录下找到gora.properties文件，添加以下内容：

gora.datastore.default=org.apache.gora.hbase.store.HBaseStore

接下来就是ant编译了，如果没有安装ant，请先安装ant。

ant clean

ant runtime

至此，nutch安装成功，可能在ant中会报一个Failed什么错误（忘记了。。。不过具体解决办法就是进入到提示的那个源码中，把小写改为大写即可。）

注：如果要成功连接hbase，最好把/etc/hosts中的127.0.1.1改为当前电脑上网ip，或者是单独设置一个静态ip对应，因为hbase的连接是通过网络进行连接的，不管是内网还是外网。

hadoop1.2.1+hbase0.90.4+nutch2.2.1+elasticsearch0.90.5配置（伪分布式）的更多相关文章

hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5安装配置攻略
一.背景最近由于项目和论文的需要,需要搭建一个垂直搜索的环境,查阅了很多资料,决定使用Apache的一套解决方案hadoop+hbase+nutch+es.这几样神器的作用就不多作介绍了,自行参考各 ...
谁说他们版本不兼容——hadoop1.2.1+hbase0.94.11+nutch2.2.1+el
一.背景最近由于项目和论文的需要,需要搭建一个垂直搜索的环境,查阅了很多资料,决定使用Apache的一套解决方案hadoop+hbase+nutch+es.这几样神器的作用就不多作介绍了,自行参考各 ...
Ubuntu环境下Hadoop1.2.1, HBase0.94.25, nutch2.2.1各个配置文件一览
/×××××××××××××××××××××××××××××××××××××××××/ Author:xxx0624 HomePage:http://www.cnblogs.com/xxx0624/ ...
nutch-2.2.1 hadoop-1.2.1 hbase-0.92.1 集群部署
国内私募机构九鼎控股打造APP,来就送 20元现金领取地址:http://jdb.jiudingcapital.com/phone.html 内部邀请码:C8E245J (不写邀请码,没有现金送) 国 ...
伪分布式hadoop1.1.2和hbase0.94.11配置
Hadoop 1.1.2 和Hbase 0.94.11版本配置测试时ip 172.19.32.128 这个版本需要把/etc/hosts的aa-vm改成127.0.0.1,也就是和localhos ...
（四）伪分布式下jdk1.6+Hadoop1.2.1+HBase0.94+Eclipse下运行wordCount例子
本篇先介绍HBase在伪分布式环境下的安装方式,然后将MapReduce编程和HBase结合起来使用,完成WordCount这个例子. HBase在伪分布环境下安装一. 前提条件已经成功地安装 ...
Hadoop1 Centos伪分布式部署
前言: 毕业两年了,之前的工作一直没有接触过大数据的东西,对hadoop等比较陌生,所以最近开始学习了.对于我这样第一次学的人,过程还是充满了很多疑惑和不解的,不过我采取的策略是还是先让环 ...
[转]CentOS下安装伪分布式Hadoop-1.2.1
From: http://blog.csdn.net/yinan9/article/details/16805275 环境:CentOS 5.10(虚拟机下) [root@localhost hado ...
Ubuntu环境下手动配置ElasticSearch0.90.5
1 下载elasticsearch-0.90.5 2 修改配置(可选) 修改内存:(可选) bin/elasticsearch.in.sh中: ES_MIN_MEM ES_MAX_MEM 修改搜索引擎 ...

随机推荐

python高级编程编写一个包1
#目的是:编写,发行python包可重复过程"""1:是缩短开始真正工作之前所需要的设置时间,也就是提供模板2:提供编写包的标准化方法3:简化测试驱动开发方法的使用4:为 ...
mysql增量备份 percona-xtrabackup
先说下实际环境阿里云买的ESC跑的mysql服务,目前由于数据量过大,数据库目前有800多GB,每次全备需要等20多个小时才能够完成,然后就想到做增量备份,写下此文档一.测试环境 [root@lo ...
eclipse里添加类似myeclipse打开当前操作目录
1.开打eclipse ide,依次run->external tools->external tools configuration 2.在Program下,new一个自己定义的prog ...
基于阿里云server搭建SVNserver
基于阿里云server搭建SVNserver 本系列文章由ex_net(张建波)编写,转载请注明出处. http://blog.csdn.net/ex_net/article/details/8577 ...
[LeetCode] 034. Search for a Range (Medium) (C++/Java)
索引:[LeetCode] Leetcode 题解索引 (C++/Java/Python/Sql) Github: https://github.com/illuz/leetcode 035. Sea ...
ORACLE数据库常用查询二
ORACLE数据库常用查询 1.查看表空间对应数据文件情况: SQL MB,AUTOEXTENSIBLE FROM DBA_DATA_FILES; TABLESPACE_NAME FILE_NAME ...
涂抹Oracle笔记2：数据库的连接-启动-关闭
一.数据库的连接sqlplus <username>[/<password>][@<connect_idertifier>]|/[as sysdba| as sys ...
[跟我学Spring学习笔记][DI配置与使用]
DI 依赖和依赖注入定义传统的依赖一般指"类之间的关系",那先让我们复习一下类之间的关系: 泛化:表示类与类之间的继承关系.接口与接口之间的继承关系: 实现:表示类对接口的实现 ...
Js获取Gridview中Dropdownlist选中状态
在Gridview中加入Dropdownlist模板列,加入DropDownlist 是一种常用的操作,其中涉及到如何获取选择项和Gridview重新绑定两个要点. 如图前台代码如下 <%@ ...
SQL Server一些常见却不太记得住的命令
一.数据库大小查询 1. exec sp_spaceused '表名' --(SQL统计数据,大量事务操作后可能不准)2. exec sp_spaceused '表名', true ...

hadoop1.2.1+hbase0.90.4+nutch2.2.1+elasticsearch0.90.5配置（伪分布式）

hadoop1.2.1+hbase0.90.4+nutch2.2.1+elasticsearch0.90.5配置（伪分布式）的更多相关文章

随机推荐

热门专题