酒店评论情感分析系统(二)——Nutch安装

一、需求部分

  1. Nutch是Java开发的所以需要下载Java JDK。

下载地址http://java.sun.com/javase/downloads/index.jsp

2. Nutch的演示搜索页面是Jsp的,需要Tomcat做服务器。                                                

下载地址:http://jakarta.apache.org/tomcat/

3. Nutch的脚本都是用Linux的Shell写的,所以在Windows平台需要一个Shell解释程序。Cygwin是一个在Windows下的模拟Linux系统程序。(注Linux下不需要下载此程序)

下载地址:http://www.cygwin.com/

4. Nutch下载地址:http://lucene.apache.org/nutch/

二、环境

  1. 操作系统:windows7,X86,32位
  2. Java JDK1.6
  3. Tomcat 7.0
  4. Cygwin2.850
  5. Nutch1.7

三、安装步骤

1.  Java JDK安装

注意:路径名称不要带中文,建议所选择的路径不要有空格,我第一次选择的路径带有空格C:\Program Files,执行crawl命令的时候产生了错误:

提示找不到C:\Program目录,出现这个问题的原因是因为:C:\Program Files\ 中间有一个空格,这样导致进入不到Program Files ,而只能进入Program中,但是C盘中没有Program文件夹。

安装完成后设置环境变量,win7下设置环境变量和XP不同,在系统变量或者用户变量都行。假定你的jdk安装在c:\jdk1.6,则做如下配置:

JAVA_HOME=c:\jdk1.6

classpath=. ;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;(.;一定不能少,因为它代表当前路径)

path=%JAVA_HOME%\bin

变量安装完成后,在运行里输入“cmd”打开命令行,分别输入“java”,“java –version”若显示具体信息而没有报错,则安装成功,如下图:
如果没有打印出这句话,你需要仔细检查一下你的配置情况。

2.  Tomcat免安装

这里需要注意一个问题:

你需要下载与JDK相配的Tomcat的版本,如下图:

我的jdk版本是1.6,然后之前装Tomcat8.0的时候,配置完路径,点startup.bat的时候出现闪退现象。

将Tomcat解压缩在没有中文的目录下,设置环境变量:

(1)  变量名: TOMCAT_HOME   变量值:

H:\tomcat7.0(Tomcat解压到的目录)

(2)  变量名: CATALINA_HOME   变量值:

H:\tomcat7.0

(3)修改变量: Path          变量值:

在末尾添加如下内容 ;%CATALINA_HOME%\bin;%CATALINA_HOME%\lib

运行Tomcat7.0,“开始”->“运行”->输入cmd,进入如下路径

在命令提示符中输入 startup.bat,之后会弹出tomcat命令框,输出启动日志;

然后打开浏览器输入http://localhost:8080/ ,如果进入tomcat欢迎界面,那么恭喜你,配置成功。

Tomcat的运行和停止的文件分别是startup.bat和shutdown.bat。

3.  Cygwin安装

运行安装程序后出现如下图:

可以随便选择一个网址:

这一步,我们选择需要下载安装的组件包,为了使我们安装的Cygwin能够编译程序,我们需要安装gcc编译器,默认情况下,gcc并不会被安装,我们需要选中它来安装。为了安装gcc,我们用鼠标点开 组件列表中的“Devel”分支,在该分支下,有很多组件,我们必须的是:

binutils gcc 、gcc-mingw  、gdb

Binutils组件:

Gcc组件:

Gdb组件:

Gcc-mingw组件:

选完之后,选择下一步:

安装的时间依据你选择的组件以及网络情况而定。

4.  Nutch安装

Nutch是一个Java实现的web爬虫,爬取的结果存储到database(指定文件路径下的一系列文件及目录)供Solr或Lucene索引和检索。

常见搜索相关的框架的基本功能列表:

爬取

索引

检索

Nutch

Solr

Lucene

下载安装apache-nutch-1.7-bin.zip并设置。下载地址:http://archive.apache.org/dist/nutch/

下载完成后解压缩Nutch二进制分发包,(我解压缩在:H:\nutch\nutch1.7)目录如下:

l  bin目录,只包含一个可执行文件nutch

l  conf目录,nutch命令执行的配置参数

l  docs目录,JavaDoc帮助

l  lib目录,相关Jar类库

l  plugins目录,相关插件库

设置环境变量:

变量名 NUTCH_JAVA_HOME

变量值 %JAVA_HOME% 【其值设为JDK的安装目录】

运行Cygwin,进入到nutch1.7所在的解压缩路径下,在输入bin/nutch,如图:

Nutch安装成功。

(2.1)windows下Nutch1.7的安装的更多相关文章

  1. 2分钟 windows下sublime text 3安装git插件:

    12:35 2015/11/182分钟 windows下sublime text 3安装git插件:推荐博客:http://blog.csdn.net/naola2001/article/detail ...

  2. 纯windows下制作变色龙引导安装U盘教程

    原创教程:纯windows下制作变色龙引导安装U盘教程 支持Mavericks和Yosemite 支持白苹果 目标:windows下制作带 Chamelon变色龙引导的黑苹果安装U盘,支持PC机引导安 ...

  3. Windows下Oracle 11g的安装

    Windows下Oracle 11g的安装 Windows下Oracle 11g的安装: Windows:64位, Oracle 11g版本:win64_11gR2_database_1of2(安装包 ...

  4. windows下,下载pip安装

    windows下,下载pip安装 https://pypi.python.org/pypi/pip#downloads 找到source那个压缩文件,下载下来解压. 参考: windows下面安装Py ...

  5. Lua在Windows下的配置、安装、运行

    Windows下安装.运行Lua! 本文提供全流程,中文翻译.Chinar坚持将简单的生活方式,带给世人!(拥有更好的阅读体验 -- 高分辨率用户请根据需求调整网页缩放比例) 1↓ 进入Lua官网:h ...

  6. Windows下openssl的下载安装和使用

    Windows下openssl的下载安装和使用 安装openssl有两种方式,第一种直接下载安装包,装上就可运行:第二种可以自己下载源码,自己编译.下面对两种方式均进行详细描述. 一.下载和安装ope ...

  7. Windows下Apache2.2+PHP5安装步骤

    Windows下Apache2.2+PHP5安装 初学者在学习PHP的时候可能都会遇到安装Apache和PHP不成功的问题,于是很多开发者便选择了集成包,一键安装好Apache+PHP+MySQL.但 ...

  8. python学习:Windows 下 Python easy_install 的安装

    Windows 下 Python easy_install 的安装     下载安装python安装工具下载地址:http://pypi.python.org/pypi/setuptools 可以找到 ...

  9. Windows下的Linux子系统安装,WSL 2下配置docker

    Windows下的Linux子系统安装,WSL 2下配置docker 前提条件: 安装WSL 2需要Windows 10版本是Build 18917或更高,首先先确认系统版本已升级. 在“启用或关闭W ...

随机推荐

  1. 使用qemu-img创建虚拟磁盘文件

    # 安装qemu-img yum install -y qemu-img   # 获取帮助 qemu-img --help   # 支持的虚拟磁盘文件格式 Supported formats: vvf ...

  2. 【转】Linux C 网络编程——TCP套接口编程

    地址:http://blog.csdn.net/matrix_laboratory/article/details/13669211 2. socket() <span style=" ...

  3. 剖析Vue原理&实现双向绑定MVVM-1

    本文能帮你做什么?1.了解vue的双向数据绑定原理以及核心代码模块2.缓解好奇心的同时了解如何实现双向绑定为了便于说明原理与实现,本文相关代码主要摘自vue源码, 并进行了简化改造,相对较简陋,并未考 ...

  4. Binlog的三种模式

    binlog模式分三种(row,statement,mixed) 1.Row 日志中会记录成每一行数据被修改的形式,然后在slave端再对相同的数据进行修改,只记录要修改的数据,只有value,不会有 ...

  5. spring 整合 struts2 + Hibernate application配置文件(基于注解)

    下面是 application.xml 文件. <?xml version="1.0" encoding="UTF-8"?> <beans x ...

  6. Ubuntu的IP地址配置

    概况和需求: 我的主机上有两块网卡,识别后分别是eth0和eth1.eth0配置需要为静态ip,eth1配置为使用动态主机协议获取ip地址. 步骤: 首先碰到的一个问题就是不知道eth0和eth1对应 ...

  7. AtCoder Grand Contest 019 B: Reverse and Compare

    题意: 给出一个字符串,你可以选择一个长度大于等于1的子串进行翻转,也可以什么都不做.只能翻转最多一次. 问所有不同的操作方式得到的字符串中有多少个是本质不同的. 分析 tourist的题妙妙啊. 首 ...

  8. CODE FESTIVAL 2016 qualA Grid and Integers

    划年代久远的水 题意 有一个R*C的棋盘,要求在每个格子上填一个非负数,使得对任意一个2*2的正方形区域,左上角和右下角的数字之和等于左下角和右上角的数字之和.有一些格子已经被填上了数字,问现在能否满 ...

  9. 【bzoj4425】[Nwerc2015]Assigning Workstations分配工作站 贪心+堆

    题目描述 佩内洛普是新建立的超级计算机的管理员中的一员. 她的工作是分配工作站给到这里来运行他们的计算研究任务的研究人员. 佩内洛普非常懒惰,不喜欢为到达的研究者们解锁机器. 她可以从在她的办公桌远程 ...

  10. Jmeter远程启动负载机

    1.负载机下载Jmeter,设置环境变量,jmeter中进行启动jmeter-server的应用服务.环境变量设置如下: 变量名:JMETER_HOME 变量值:C:\Program Files\ap ...