Ubuntu环境下Nutch+Tomcat 搭建简单的搜索引擎

简易的搜索引擎搭建

我的配置：

Nutch：1.2

Tomcat：7.0.57

1 Nutch设置

修改Nutch配置

1.1 修改conf/nutch-site.xml

 <?xml version="1.0"?>

 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

 <!-- Put site-specific property overrides in this file. -->

 <configuration>

     <!--property>

     <name>storage.data.store.class</name>

     <value>org.apache.gora.hbase.store.HBaseStore</value>

     <description>Default class for storing data</description>

     </property>

     <property>

     <name>http.agent.name</name>

     <value>xxx0624-ThinkPad-Edge</value>

     </property-->

 <property>

   <name>http.agent.name</name>

   <value>nutch1.</value>

 </property>

 <property>

   <name>plugin.folders</name>

   <value>./plugins</value>

 </property>

 </configuration>

1.2 修改conf/crawl-urlfilter.txt

 # accept hosts in MY.DOMAIN.NAME

 +^http://([a-z0-9]*\.)*sohu.com/

找到该处进行修改。我的是以sohu网为例。表示只爬取sohu.com结尾的网页。

1.3 增加文件夹

在nutch目录下mkdir一个新的文件夹名字为urls，再在里面建立一个空的txt文件名字为urls.txt。

在urls.txt中写入要爬取的网页地址：如http://www.sohu.com/

1.4 开始爬取

命令：

bin/nutch crawl urls/urls.txt -dir crawled -depth 5 -threads 5 -topN 200

crawled指爬取网页的结果的存储位置，当爬取结束时，会自动生成5个文件夹：crawldb，index，indexes，linkdb，segments

2 tomcat设置

2.1 将nutch编译后的war包放在tomcat的webapps下，再启动tomcat，再在生成的nutch1.2文件夹下修改WEB-INF/classes/nutch-sites.xml

<property>

    <name>searcher.dir</name>

    <value>/home/xxx0624/nutch-1.2/crawled</value>

</property>

这是设置抓取网页信息的文件位置

2.2 针对中文乱码修改

2.2.1 修改tomcat配置文件conf/server.xml

 <Connector port="" protocol="HTTP/1.1"

 connectionTimeout=""

 redirectPort=""

 URIEncoding="UTF-8"

 useBodyEncodingForURI="true"/>

增加其中的URIEncoding和useBodyEncodingForURI

2.2.2 修改nutch-1.2/cache.jsp

找到这一部分

 Metadata metaData = bean.getParseData(details).getContentMeta();

 ParseData ParseData = bean.getParseData(details);

   String content = null;

  // String contentType = (String) metaData.get(Metadata.CONTENT_TYPE);

 String contentType = ParseData.getMeta(Metadata.CONTENT_TYPE);

   if (contentType.startsWith("text/html")) {

     // FIXME : it's better to emit the original 'byte' sequence

     // with 'charset' set to the value of 'CharEncoding',

     // but I don't know how to emit 'byte sequence' in JSP.

     // out.getOutputStream().write(bean.getContent(details)) may work,

     // but I'm not sure.

     //String encoding = (String) metaData.get("CharEncodingForConversion");

     String encoding = ParseData.getMeta("CharEncodingForConversion");

     if (encoding != null) {

       try {

         content = new String(bean.getContent(details), encoding);

       }

       catch (UnsupportedEncodingException e) {

         // fallback to windows-1252

         content = new String(bean.getContent(details), "windows-1252");

       }

     }

     else

  content = new String(bean.getContent(details),"GBK");

       //content = new String(bean.getContent(details));

3 开始实验

重启tomcat

通过浏览器访问：http://localhost:8080/nutch-1.2

Ubuntu环境下Nutch+Tomcat 搭建简单的搜索引擎的更多相关文章

Ubuntu环境下NFS服务器搭建
看到鸟哥私房菜对NFS的介绍,就想试试玩一下.看起来步骤也很简单. 1.背景名词. NFS(Network File System) 作用:让所有的Unix-like 机器通过网络共享彼此的文件局限 ...
ubuntu环境下安装Tomcat
tomcat 是javaweb开发的本地服务器,tomcat是目前比较流行的一款. 1.下载Tomcat:http://tomcat.apache.org 2.进入下载文件夹解压Tomcat:sudo ...
Ubuntu环境下IPython的搭建和使用
1. Ubuntu操作系统版本说明:Ubuntu 12.04.3 LTS自带的Python 2.7.3版本. 2. 安装IPython 说明: 输入命令sudo apt-get install ip ...
Linux(Ubuntu)环境下使用Fiddler
自己的开发环境是Ubuntu, 对于很多优秀的软件但是又没有Linux版本这件事,还是有点遗憾的.比如最近遇到一个问题,在分析某个网站的请求路径和cookie时就遇到了问题.本来Chome浏览器自带的 ...
Tomcat：云环境下的Tomcat设计思路——Tomcat的多实例安装
Cloud现在是一个热门的技术,Tomcat是学习Java的人一般都会接触的Web服务器,如果在Cloud环境下使用Tomcat,又当如何呢?不可避免的,要安装多个Tomcat了,这里称之为Tomca ...
使用GitHub+Hexo建立个人网站，并绑定自己的域名（Ubuntu环境下）
参考链接: youngzn.github.io hexo官网博客:从jekyll到hexo hexo建站小结全过程简洁过程使用GitHub+Hexo建立个人网站,并绑 ...
JavaWeb入门——在Linux环境下安装Tomcat服务器
JavaWeb入门——在Linux环境下安装Tomcat服务器摘要:本文主要学习了如何在Linux环境下安装Tomcat服务器. 准备工作检查Java环境变量检查系统是否配置了Java的环境变量 ...
Go学习笔记(一):Ubuntu 环境下Go的安装
本文是根据<Go Web 编程>,逐步学习 Ubuntu 环境下go的安装的笔记. <Go Web 编程>的URL地址如下: https://github.com/astaxi ...
Ubuntu环境下SSH的安装及使用
Ubuntu环境下SSH的安装及使用 SSH是指Secure Shell,是一种安全的传输协议,Ubuntu客户端可以通过SSH访问远程服务器 .SSH的简介和工作机制可参看上篇文章SSH简介及工作机 ...

随机推荐

Mac支付宝插件风波
1.前言首先我喜欢看一些创业的书,很多书里都会有马云的身影,马云也算是对我有一定的影响,从而我对淘宝也产生了一定的好感.但是关于这次插件事情,我对阿里产生了一些排斥的心里作用.我并不想吐槽淘宝,也不 ...
NSS_10 EXTJS给弹出的子窗口传递参数
在桌面程序中, 如果需要弹出一个子面板, 并且需要传一些参数给子面板, 我通常的作法就是:在子面板添加对应的数据成员,然后一个构造函数来接收这些参数并赋值级数据成员. 实现起来非常方便. 但是在Ext ...
【Qt】Qt Creator快捷键【转】
简介 Qt Creator中提供了各种快捷键来加快开发进程. 如果需要查看或自定义快捷键,选择工具->选项->环境->键盘.快捷键按类别列出,可以在过滤器(Filter)处输入命令名 ...
struts2 知识梳理
写此文章时,最新struts2版本:2.3.6 一:struts.xml配置详解: 1.<include> 表示引入其他配置文件 2.<constant> 定义常量 3.< ...
关于angularJS与jquery在使用上的一些感悟
最近做的项目中,有同时用到angularJS与jquery两种JS框架. 在使用过程中发现,angularJS的用法更像是面向对象的编程模式.它会要求你定义一个view model,然后所有的页面变化 ...
IE下无法保存Cookie和Session问题
最近在做新的Web项目时,因为一个验证码无法保存在Cookie中,或者更确切地说是IE下无法保存Cookie的问题纠结了整整一天时间,考虑了多种原因,单步调试了不下三十次,也没有结果.甚至在无奈之下改 ...
Python开发【第一篇】Python基础之自定义模块和内置模块
为什么要有模块,将代码归类.模块,用一砣代码实现了某个功能的代码集合. Python中叫模块,其他语言叫类库. 类似于函数式编程和面向过程编程,函数式编程则完成一个功能,其他代码用来调用即可,提供了代 ...
利用ddmlib 实现 PC端与android手机端adb forword socket通信（转）
上篇文章讲了PC与android手机连接的办法 ,通过java调用系统命令执行adb命令操作,实际上是一个比较笨的办法. 网上查阅资料,发现google 提供了ddmlib库 (adt-bundle\ ...
再也不要说，jquery动画呆板了
1 show()方法和hide()方法 $("selector").show() 从display:none还原元素默认或已设置的display属性$("selecto ...
HTTP 错误 404.3 - Not Found
在使用win2012服务器上的IIS发布网页的时候,出现下面的错误解决办法: 将应用程序开发下的所有功能都安装. 如果上面的方法没解决问题的话,那么看看下图中的这些安装没,没有的话就继续安装.

Ubuntu环境下Nutch+Tomcat 搭建简单的搜索引擎

Ubuntu环境下Nutch+Tomcat 搭建简单的搜索引擎的更多相关文章

随机推荐

热门专题