Nutch1.2 的安装与使用
Nutch1.2的安装与使用
1、nutch1.2下载
下载地址
http://archive.apache.org/dist/nutch/
2、nutch1.2目录
bin:用于命令行运行的文件;
conf:Nutch的配置文件;
lib:一些运行所需要的jar文件;
plugins:存放相应的插件;
src:Nutch的所有源文件;
webapps:web运行相关文件;
nutch-1.2.war:war是Nutch所提供的基于Tomcat的应用程序包;
3、nutch工作流程
1、将起始URL集合注入到Nutch系统之中。
2、生成片段文件,其中包括了将要抓取的URL地址。
3、根据URL地址在互联网上抓取相应的内容。
4、解析所抓取的网页,并分析其中的文本和数据。
5、根据新抓取的网页中的URL集合来更新起始URL集合,并再次进行抓取。
6. 同时,对抓取到的网页内容建立索引,生成索引文件存放在系统之中。
4、ubuntu搭建nutch1.2环境
所用软件: jdk-6u24-linux-i586.bin
apache-tomcat-7.0.27.tar.gz
apache-nutch-1.2-bin.tar.gz
5、ubuntu搭建nutch1.2环境
Jdk+tomcat+nutch安装可以参考下面地址,这里不在叙述。
http://blog.csdn.net/baolibin528/article/details/39207541
6、使用Nutch1.2抓取数据
1、在nutch-1.2目录下新建一个 weburls.txt 文本文件,在里面输入要抓取的网页地址
这里抓取的是淘宝的网站。
2、修改crawl-utlfilter.txt中参数
进入 nutch-1.2/conf/crawl-urlfilter.txt
MY.DOMAIN.NAME 改为 taobao.com
改为:
3、修改 nutch-1.2/conf/nutch-site.xml文件
在这里面,设置了三个参数name、version、url。
4、运行网络蜘蛛,抓取网页
进入nutch-1.2目录运行命令:
bin/nutch crawl weburls.txt -dir localweb -depth 2 -topN 100 -threads 2
-dir = localweb 指明下载数据存放路径,该目录不存在时,会被自动创建
-deptch = 2 下载深度为2
-topN = 100 下载符合条件的前100个页面
启动的线程数目
蜘蛛运行时会输出大量数据,抓取结束之后,可以发现localweb目录被生成,里面有几个目录。
、、、、、、
5、nutch-1.2/localweb下生产的五个文件夹
爬行结果目录含有crawldb,index,indexes,linkdb,segment文件夹
Nutch的数据文件
crawldb:爬行数据库,用来存储所要爬行的网址
linkdb: 链接数据库,用来存储每个网址的链接地址,包括源地址和链接地址
segments: 抓取的网址被作为一个单元,而一个segment就是一个单元。一个segment包括以下子目录:
crawl_generate: 包含所抓取的网址列表
crawl_fetch: 包含每个抓取页面的状态
content: 包含每个抓取页面的内容
parse_text: 包含每个抓取页面的解析文本
parse_data: 包含每个页面的外部链接和元数据
crawl_parse: 包含网址的外部链接地址,用于更新crawldb数据库
indexes: 采用Lucene的格式建立索引集
index:最终生成的目录
6、在tomcat中部署nutch 项目,把nutch根目录下的nutch-1.2.war拷贝到tomcat下webapps中,稍会tomcat会对其自动解压
7、修改tomcat/webapps/nutch-1.2/WEB-INF/classes/nutch-site.xml 文件
8、修改tomcat目录下的server.xml文件
9、重启tomcat,在地址栏输入: localhost:8080/nutch-1.2
10、输入 教育,显示如下
再测试一个,输入 要啥自行车,显示如下:
至此,jdk1.6+tomcat7+nutch1.2安装配置完毕。
Nutch1.2 的安装与使用的更多相关文章
- (2.1)windows下Nutch1.7的安装
酒店评论情感分析系统(二)——Nutch安装 一.需求部分 Nutch是Java开发的所以需要下载Java JDK. 下载地址http://java.sun.com/javase/downloads/ ...
- 利用Lucene与Nutch构建简单的全文搜索引擎
文章地址 1.简介 本次实现分为两个部分,第一个部分是利用Lucene构建一个全文的搜索引擎,另外一部分则是利用Nutch实现同样的功能.由于Lucene并不是一个可以直接运行的程序,且不具备爬虫和文 ...
- Ubuntu下Nutch1.2的使用
aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAAAeMAAABpCAIAAACGSdxlAAAAA3NCSVQICAjb4U/gAAAgAElEQVR4Xu ...
- Netbeans导入Nutch1.2
Windows 环境下,Netbeans下导入Nutch1.2. 测试环境: Nutch 1.2 Netbean7.4 Java 1.8.0_20 cygwin 安装步骤: 1.安装: ...
- nutch1.4 在windows下面提示 java.io.IOException: CreateProcess error=2, ϵͳÕҲ»µ½ָ¶
eclipse运行nutch1.4在window下面提示异常解决 需要安装cynwin,被设置环境变量 1:安装cygwin 注:在选择要安装的软件包的时候我选择了在All这一行上后面的Default ...
- apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程
1 软件环境: VMware8.0 Ubuntu-12.10-desktop-i386 jdk-7u40-linux-i586.tar.gz hadoop-1.2.1.tar.gz eclipse-d ...
- Nutch之简介与安装
初学Nutch之简介与安装 初学Nutch之简介与安装 1.Nutch简介 Nutch是一个由Java实 现的,开放源代码(open-source)的web搜索引擎.主要用于收集网页数据,然后对其 ...
- 【Apache KafKa系列之一】KafKa安装部署
kafka是一种高吞吐量的分布式发布订阅消息系统,她有如下特性: 通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能. 高吞吐量:即使是非常普通的 ...
- 基于nutch-1.2实现本地搜索引擎
声明:本博文参考了很多资料,主要来自http://blog.csdn.net/jiutao_tang/article/details/6461884/,http://www.cnblogs.com/x ...
随机推荐
- hdu 5326(基础题) work
http://acm.hdu.edu.cn/showproblem.php?pid=5326 一道水题,题目大意是在公司里,给出n个员工和目标人数m,然后下面的n-1行是表示员工a管理b,问在这些员工 ...
- iOS.Operation-on-ZipFile
Operation on ZipFile Reference 在Mac OS X和iOS中操作.zip文件(例如创建zip文件, 从zip文件中抽取数据): 1. http://stackoverfl ...
- Ubuntu12.04下Qt连接MySQL数据库
本文介绍在Ubuntu12.04 (64 bit) 下使用Qt 4.8.2连接MySQL(Ver 14.14 Distrib 5.5.43)数据库. 1.安装 Qt 和 MySQL 若未安装以上软件, ...
- 在 Ubuntu 上使用微信客户端
原文地址: http://www.myzaker.com/article/5979115d1bc8e08c30000071/ 在这个快速信息交互时代,无论是工作还是生活,都需要频繁的网络社交,而在中国 ...
- Mockplus3.5.0.1新增标注功能
Mockplus3.5.0.1版本中,新增了标注功能.多种标注模式,智能生成,随时查看.原型设计效率更高. Mockplus的标注功能有以下四种模式: 1.无选中标注 在未选中任何组件时,按住Ctrl ...
- gunicorn配置文件
最近使用gunicorn部署,感觉用命令参数方式启动比较繁琐,而且有时候就忘了以前怎么设置的了.一笑... 上stackoverflow查了查,找到了一个官方示例,在这里. 官方解释在这里. 记在这里 ...
- hibernate项目
http://blog.csdn.net/wzygis/article/details/22985751
- css过渡动画
具体代码:1.水平翻转-moz-transform:scale(-1,1);-webkit-transform:scale(-1,1);-o-transform:scale(-1,1);transfo ...
- mysql之表与表关联和表操作
一 表于表之间的关联 foregin key:设置外键表于表之间建立关联. 多对一关联: 创建步骤,应该先创建好被关联的那一张表,然后再去创建关联的那一张表. 关联表的多条对应着被关联的那张表的一条记 ...
- Python脚本语言第一行的写法
脚本语言的第一行,目的就是指出,你想要你的这个文件中的代码用什么可执行程序去运行它,就这么简单 #!/usr/bin/python是告诉操作系统执行这个脚本的时候,调用/usr/bin下的python ...