nutch 抓取需要登录的网页

　　题记：一步一坑，且行且珍惜

　　最近接到任务，要利用nutch去抓取公司内部系统的文章，可是需要登录才能抓到。对于一个做.net，不熟悉java，不知道hadoop，很少接触linux的我，这个过程真是艰难且痛苦的，盲人摸象搬的折腾出来了,但是我对hadoop还是没了解。这个东西在网上真的很难查到，我也是自己试验，网上零碎的片段拼起来的。有些在网上可以随便找打的，我就不详细说明了，我只说明网上不好查到的内容。

　　本文是在假设你已经会简单使用nutch的条件下写的，如果需要基础配置，网上还是有较多的。

环境和软件(linux+ant+nutch)

　　step1：nutch 不支持表单登录，这个必须要对其进行二次开发。可是怎么编译是个很大的问题。我在网上看到别人写的windows+eclipse+cygwin,我自己配置了半天，但是还是没搞出来，算了，还是用linux吧，谁叫nutch就是用linux，hadoop的呢。

　　step2：去官网下载nutch-1.6-src,注意不是bin了，因为我们是要改代码的。现在nutch-2.1也出来了，但是我来之前就是用的1.6，没办法，接着做吧。

　　step3: 去官网下载ant，找个最新版本下载就可以了。这个是用来编译nutch的。我的版本是 apache-ant-1.9.4-bin.tar.gz，但是ant版本并无太大影响。

　　step4:为ant配置环境变量,这个方法在网上有很多讲解，不细说了。

二次开发nutch

　　怎么进行开发呢？由于我用eclipse没有让nutch跑起来，也不会编译，所以我采用最原始的办法，去改单个java文件，用ant去编译。

step1:怎么实现登录

　　用了一个简单粗暴的办法，在每次进行http请求时检查 cookie jar 里面存不存在cookie,不存在就读取nutch.site.xml里面我们配置的登录链接，然后把cookie存进去，不管你抓取哪个网页，不管你用没用到，反正cookie就在了。

参考地址：https://issues.apache.org/jira/browse/NUTCH-827

step2:补丁下载地址

http-client-form-authtication.patch 网盘下载地址：http://pan.baidu.com/s/1sjuek0l

nutch-http-cookies.patch 网盘下载地址：http://pan.baidu.com/s/1pJ3BDO3

step3:补丁使用方法

　　　　拿到补丁文件，感到欣喜万分，可是怎么用啊，完全不会啊。我把补丁文件研究了一下，发现了规律。除了httpBase在lib-http这个插件里面，我们其他的protocol-httpclient里面，按照补丁里面的++就是添加，--就是删除，根据上下文推出位置，新增代码或者新增类即可。注意每个版本代码已经有变化，但是找到自己决定合适的地方，总可以找到的。我用最原始的的办法，手动去修改了httpBase类和http类，按照补丁新增了几个类,这一步一定要细心，别copy错了。

+++ src/plugin/lib-http/src/java/org/apache/nutch/protocol/http/api/HttpBase.java    (working copy)

+++ src/plugin/protocol-httpclient/src/java/org/apache/nutch/protocol/httpclient/Http.java    (working copy)

step4:怎么配置登录页面的地址

　　在nutch-site.xml里面添加登录信息即可，注意虽然上面的文章，补丁上都是nutch-default.xml，但是根据nutch xml顺序，加在nutch-site.xml即可.

找到登录页面表单里的用户名，密码等，模拟登录。

注意：xml存在转义不能直接写& 要用&amp；来代替

 <property>

 <name>http.cookie.login.page</name>

  <value>www.xxx.com/login?id=xxx&amp;pas=xxx</value>

  <description>URL of the login page to derive the cookies from. Cookies

  will be stored upon initialization and re-initialized upon expiration.

  Any URL request attributes will be sent to POSTed to the page.

  NOTE: This currently only works for protocol-httpclient.</description>

</property>

ant 编译nutch

在nutch-1.6目录下运行 ant就可以直接进行编译，但是有一些问题需要注意。

问题一：jsoup.jar不存在

　　由于我们修改的文件用引入了这个包，所以我们需要在工程中引入这个包，要修改ivysetting.xml和plugin.xml，具体方法谷歌（add third part dependency to you nutch plugin），我的搜索不了，以后再更新。

问题二：运行到此处没反应的，需要等待几分钟

resolve-default:

[ivy:resolve] :: Ivy 2.2. -  :: http://ant.apache.org/ivy/ ::

[ivy:resolve] :: loading settings :: file = /home/shaozt/softIns/CrawSource/apache-nutch-2.1/ivy/ivysettings.xml

问题三:connection time out

　　此问题的原因是http://repo1.maven.org/maven2/不存在，解决方案是寻找能使用的资源库URL。经过测试http://mirrors.ibiblio.org/maven2/在浏览器下可以正常访问，用此URL替换\ivy目录下ivysettings.xml中的http://repo1.maven.org/maven2/，可以正常下载所依赖的jar包，编译成功。

问题四：是否需要代理

　　如果你使用的是代理，而问题三改后任然timeout ,需要为ant配置代理,格式如下。网上的什么set感觉没有用。

export ANT_OPTS="-Dhttp.proxyHost=XXX -Dhttp.proxyPort=XX"

//如果需要用户名和密码，需要后面添加
export ANT_OPTS="-Dhttp.proxyHost=代理服务器地址 -Dhttp.proxyPort=代理服务器端口 -Dhttp.proxyUserName=用户名 -Dhttp.proxyPassword=密码"

nutch使用注意：二次开发的是protocol-httpclient，在nutch-site.xml 把protocol-http 插件换成protocol-httpclient

最重要的几点我都已经说明了，我相信会对需要的人有很大的帮助。不过这个插件二次开发还是不太完善，补丁包里面也有很多不用的代码，但是至少功能实现了。后面还面临更大的挑战，主页可不可以不要全部用js生成，还让人怎么活啊！

（原创）博客园轻狂书生http://www.cnblogs.com/xiaoshuai1992/p/nutchlogin.html，转载请注明出处！

nutch 抓取需要登录的网页的更多相关文章

Nutch抓取流程
nutch抓取流程注入起始url(inject).生成爬取列表(generate).爬取(fetch).解析网页内容(parse).更新url数据库(updatedb)1:注入起始url(inject ...
Fiddler: 如何抓取HTTPS协议的网页
作者:韦玮转载请注明出处 Fiddler默认只能抓取HTTP协议的网页,不能抓取HTTPS协议的网页,而我们很多时候,都需要抓HTTPS协议的网页,比如抓淘宝数据等.今天,韦玮老师会为大家讲解如何 ...
Fiddler如何抓取HTTPS协议的网页
Fiddler默认只能抓取HTTP协议的网页,不能抓取HTTPS协议的网页,而我们很多时候,都需要抓HTTPS协议的网页,比如抓淘宝数据等.今天,韦玮老师会为大家讲解如何使用Fiddler抓取HTTP ...
如何让Python爬虫一天抓取100万张网页
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 王平源自:猿人学Python PS:如有需要Python学习资料的 ...
java抓取动态生成的网页
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到).刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架 ...
C# asp.net 抓取需要登录的网页内容抓取asp.net登录验证的网站
private void btnASPNET_Click(object sender, EventArgs e) { Dictionary<string, s ...
网页抓取：PHP实现网页爬虫方式小结
来源:http://www.ido321.com/1158.html 抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐.LZ总结了几种常用的.易于实现 ...
python3下scrapy爬虫(第二卷:初步抓取网页内容之直接抓取网页）
上一卷中介绍了安装过程,现在我们开始使用这个神奇的框架跟很多博主一样我也先选择一个非常好爬取的网站作为最初案例,那么我先用屌丝必备网站http://www.shaimn.com/xinggan/作为 ...
[转]抓取当前登录用户登录密码的工具：mimipenguin
Github项目地址前有Mimikatz,今有mimipenguin,近日国外安全研究员huntergregal发布了工具mimipenguin,一款Linux下的密码抓取神器,可以说弥补了Linu ...

随机推荐

使用snmp4j实现Snmp功能（一）
相关链接:Snmp学习笔记使用snmp4j实现Snmp功能(一)使用snmp4j实现Snmp功能(二)使用snmp4j实现Snmp功能(三) 上一篇文章讲了Snmp的一些基本概念(Snmp学习笔记), ...
注册google账号时出现手机号的问题
注册谷歌账号时出现此电话号码无法用于进行验证这主要是86和手机号之间有一个空格造成的,把这个空格删除就可以了
bzoj 4069 [Apio2015]巴厘岛的雕塑 dp
[Apio2015]巴厘岛的雕塑 Time Limit: 10 Sec Memory Limit: 64 MBSubmit: 494 Solved: 238[Submit][Status][Dis ...
eclipse常见问题解决方案
1.maven项目,启动报错ClassNotFoundException,原因是tomcat下\WEB-INF\classes目录中,java文件没有编译成class文件.解决方法: 在\WEB-IN ...
痛苦之旅——安装Eric4
因为想做桌面程序,所以在学PyQt4, 顺便装了下Eric4,这Eric4装起来可不简单,活活花了一个星期..... 网上有很多装Eric4的教程,详细我就不说了,大概步骤是: 1.安装SIP (需要 ...
(转) jsp学习笔记
fromhttp://www.cnblogs.com/tao975/p/4445070.html 什么是JSP JSP的优势 JSP的劣势 JSP与PHP的比较 JSP工作原理 JSP的九大内置对象 ...
2015/8/9 到家了，学完了CodeCademy的Python
昨天坐了20多个小时的硬座回家.发现在网络信号差的火车上也是学习的好地方.如果你的手机电量不足的话,带上两本书简直是绝配.我在火车上阅读了两百多页的内容,并没有多大的疲累,那样无聊的环境里面能看书学习 ...
python实现堆栈、队列
一.利用python列表实现堆栈和队列堆栈: 堆栈是一个后进先出的数据结构,其工作方式就像生活中常见到的直梯,先进去的人肯定是最后出. 我们可以设置一个类,用列表来存放栈中的元素的信息,利用列表的a ...
Maven-Standard Directory Layout
顶层工程描述文件: pom.xml. 此外, 还有一些供用户阅读以快速理解工程的文本性文档, 如: readme.txt, license.txt,等. 该结构下只有2个子目录, src和target ...
【BZOJ】1188 [HNOI2007]分裂游戏
[算法]博弈论 [题解] 我们的目的是把游戏拆分成互不影响的子游戏,考虑游戏内的转移. 如果把每堆视为子游戏,游戏之间会相互影响,不成立. 将每堆的一个石子视为子游戏,其产生的石子都在同一个子游戏中. ...

nutch 抓取需要登录的网页

nutch 抓取需要登录的网页的更多相关文章

随机推荐

热门专题