crawler4j 学习（一）

crawler4j是一个轻量级多线程网络爬虫，开发者可以调用相应的接口在短时间内创建一个多线程网络爬虫。

前期准备

使用maven

为了使用最近版本的crawler4j，请将下面的片段添加到你的pom.xml文件中。

<dependency>

    <groupId>edu.uci.ics</groupId>

    <artifactId>crawler4j</artifactId>

    <version>4.1</version>

</dependency>

不没有maven项目

crawler4j JARs 可以在发行的版本页面和Maven Central（应该是maven中心）找到。

如果你没有maven项目却想使用crawler4j，注意crawler4j jar文件有几个外部的依赖。在最近的版本中，你可以发现一个命名为crawler4j-X Y -with-dependencies.jar包含了所有的依赖的捆绑。你可以下载下来并且将它添加到你的classpath下获得所有的依赖。

过程

使用crawler4j需要创建一个继承Web Crawler的爬虫类。

public class MyCrawler extends WebCrawler {

    private final static Pattern FILTERS = Pattern.compile(".*(\\.(css|js|gif|jpg"

                                                           + "|png|mp3|mp3|zip|gz))$");

    /**

     * 这个方法有两个参数。第一个参数是我们发现的新的URL的页面并且第二个参数是新的URL。
　　　*　你应该实现这个方法去指定这个被给的URL是不是应该去爬取。在这个例子中，我们指导
　　　*  爬虫去忽视有CSS，JS，git等的URL并且知识获得了以“http://www.ics.uci.edu/”
     *  开头的URL。在这种情况下，我们不需要用参考页面这个参数来做决定。

     */

     @Override

     public boolean shouldVisit(Page referringPage, WebURL url) {

         String href = url.getURL().toLowerCase();

         return !FILTERS.matcher(href).matches()

                && href.startsWith("http://www.ics.uci.edu/");

     }

     /**

      *  这个功能是抓取准备被你的项目处理的页面

      */

     @Override

     public void visit(Page page) {

         String url = page.getWebURL().getURL();

         System.out.println("URL: " + url);

         if (page.getParseData() instanceof HtmlParseData) {

             HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();

             String text = htmlParseData.getText();

             String html = htmlParseData.getHtml();

             Set<WebURL> links = htmlParseData.getOutgoingUrls();

             System.out.println("Text length: " + text.length());

             System.out.println("Html length: " + html.length());

             System.out.println("Number of outgoing links: " + links.size());

         }

    }

}

上面的例子覆盖了两个主要方法：

shouldVisit：这个方法决定了要抓取的URL及其内容，例子中只允许抓取“www.ics.uci.edu”这个域的页面，不允许.css、.js和多媒体等文件。
visit：当URL下载完成会调用这个方法。你可以轻松获取下载页面的url, 文本, 链接, html,和唯一id等内容。

补充：

search engines

参考页面：http://www.cnblogs.com/s1-myblog/p/6197426.html

crawler4j 学习的更多相关文章

crawler4j 学习（二）
crawler4j 学习(二) 实现控制器类以制定抓取的种子(seed).中间数据存储的文件夹.并发线程的数目: public class Controller { public static voi ...
Crawler4j学习笔记
Crawler4j概述 crawler4j是一款基于Java的轻量级单机开源爬虫框架,最大的一个特点就是简单.另外也支持多线程.支持代理.可以过滤重复URL 基本上从加载jar到工程里面通过修改示例 ...
龙威零式_团队项目例会记录_18 (Beta架构讨论)
例会照片任务更新姓名今日完成任务实际花费时间明日任务预计花费时间谢振威继续构思beta版本架构并且输出文档 2h #40数据库模块接口定义 2h 杨金键继续构思beta版本架构并且输 ...
crawler4j源码学习(2)：Ziroom租房网房源信息采集爬虫
crawler4j是用Java实现的开源网络爬虫.提供了简单易用的接口,可以在几分钟内创建一个多线程网络爬虫.下面实例结合jsoup解析网页,javacsv存储采集数据:采集自如ziroom租房网(h ...
crawler4j源码学习(1)：搜狐新闻网新闻标题采集爬虫
crawler4j是用Java实现的开源网络爬虫.提供了简单易用的接口,可以在几分钟内创建一个多线程网络爬虫.下面实例结合jsoup,采集搜狐新闻网(http://news.sohu.com/)新闻标 ...
Python学习日记（一）：拜见小主——Python
近日学习Python,特将学习过程及一点心得记录于此. 由于之前做过一个Java爬虫的项目,虽然很长时间没有碰过爬虫,但是小郭同学有一颗不死的爬虫心,哈哈.最近在互联网上找一些电影的时候,有很多电影只 ...
java爬虫框架webmagic学习（一）
1. 爬虫的分类:分布式和单机分布式主要就是apache的nutch框架,java实现,依赖hadoop运行,学习难度高,一般只用来做搜索引擎开发. java单机的框架有:webmagic和webc ...
JAVA学习资源整理
构建这里搜集了用来构建应用程序的工具. Apache Maven:Maven使用声明进行构建并进行依赖管理,偏向于使用约定而不是配置进行构建.Maven优于Apache Ant.后者采用了一种过程化 ...
Java开源爬虫框架crawler4j
花了两个小时把Java开源爬虫框架crawler4j文档翻译了一下,因为这几天一直在学习Java爬虫方面的知识,今天上课时突然感觉全英文可能会阻碍很多人学习的动力,刚好自己又正在接触这个爬虫框架,所以 ...

随机推荐

[Maven] 变态问题收集
1.新换的系统,eclipse运行起来之后,一直报错Missing artifact 折腾了好久,没法了,把服务器上的仓库直接压缩,传到本地计算机上,覆盖本地仓库,完美解决这个问题! 2.tomcat ...
如何删除xcode项目中不再使用的图片资源
1. 利用工具下载地址 http://jeffhodnett.github.io/Unused/ 运行效果如下 2. 通过终端执行 shell 命令 a. 第一步建立.sh 文件如 ...
windows 10卸载自带软件
http://jingyan.baidu.com/article/14bd256e4ad268bb6c26126d.html http://jingyan.baidu.com/album/ae97a6 ...
UGUI
http://www.2fz1.com/post/unity-ugui-recttransform/ //this.transform.position 获取的是世界坐标,而 this.transfo ...
Linux入门50指令
1, mkdir创建目录 make directory 可以带着路径,在什么位置创建什么目录如:mkdir /etc/date 在目录etc下创建date目录重要参数 –p 递归创建,mkdir ...
【转~】初识贝塞尔曲线（Bézier curve）
本文图文大多转自http://www.html-js.com/article/1628 QAQ我居然去扒维基,,,看不懂啊,,,我要去补数学,,, 在做变形小鸡的时候用到CSS3 transition ...
[Python & Machine Learning] 学习笔记之scikit-learn机器学习库
1. scikit-learn介绍 scikit-learn是Python的一个开源机器学习模块,它建立在NumPy,SciPy和matplotlib模块之上.值得一提的是,scikit-learn最 ...
JAVA的i++, i+=1, i=i+1有区别吗？
看一些JAVA基础题的时候,经常看到这个问题,很多人的解释是:i++最快,i+=1其次,i=i+1最慢.下面通过Sun JDK编译出来的字节码验证一下这个问题. 为了让编译出来的字节码便于阅读,将这三 ...
HDU 3333 | Codeforces 703D 树状数组、离散化
HDU 3333:http://acm.hdu.edu.cn/showproblem.php?pid=3333 这两个题是类似的,都是离线处理查询,对每次查询的区间的右端点进行排序.这里我们需要离散化 ...
第七届山东省ACM省赛
激动人心的省赛终于结束了…平静下来再回头看真的感觉一波三折…先是赛前毫无预兆的查出突发性耳聋…伴随而来的就是左耳听力下降.轻微耳鸣.极个别情况下的头晕…不过这都还好,毕竟药物可以恢复…热身赛只过了一道 ...

crawler4j 学习

crawler4j 学习（一）

crawler4j 学习的更多相关文章

随机推荐

热门专题