crawler4j：轻量级多线程网络爬虫实例

crawler4j是Java实现的开源网络爬虫。提供了简单易用的接口，可以在几分钟内创建一个多线程网络爬虫。

下面实例结合jsoup(中文版API)，javacvs 爬取自如租房网（http://sh.ziroom.com/z/nl/）租房信息。

1.maven导入相关包

         <dependency>

             <groupId>edu.uci.ics</groupId>

             <artifactId>crawler4j</artifactId>

             <version>4.2</version>

         </dependency>

         <dependency>

             <groupId>org.jsoup</groupId>

             <artifactId>jsoup</artifactId>

             <version>1.8.3</version>

         </dependency>

         <dependency>

             <groupId>net.sourceforge.javacsv</groupId>

             <artifactId>javacsv</artifactId>

             <version>2.0</version>

         </dependency>

2.创建自己的Crawler类继承 WebCrawler

 public class ZiroomCrawler extends WebCrawler {

     /** 爬取数据保存文件路径 */

     private final static String CSV_PATH = "data/crawl/ziroom.csv";

     /** 爬取匹配原则 */

     private final static Pattern FILTERS = Pattern.compile(".*(\\.(css|js|bmp|gif|jpe?g|ico"

             + "|png|tiff?|mid|mp2|mp3|mp4" + "|wav|avi|mov|mpeg|ram|m4v|pdf" + "|rm|smil|wmv|swf|wma|zip|rar|gz))$");

     /** 爬取link文件路径 */

     private final static String LINK_PATH = "data/crawl/link.csv";

     private static final Logger logger = LoggerFactory.getLogger(ZiroomCrawler.class);

     private final static String URL_PREFIX = "http://sh.ziroom.com/z/nl/";

     private final File csv;

     private final File csv2;

     private CsvWriter cw;

     private CsvWriter cw2;

     /**

      * You should implement this function to specify whether the given url

      * should be crawled or not (based on your crawling logic).

      */

     CrawlStat myCrawlStat;

     public ZiroomCrawler() throws IOException {

         myCrawlStat = new CrawlStat();

         csv = new File(CSV_PATH);

         csv2 = new File(LINK_PATH);

         if (csv.isFile()) {

             csv.delete();

         }

         if (csv2.isFile()) {

             csv2.delete();

         }

         cw2 = new CsvWriter(new FileWriter(csv2, true), ',');

         cw2.write("请求路径");

         cw2.endRecord();

         cw2.close();

         cw = new CsvWriter(new FileWriter(csv, true), ',');

         cw.write("图片");

         cw.write("价格");

         cw.write("地址");

         cw.write("说明");

         cw.endRecord();

         cw.close();

     }

     public void dumpMyData() {

         final int id = getMyId();

         // You can configure the log to output to file

         logger.info("Crawler {} > Processed Pages: {}", id, myCrawlStat.getTotalProcessedPages());

         logger.info("Crawler {} > Total Links Found: {}", id, myCrawlStat.getTotalLinks());

         logger.info("Crawler {} > Total Text Size: {}", id, myCrawlStat.getTotalTextSize());

     }

     @Override

     public Object getMyLocalData() {

         return myCrawlStat;

     }

     @Override

     public void onBeforeExit() {

         dumpMyData();

     }

     /*

      * 这个方法决定了要抓取的URL及其内容，例子中只允许抓取“http://sh.ziroom.com/z/nl/”这个域的页面,

      * 不允许.css、.js和多媒体等文件

      *

      * @see edu.uci.ics.crawler4j.crawler.WebCrawler#shouldVisit(edu.uci.ics.

      * crawler4j.crawler.Page, edu.uci.ics.crawler4j.url.WebURL)

      */

     @Override

     public boolean shouldVisit(Page referringPage, WebURL url) {

         final String href = url.getURL().toLowerCase();

         if (FILTERS.matcher(href).matches() || !href.startsWith(URL_PREFIX)) {

             return false;

         }

         return true;

     }

     /*

      * 当URL下载完成会调用这个方法。你可以轻松获取下载页面的url, 文本, 链接, html,和唯一id等内容。

      *

      * @see

      * edu.uci.ics.crawler4j.crawler.WebCrawler#visit(edu.uci.ics.crawler4j.

      * crawler.Page)

      */

     @Override

     public void visit(Page page) {

         final String url = page.getWebURL().getURL();

         System.out.println("-----------爬取路径：" + url);

         myCrawlStat.incProcessedPages();

         if (page.getParseData() instanceof HtmlParseData) {

             final HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();

             final Set<WebURL> links = htmlParseData.getOutgoingUrls();

             try {

                 linkToCsv(links);

             } catch (final IOException e2) {

                 // TODO Auto-generated catch block

                 e2.printStackTrace();

             }

             myCrawlStat.incTotalLinks(links.size());

             try {

                 myCrawlStat.incTotalTextSize(htmlParseData.getText().getBytes("UTF-8").length);

             } catch (final UnsupportedEncodingException e1) {

                 // TODO Auto-generated catch block

                 e1.printStackTrace();

             }

             final String html = htmlParseData.getHtml();

             final Document doc = Jsoup.parse(html);

             final Elements contents = doc.select("li[class=clearfix]");

             for (final Element c : contents) {

                 // 图片

                 final String img = c.select(".img img").first().attr("src");

                 System.out.println("图片：" + img);

                 // 地址

                 final Element txt = c.select("div[class=txt]").first();

                 final String arr1 = txt.select("h3 a").first().text();

                 final String arr2 = txt.select("h4 a").first().text();

                 final String arr3 = txt.select("div[class=detail]").first().text();

                 final String arr = arr1.concat(arr1 + ",").concat(arr2 + ",").concat(arr3);

                 System.out.println("地址：" + arr);

                 // 说明

                 final String rank = txt.select("p").first().text();

                 System.out.println("说明：" + rank);

                 // 价格

                 final String pirce = c.select("p[class=price]").first().text();

                 try {

                     cw = new CsvWriter(new FileWriter(csv, true), ',');

                     cw.write(img);

                     cw.write(pirce);

                     cw.write(arr);

                     cw.write(rank);

                     cw.endRecord();

                     cw.flush();

                     cw.close();

                 } catch (final IOException e) {

                     e.printStackTrace();

                 }

             }

         }

     }

     private void linkToCsv(Set<WebURL> links) throws IOException {

         cw2 = new CsvWriter(new FileWriter(csv2, true), ',');

         for (final WebURL webURL : links) {

             cw2.write(webURL.getURL());

         }

         cw2.flush();

         cw2.endRecord();

         cw2.close();

     }

public class CrawlStat {

    private long totalLinks;

    private int totalProcessedPages;

    private long totalTextSize;

    public long getTotalLinks() {

        return totalLinks;

    }

    public int getTotalProcessedPages() {

        return totalProcessedPages;

    }

    public long getTotalTextSize() {

        return totalTextSize;

    }

    public void incProcessedPages() {

        this.totalProcessedPages++;

    }

    public void incTotalLinks(int count) {

        this.totalLinks += count;

    }

    public void incTotalTextSize(int count) {

        this.totalTextSize += count;

    }

    public void setTotalLinks(long totalLinks) {

        this.totalLinks = totalLinks;

    }

    public void setTotalProcessedPages(int totalProcessedPages) {

        this.totalProcessedPages = totalProcessedPages;

    }

    public void setTotalTextSize(long totalTextSize) {

        this.totalTextSize = totalTextSize;

    }

}

3.编写运行脚本的类

public class ZiroomController {

    public static void main(String[] args) {

        System.out.println("-------begin:" + new Timestamp(System.currentTimeMillis()));

        final String crawlStorageFolder = "data/crawl/root";

        final int numberOfCrawlers = 7;

        final CrawlConfig config = new CrawlConfig();

        config.setCrawlStorageFolder(crawlStorageFolder);

        config.setPolitenessDelay(1000);

        config.setIncludeBinaryContentInCrawling(false);

        config.setMaxPagesToFetch(50);

        // config.setResumableCrawling(true);

        /*

         * Instantiate the controller for this crawl.

         */

        final PageFetcher pageFetcher = new PageFetcher(config);

        final RobotstxtConfig robotstxtConfig = new RobotstxtConfig();

        final RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtConfig, pageFetcher);

        CrawlController controller;

        try {

            controller = new CrawlController(config, pageFetcher, robotstxtServer);

            /*

             * For each crawl, you need to add some seed urls. These are the

             * first URLs that are fetched and then the crawler starts following

             * links which are found in these pages

             */

            controller.addSeed("http://sh.ziroom.com/z/nl/");

            // controller.addSeed("http://www.ziroom.com/z/nl/z3-u2.html/");

            // controller.addSeed("http://www.ics.uci.edu/~welling/");

            // controller.addSeed("http://www.ics.uci.edu/");

            /*

             * Start the crawl. This is a blocking operation, meaning that your

             * code will reach the line after this only when crawling is

             * finished.

             */

            controller.start(ZiroomCrawler.class, numberOfCrawlers);

            final List<Object> crawlersLocalData = controller.getCrawlersLocalData();

            long totalLinks = 0;

            long totalTextSize = 0;

            int totalProcessedPages = 0;

            for (final Object localData : crawlersLocalData) {

                final CrawlStat stat = (CrawlStat) localData;

                totalLinks += stat.getTotalLinks();

                totalTextSize += stat.getTotalTextSize();

                totalProcessedPages += stat.getTotalProcessedPages();

            }

            System.out.println("Aggregated Statistics:");

            System.out.println("\tProcessed Pages: {}" + totalProcessedPages);

            System.out.println("\tTotal Links found: {}" + totalLinks);

            System.out.println("\tTotal Text Size: {}" + totalTextSize);

        } catch (final Exception e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

    }

}

刚开始写博客仅供参考！请多指教！

开源地址： https://github.com/yasserg/crawler4j

crawler4j：轻量级多线程网络爬虫实例的更多相关文章

crawler4j：轻量级多线程网络爬虫
crawler4j是Java实现的开源网络爬虫.提供了简单易用的接口,可以在几分钟内创建一个多线程网络爬虫. 安装使用Maven 使用最新版本的crawler4j,在pom.xml中添加如下片段: ...
python3.4学习笔记(十三) 网络爬虫实例代码，使用pyspider抓取多牛投资吧里面的文章信息，抓取政府网新闻内容
python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI,采用Python语言编写 ...
python3.4学习笔记(十四) 网络爬虫实例代码，抓取新浪爱彩双色球开奖数据实例
python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例新浪爱彩双色球开奖数据URL:http://zst.aicai.com/ssq/openInfo/ 最终输出结果格 ...
Python 利用Python编写简单网络爬虫实例3
利用Python编写简单网络爬虫实例3 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错实验目的获取目标网站“http://bbs.51testing. ...
Python 利用Python编写简单网络爬虫实例2
利用Python编写简单网络爬虫实例2 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错实验目的获取目标网站“http://www.51testing. ...
C# 多线程网络爬虫
原文 C#制作多线程处理强化版网络爬虫上次做了一个帮公司妹子做了爬虫,不是很精致,这次公司项目里要用到,于是有做了一番修改,功能添加了网址图片采集,下载,线程处理界面网址图片下载等. 说说思路:首相 ...
SHELL网络爬虫实例剖析--转载
原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追究法律责任.http://nolinux.blog.51cto.com/4824967/1552472 前天 ...
Python ===if while for语句以及一个小小网络爬虫实例
if分支语句 >>> count=89 >>> if count==89: print count 89 #单分支 ...
Pyhton网络爬虫实例_豆瓣电影排行榜_BeautifulSoup4方法爬取
-----------------------------------------------------------学无止境------------------------------------- ...

随机推荐

myeclipse 8.5安装freemarker插件方法
1. 下载freemarker最新版本,目前本人下载时最新版本是:freemarker-ide-0.9.14.zip, ide版本的freemarker.jar版本太低,可以替换成高级版本,并修改me ...
阿里聚安全攻防挑战赛第三题Android PwnMe解题思路
阿里聚安全攻防挑战赛第三题Android PwnMe解题思路大家在聚安全挑战赛正式赛第三题中,遇到android app 远程控制的题目.我们今天带你一探究竟,如何攻破这道题目. 一.题目购物应用 ...
事件委托&jQuery on
例如: <h2>Great Web resources</h2> <ul id="resources"> <li><a hre ...
js 对象与函数的区别
<!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8&quo ...
C++的优秀特性1：引用
(转载请注明原创于潘多拉盒子) 一本典型的C语言教科书的厚度大约是200页左右,而一本典型的C++教科书的厚度至少要500页.比如K&R的<The C Programming Langu ...
ARM&Linux 下驱动开发第三节
后台驱动代码如下:比较昨天的,添加了读写指针位置移动操作 #include<linux/init.h> #include<linux/module.h> #include< ...
Codeforces Round #180 (Div. 2) D. Fish Weight 贪心
D. Fish Weight 题目连接: http://www.codeforces.com/contest/298/problem/D Description It is known that th ...
SQL 32位还原位64位出现3154错误
1:首先检查新建数据库的路径是否正确. 2:勾选覆盖原有数据库. 3:新建查询,选择master.然后新建查询中进行如下直接对bak文件的操作. RESTORE DATABASE TestFROM D ...
codeforces Round #258(div2) D解题报告
D. Count Good Substrings time limit per test 2 seconds memory limit per test 256 megabytes input sta ...
Timing advance of GSM（时间提前量）
基本概念时间提前量TA(Timing Advance)的作用是为了补偿电波传输延迟,而根本目的则是为了提高信道编解码效率.由于GSM采用TDMA,每载频8个时隙,应严格保持时隙间的同步,没有TA就无 ...

crawler4j：轻量级多线程网络爬虫实例

crawler4j：轻量级多线程网络爬虫实例的更多相关文章

随机推荐

热门专题