crawler4j图片爬虫

该实例主要演示下如何爬取指定网站的图片；

代码中有详细注释：

首先写一个ImageCrawler类：

package com.demo.imageCrawler4j;

import java.io.File;

import java.io.IOException;

import java.util.UUID;

import java.util.regex.Pattern;

import com.google.common.io.Files;

import edu.uci.ics.crawler4j.crawler.Page;

import edu.uci.ics.crawler4j.crawler.WebCrawler;

import edu.uci.ics.crawler4j.parser.BinaryParseData;

import edu.uci.ics.crawler4j.url.WebURL;

/*

 * 这个类主要是爬取图片，并且存储到指定文件夹

 */

public class ImageCrawler extends WebCrawler {

  /*

   * 指定文件后缀过滤

   */

  private static final Pattern filters = Pattern

      .compile(".*(\\.(css|js|mid|mp2|mp3|mp4|wav|avi|mov|mpeg|ram|m4v|pdf" + "|rm|smil|wmv|swf|wma|zip|rar|gz))$");

  /*

   * 正则匹配图片文件

   */

  private static final Pattern imgPatterns = Pattern.compile(".*(\\.(bmp|gif|jpe?g|png|tiff?))$");

  private static File storageFolder; // 爬取的图片本地存储地址

  private static String[] crawlDomains; // 指定要爬取的域名

  /**

   * 配置方法 指定域名和本地存储文件

   * @param domain

   * @param storageFolderName

   */

  public static void configure(String[] domain, String storageFolderName) {

    crawlDomains = domain;

    storageFolder = new File(storageFolderName); // 实例化

    if (!storageFolder.exists()) { // 假如文件不存在

      storageFolder.mkdirs(); // 我们创建一个

    }

  }

  /**

   * 这个方法主要是决定哪些url我们需要抓取，返回true表示是我们需要的，返回false表示不是我们需要的Url

   * 第一个参数referringPage封装了当前爬取的页面信息

   * 第二个参数url封装了当前爬取的页面url信息

   */

  @Override

  public boolean shouldVisit(Page referringPage, WebURL url) {

    String href = url.getURL().toLowerCase(); // 得到小写的url

    if (filters.matcher(href).matches()) { // 过滤指定后缀url

      return false;

    }

    if (imgPatterns.matcher(href).matches()) { // 匹配指定图片后缀文件

      return true;

    }

    for (String domain : crawlDomains) { // 匹配指定域名

      if (href.startsWith(domain)) {

        return true;

      }

    }

    return false;

  }

  /**

   * 当我们爬到我们需要的页面，这个方法会被调用，我们可以尽情的处理这个页面

   * page参数封装了所有页面信息

   */

  @Override

  public void visit(Page page) {

    String url = page.getWebURL().getURL(); // 获取url

    // 只爬取大于等于10kB的图片文件

    if (!imgPatterns.matcher(url).matches() ||

        !((page.getParseData() instanceof BinaryParseData) || (page.getContentData().length < (10 * 1024)))) {

      return;

    }

    // 获取图片后缀

    String extension = url.substring(url.lastIndexOf('.'));

    String hashedName = UUID.randomUUID() + extension; // 通过uuid 拼接成唯一图片名称

    // 定义存储文件

    String filename = storageFolder.getAbsolutePath() + "/" + hashedName;

    try {

      Files.write(page.getContentData(), new File(filename)); // 把爬取到的文件存储到指定文件

      System.out.println("爬取图片的url:"+url);

    } catch (IOException iox) {

       iox.printStackTrace();

    }

  }

}

再写一个图片爬虫控制器：ImageCrawlController

package com.demo.imageCrawler4j;

import edu.uci.ics.crawler4j.crawler.CrawlConfig;

import edu.uci.ics.crawler4j.crawler.CrawlController;

import edu.uci.ics.crawler4j.fetcher.PageFetcher;

import edu.uci.ics.crawler4j.robotstxt.RobotstxtConfig;

import edu.uci.ics.crawler4j.robotstxt.RobotstxtServer;

/**

 * 图片爬虫控制器

 * @author user

 *

 */

public class ImageCrawlController {

      public static void main(String[] args) throws Exception {

        String rootFolder =  "c:/crawl"; // 定义爬虫数据存储位置

        int numberOfCrawlers = 7; // 定义7个爬虫，也就是7个线程

        String storageFolder = "c:/crawl/data"; // 定义爬取的图片本地存储位置

        CrawlConfig config = new CrawlConfig(); // 实例化爬虫配置

        config.setCrawlStorageFolder(rootFolder); // 设置爬虫文件存储位置

        /*

         * 设置允许爬取二进制文件

         * 因为图片属于二进制文件

         */

        config.setIncludeBinaryContentInCrawling(true);

        String[] crawlDomains = {"http://669pic.com/"};

        /*

         * 实例化爬虫控制器

         */

        PageFetcher pageFetcher = new PageFetcher(config); // 实例化页面获取器

        RobotstxtConfig robotstxtConfig = new RobotstxtConfig(); // 实例化爬虫机器人配置 比如可以设置 user-agent

        // 实例化爬虫机器人对目标服务器的配置，每个网站都有一个robots.txt文件 规定了该网站哪些页面可以爬，哪些页面禁止爬，该类是对robots.txt规范的实现

        RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtConfig, pageFetcher);

        // 实例化爬虫控制器

        CrawlController controller = new CrawlController(config, pageFetcher, robotstxtServer);

        /*

         * 配置爬虫种子页面，就是规定的从哪里开始爬，可以配置多个种子页面

         */

        for (String domain : crawlDomains) {

          controller.addSeed(domain);

        }

        ImageCrawler.configure(crawlDomains, storageFolder); // 配置爬虫域名，以及本地存储位置

        /*

         * 启动爬虫，爬虫从此刻开始执行爬虫任务，根据以上配置

         */

        controller.start(ImageCrawler.class, numberOfCrawlers);

      }

    }

crawler4j图片爬虫的更多相关文章

Python爬虫02——贴吧图片爬虫V2.0
Python小爬虫——贴吧图片爬虫V2.0 贴吧图片爬虫进阶:在上次的第一个小爬虫过后,用了几次发现每爬一个帖子,都要自己手动输入帖子链接,WTF这程序简直反人类!不行了不行了得改进改进. 思路: 贴 ...
Python图片爬虫
1.今天给大家介绍自己写的一个图片爬虫,说白了就是从网页自动上下载需要的图片 2.首先选取目标为:http://www.zhangzishi.cc/涨姿势这个网站如下图,我们的目标就是爬取该网站福利社 ...
Java 图片爬虫，java打包jar文件
目录 1. Java 图片爬虫,制作 .jar 文件 spider.java 制作 jar 文件添加执行权限 1. Java 图片爬虫,制作 .jar 文件 spider.java spider.j ...
C#多线程图片爬虫
写了个简单的多线程图片爬虫,整理一下.数据已经爬下来了,图片URL需要自行拼接,首先从Lawyers表中取的RawData字段,RawData中有一个list字段是json格式的数据,需要的只是lis ...
【Python爬虫实战】图片爬虫-淘宝图片爬虫--千图网图片爬虫
所谓图片爬虫,就是从互联网中自动把对方服务器上的图片爬下来的爬虫程序.有些图片是直接在html文件里面,有些是隐藏在JS文件中,在html文件中只需要我们分析源码就能得到如果是隐藏在JS文件中,那么就 ...
我的图片爬虫demo
本来是根据scrapy教程写了一个下载图片的简易爬虫,但是搞了一天,死活下载不了图片. 然后换了一个网站,用原生的库写了一个图片爬虫. import urllib.requestimport osde ...
【Python】nvshens按目录批量下载图片爬虫1.00(单线程版)
# nvshens按目录批量下载图片爬虫1.00(单线程版) from bs4 import BeautifulSoup import requests import datetime import ...
Jmeter(四十一)_图片爬虫
今天教大家用元件组合,做一个网页图片爬虫. 需要用到的元件:循环控制器+计数器+xpath提前器+函数嵌套+beanshell代码首先我们确定一下要爬取的图片网站:https://dp.pconli ...
python写的百度图片爬虫
学了一下python正则表达式,写一个百度图片爬虫玩玩. 当技术遇上心术不正的人,就成我这样的2B青年了. python3.6开发.程序已经打包好,下载地址: http://pan.baidu.com ...

随机推荐

JavaScript操作HTML&CSS简单入门
- Java攻城狮学习路线 - 一. JavaScript基础输出使用 window.alert() 弹出警告框. 使用 document.write() 方法将内容写到 HTML 文档中. 使用 ...
JavaScript与jquery的对比
javascript jQuery 入口函数只能有一个,如果有多个,后面的会覆盖前面可以有多个,并且不会发生覆盖的情况代码容错性代码容错性差,代码出现错误,会影响到后面代码的运行. 代码容 ...
数据结构——栈的实现（数组、Java）
巩固数据结构栈是一种有限制的线性表只能对表尾进行操作 package com.shine.test.datastruct; import java.util.Arrays; public clas ...
【Oracle】审计
1.审计的功能:监控用户在database 的 action (操作) 2.审计分类: 1) session :在同一个session,相同的语句只产生一个审计结果(默认) 2) access : 在 ...
用来生成get set string 方法
https://projectlombok.org/ 主要是用来生成get set string 方法等等原理是注解
Qt5—嵌入停靠窗口QDockWidget
参考链接:http://blog.csdn.net/summer_xiyer/article/details/12875899 新建一个GUI工程: QDockWidget是QWidget的子类,也等 ...
HashMap以及ConcurrentHashMap
HashMap源码相关 HashMap实现原理及源码分析总之就是这个博客,简直就是源码带逛,开心,最关键的是下面的图像另外,自己的理解加上源码,总结如下 hash,原义散列,就是一对一: hash ...
DB2高可用hadr搭建参数配置
主机上执行db2 UPDATE DB CFG FOR XMHIS USING HADR_LOCAL_HOST 192.168.1.2db2 UPDATE DB CFG FOR XMHIS USING ...
mac上安装flask详细步骤
1 在终端输入 macdeMac-mini-62:~ mac$ sudo easy_install pip 2 macdeMac-mini-62:~ mac$ sudo pip install fl ...
JS 封装一个对数组去重的函数
var zz = [1,2,3,5,5,7,8,6,6]; var se = []; d(se); function d(attr){ for(var i = 1;i<zz.length;i++ ...

crawler4j图片爬虫

crawler4j图片爬虫的更多相关文章

随机推荐

热门专题