crawler4j图片爬虫
该实例主要演示下如何爬取指定网站的图片;
代码中有详细注释:
首先写一个ImageCrawler类:
package com.demo.imageCrawler4j; import java.io.File;
import java.io.IOException;
import java.util.UUID;
import java.util.regex.Pattern; import com.google.common.io.Files; import edu.uci.ics.crawler4j.crawler.Page;
import edu.uci.ics.crawler4j.crawler.WebCrawler;
import edu.uci.ics.crawler4j.parser.BinaryParseData;
import edu.uci.ics.crawler4j.url.WebURL; /*
* 这个类主要是爬取图片,并且存储到指定文件夹
*/
public class ImageCrawler extends WebCrawler { /*
* 指定文件后缀过滤
*/
private static final Pattern filters = Pattern
.compile(".*(\\.(css|js|mid|mp2|mp3|mp4|wav|avi|mov|mpeg|ram|m4v|pdf" + "|rm|smil|wmv|swf|wma|zip|rar|gz))$"); /*
* 正则匹配图片文件
*/
private static final Pattern imgPatterns = Pattern.compile(".*(\\.(bmp|gif|jpe?g|png|tiff?))$"); private static File storageFolder; // 爬取的图片本地存储地址
private static String[] crawlDomains; // 指定要爬取的域名 /**
* 配置方法 指定域名和本地存储文件
* @param domain
* @param storageFolderName
*/
public static void configure(String[] domain, String storageFolderName) {
crawlDomains = domain; storageFolder = new File(storageFolderName); // 实例化
if (!storageFolder.exists()) { // 假如文件不存在
storageFolder.mkdirs(); // 我们创建一个
}
} /**
* 这个方法主要是决定哪些url我们需要抓取,返回true表示是我们需要的,返回false表示不是我们需要的Url
* 第一个参数referringPage封装了当前爬取的页面信息
* 第二个参数url封装了当前爬取的页面url信息
*/
@Override
public boolean shouldVisit(Page referringPage, WebURL url) {
String href = url.getURL().toLowerCase(); // 得到小写的url
if (filters.matcher(href).matches()) { // 过滤指定后缀url
return false;
} if (imgPatterns.matcher(href).matches()) { // 匹配指定图片后缀文件
return true;
} for (String domain : crawlDomains) { // 匹配指定域名
if (href.startsWith(domain)) {
return true;
}
}
return false;
} /**
* 当我们爬到我们需要的页面,这个方法会被调用,我们可以尽情的处理这个页面
* page参数封装了所有页面信息
*/
@Override
public void visit(Page page) {
String url = page.getWebURL().getURL(); // 获取url // 只爬取大于等于10kB的图片文件
if (!imgPatterns.matcher(url).matches() ||
!((page.getParseData() instanceof BinaryParseData) || (page.getContentData().length < (10 * 1024)))) {
return;
} // 获取图片后缀
String extension = url.substring(url.lastIndexOf('.'));
String hashedName = UUID.randomUUID() + extension; // 通过uuid 拼接成唯一图片名称 // 定义存储文件
String filename = storageFolder.getAbsolutePath() + "/" + hashedName;
try {
Files.write(page.getContentData(), new File(filename)); // 把爬取到的文件存储到指定文件
System.out.println("爬取图片的url:"+url);
} catch (IOException iox) {
iox.printStackTrace();
}
}
}
再写一个图片爬虫控制器:ImageCrawlController
package com.demo.imageCrawler4j; import edu.uci.ics.crawler4j.crawler.CrawlConfig;
import edu.uci.ics.crawler4j.crawler.CrawlController;
import edu.uci.ics.crawler4j.fetcher.PageFetcher;
import edu.uci.ics.crawler4j.robotstxt.RobotstxtConfig;
import edu.uci.ics.crawler4j.robotstxt.RobotstxtServer; /**
* 图片爬虫控制器
* @author user
*
*/
public class ImageCrawlController { public static void main(String[] args) throws Exception { String rootFolder = "c:/crawl"; // 定义爬虫数据存储位置
int numberOfCrawlers = 7; // 定义7个爬虫,也就是7个线程
String storageFolder = "c:/crawl/data"; // 定义爬取的图片本地存储位置 CrawlConfig config = new CrawlConfig(); // 实例化爬虫配置 config.setCrawlStorageFolder(rootFolder); // 设置爬虫文件存储位置 /*
* 设置允许爬取二进制文件
* 因为图片属于二进制文件
*/
config.setIncludeBinaryContentInCrawling(true); String[] crawlDomains = {"http://669pic.com/"}; /*
* 实例化爬虫控制器
*/
PageFetcher pageFetcher = new PageFetcher(config); // 实例化页面获取器
RobotstxtConfig robotstxtConfig = new RobotstxtConfig(); // 实例化爬虫机器人配置 比如可以设置 user-agent // 实例化爬虫机器人对目标服务器的配置,每个网站都有一个robots.txt文件 规定了该网站哪些页面可以爬,哪些页面禁止爬,该类是对robots.txt规范的实现
RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtConfig, pageFetcher);
// 实例化爬虫控制器
CrawlController controller = new CrawlController(config, pageFetcher, robotstxtServer); /*
* 配置爬虫种子页面,就是规定的从哪里开始爬,可以配置多个种子页面
*/
for (String domain : crawlDomains) {
controller.addSeed(domain);
} ImageCrawler.configure(crawlDomains, storageFolder); // 配置爬虫域名,以及本地存储位置 /*
* 启动爬虫,爬虫从此刻开始执行爬虫任务,根据以上配置
*/
controller.start(ImageCrawler.class, numberOfCrawlers);
}
}
crawler4j图片爬虫的更多相关文章
- Python爬虫02——贴吧图片爬虫V2.0
Python小爬虫——贴吧图片爬虫V2.0 贴吧图片爬虫进阶:在上次的第一个小爬虫过后,用了几次发现每爬一个帖子,都要自己手动输入帖子链接,WTF这程序简直反人类!不行了不行了得改进改进. 思路: 贴 ...
- Python图片爬虫
1.今天给大家介绍自己写的一个图片爬虫,说白了就是从网页自动上下载需要的图片 2.首先选取目标为:http://www.zhangzishi.cc/涨姿势这个网站如下图,我们的目标就是爬取该网站福利社 ...
- Java 图片爬虫,java打包jar文件
目录 1. Java 图片爬虫,制作 .jar 文件 spider.java 制作 jar 文件 添加执行权限 1. Java 图片爬虫,制作 .jar 文件 spider.java spider.j ...
- C#多线程图片爬虫
写了个简单的多线程图片爬虫,整理一下.数据已经爬下来了,图片URL需要自行拼接,首先从Lawyers表中取的RawData字段,RawData中有一个list字段是json格式的数据,需要的只是lis ...
- 【Python爬虫实战】 图片爬虫-淘宝图片爬虫--千图网图片爬虫
所谓图片爬虫,就是从互联网中自动把对方服务器上的图片爬下来的爬虫程序.有些图片是直接在html文件里面,有些是隐藏在JS文件中,在html文件中只需要我们分析源码就能得到如果是隐藏在JS文件中,那么就 ...
- 我的图片爬虫demo
本来是根据scrapy教程写了一个下载图片的简易爬虫,但是搞了一天,死活下载不了图片. 然后换了一个网站,用原生的库写了一个图片爬虫. import urllib.requestimport osde ...
- 【Python】nvshens按目录批量下载图片爬虫1.00(单线程版)
# nvshens按目录批量下载图片爬虫1.00(单线程版) from bs4 import BeautifulSoup import requests import datetime import ...
- Jmeter(四十一)_图片爬虫
今天教大家用元件组合,做一个网页图片爬虫. 需要用到的元件:循环控制器+计数器+xpath提前器+函数嵌套+beanshell代码 首先我们确定一下要爬取的图片网站:https://dp.pconli ...
- python写的百度图片爬虫
学了一下python正则表达式,写一个百度图片爬虫玩玩. 当技术遇上心术不正的人,就成我这样的2B青年了. python3.6开发.程序已经打包好,下载地址: http://pan.baidu.com ...
随机推荐
- king枚举帮助类
可以方便的实现枚举 枚举 public enum DeptType { [Description("科室1")] Professional = , [Description(&qu ...
- 企业级Spring应用的搭建
本次博客将要对SpringMVC做简单的介绍以及环境的搭建: 概述 Spring 框架是一个开源的平台,属于设计层面框架,整个系统面向接口,是分层的JavaSE/EE开源框架,用于解决复杂的企业应用开 ...
- 多态&接口
多态 多态定义:允许一个父类变量引用子类的对象:允许一个接口类型引用实现类对象. 多态的调用:使用父类的变量指向子类的对象:所调用的属性和方法只限定父类中定义的属性和方法,不能调用子类中特有的属性和方 ...
- MD5加盐,实现一人一密
理论上md5是不可逆的,而且MD5本来也不是作加密使用,而是用来校验数据的完整性,只是因为其不可逆且稳定.快速的特点,被广泛用于对明文密码的加密. 至今仍然后很多开发人员相信MD5的保密性,也许因为他 ...
- SourceInsight使用入门与技巧(转)
1 sourceinsight screen font 的默认字体是Verdana的,它是一直变宽字体.在Document style中可以将字体改为定宽的Courier 2 document o ...
- 给html里面的class添加一个判断语句,判断当前class是否显示(vue)
当我们想判断这个class是否出现时,其实有很多方法, 我这个是做了一个选项卡,当点击的时候navTitle的值和循环的item的值相同时class就等于borderbottom, 这样我们点击的图层 ...
- MongoDB_基本操作
数据库操作 增加数据库 use db1 #如果数据库不存在,则创建数据库,否则切换到指定数据库 查询数据库 show dbs #可以看到,我们刚创建的数据库db1并不在数据库的列表中,要显示它我们需要 ...
- Spring 静态工厂实例
直接上代码,看注释. 创建实体类: package com.spring.classs; public class Test { private String name; private ...
- Python学习笔记(3)for循环和while循环
2019-02-25 (1)break语句:终止当前循环,跳出循环体. (2)continue语句:终止本轮循环并开始下一轮循环(在下一轮循环开始前,会先测试循环条件). (3)for循环 ① ran ...
- 探索Python的多态是怎么实现的
多态是指通过基类的指针或者引用,在运行时动态调用实际绑定对象函数的行为. 对于其他如C++的语言,多态是通过在基类的函数前加上virtual关键字,在派生类中重写该函数,运行时将会根据对象的实际类型来 ...