AotucCrawler 快速爬取图片

虫师 2024-09-02 20:07:24 原文

AotucCrawler 快速爬取图片

今天介绍一款自动化爬取图片项目。

GitHub: https://github.com/YoongiKim/AutoCrawler

Google, Naver multiprocess image web crawler (Selenium)

关键字

爬虫网站：Google、Naver （美、韩两大搜索引擎）
运行方式：Multiprocess（多进程）
爬取格式：image （图片）
基于自动化工具：Selenium （不解释）

如何使用

Git克隆AutoCrawler项目到本地
自行安装 Chrome 浏览器
安装依赖

> pip -r requirements.txt

certifi: 包含了很多可信任知名公司的证书/公钥。
chardet：提供自动检测字符编码的功能。
idna: 提供"对于RFC5891中定义的IDNA协议（Internationalised Domain Names in Applications）的支持"。
requests: 依赖于上面三个基础库，他主要用于根据图片链接下载图片。
selenium: 用于启动浏览器，爬取图片链接。
webdriver-manager: 用来管理selenium浏览器驱动的项目。

仔细分析别人项目，不管是源码还是依赖库都会有收获。webdriver-manager 就是我发现的一个宝藏项目，它简化的浏览器驱动的管理。

打开keywords.txt文件，编写爬取的关键字。

cat

dog

运行main.py 文件

> python main.py

参数说明:

--skip true：如果下载的关键字已经存在，是否跳过关键字，重新下载时需要设置。

--threads 4：下载使用线程数量

--google true：从google.com 下载。

--naver true: 从naver.com 下载。

--full false: 下载全分辨率图像而不是缩略图 (慢)。

--face false: Face search mode。

--no_gui auto: 使用 GUI 模式. (headless模式) 全分辨率模式可以加速, 但是缩略图模式不稳定。默认auto模式，如果full=false 默认使用使用GUI，如果full=true默认Headless模式。（可用于docker linux系统）。

--limit 0: 设置最大图片下载范围。 (0: 无限制)

--proxy-list: 逗号分隔的代理列表，如: socks://127.0.0.1:1080, http://127.0.0.1:1081，每个线程从列表中随即选择一个。

例如：

> python main.py --threads 2 --google true  --naver false --full false --limit 50

爬取的图片保存于 downloads/ 目录。

小结

因为使用的是Google网站，没有梯子的同学有点郁闷。项目本身并不复杂，两个python文件加一起不到1000行代码，我们完全可以花点时间替换为国内可访问的搜索引擎。
下载图片只是为了欣赏猫猫狗狗吗？当然不是，我们可用下载的图片训练 AI。

AotucCrawler 快速爬取图片的更多相关文章

Java jsoup爬取图片
jsoup爬取百度瀑布流图片是的,Java也可以做网络爬虫,不仅可以爬静态网页的图片,也可以爬动态网页的图片,比如采用Ajax技术进行异步加载的百度瀑布流. 以前有写过用Java进行百度图片的抓取, ...
python如何使用request爬取图片
下面是代码的简单实现,变量名和方法都是跑起来就行,没有整理,有需要的可以自己整理下: image2local: import requests import time from lxml import ...
[python爬虫] 爬取图片无法打开或已损坏的简单探讨
本文主要针对python使用urlretrieve或urlopen下载百度.搜狗.googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨.同时 ...
scrapy爬虫，爬取图片
一.scrapy的安装: 本文基于Anacoda3, Anacoda2和3如何同时安装? 将Anacoda3安装在C:\ProgramData\Anaconda2\envs文件夹中即可. 如何用con ...
scrapy爬虫系列之三--爬取图片保存到本地
功能点:如何爬取图片,并保存到本地爬取网站:斗鱼主播完整代码:https://files.cnblogs.com/files/bookwed/Douyu.zip 主要代码: douyu.py im ...
孤荷凌寒自学python第八十二天学习爬取图片2
孤荷凌寒自学python第八十二天学习爬取图片2 (完整学习过程屏幕记录视频地址在文末) 今天在昨天基本尝试成功的基础上,继续完善了文字和图片的同时爬取并存放在word文档中. 一.我准备爬取一个有文 ...
孤荷凌寒自学python第八十一天学习爬取图片1
孤荷凌寒自学python第八十一天学习爬取图片1 (完整学习过程屏幕记录视频地址在文末) 通过前面十天的学习,我已经基本了解了通过requests模块来与网站服务器进行交互的方法,也知道了Beauti ...
爬取图片过程遇到的ValueError: Missing scheme in request url: h 报错与解决方法
一 .scrapy整体框架 1.1 scrapy框架图 1.2 scrapy框架各结构解析 item:保存抓取的内容 spider:定义抓取内容的规则,也是我们主要编辑的文件 pipelines:管道 ...
python网络爬虫之使用scrapy爬取图片
在前面的章节中都介绍了scrapy如何爬取网页数据,今天介绍下如何爬取图片. 下载图片需要用到ImagesPipeline这个类,首先介绍下工作流程: 1 首先需要在一个爬虫中,获取到图片的url并存 ...

随机推荐

MySQL数据库建表命名的坑
今天建了一张表,表名为--inOut: 然后再使用中发现怎么都是SQL错误: 然后在Navacat上发现这是一个关键词! 如果非要继续使用,只能这样: 类似的坑还有user等.
FastAPI 学习之路（十六）Form表单
系列文章: FastAPI 学习之路(一)fastapi--高性能web开发框架 FastAPI 学习之路(二) FastAPI 学习之路(三) FastAPI 学习之路(四) FastAPI 学习之 ...
Java（47）反射
作者:季沐测试笔记原文地址:https://www.cnblogs.com/testero/p/15201675.html 博客主页:https://www.cnblogs.com/testero ...
数位dp & 热身训练7
数位dp 数位dp是一种计数用的dp,一般就是要统计一段区间$[L,R]$内,满足一定条件的数的个数,或者各个数位的个数. 数位dp使得暴力枚举变为满足一定状态的记忆化,更加优秀. 数位dp常常会考虑 ...
Linux线程互斥学习笔记--详细分析
一.互斥锁为啥要有互斥? 多个进程/线程执行的先后顺序不确定,何时切出CPU也不确定. 多个进程/线程访问变量的动作往往不是原子的. 1. 操作步骤 (1)创建锁 // 创建互斥锁mutex pth ...
单源最短路径算法：迪杰斯特拉 (Dijkstra) 算法（二）
一.基于邻接表的Dijkstra算法如前一篇文章所述,在 Dijkstra 的算法中,维护了两组,一组包含已经包含在最短路径树中的顶点列表,另一组包含尚未包含的顶点.使用邻接表表示,可以使用 BFS ...
QT判断文件/目录是否存在
最近在用qt写一个ui,遇到删除sd卡中的文件失败情况,有些时候是存在删除链表里面的文件在sd卡上已经不存在了,导致失败,以为我的链表是定时刷新的,但是文件是实时更新会同步覆盖的.这样就存在可能上一秒 ...
把数组排成最小的数牛客网剑指Offer
把数组排成最小的数牛客网剑指Offer 题目描述输入一个正整数数组,把数组里所有数字拼接起来排成一个数,打印能拼接出的所有数字中最小的一个.例如输入数组{3,32,321},则打印出这三个数字能 ...
Python ImportError: No module named '_tkinter', please install the python3-tk package
ImportError: No module named '_tkinter', please install the python3-tk package 这个问题的原因是使用的python3环境内 ...
Luogu P3758 [TJOI2017]可乐 | 矩阵乘法
题目链接让我们先来思考一个问题,在一张包含$n$个点的图上,如何求走两步后从任意一点$i$到任意一点$j$的方案数. 我们用$F_p(i,j)$来表示走$p$步后从$i$到$j$的方案数,如果存储原 ...