Python 多线程爬取站酷（zcool.com.cn）图片

极速爬取下载站酷（https://www.zcool.com.cn/）设计师/用户上传的全部照片/插画等图片。

特点：

极速下载：多线程异步下载，可以根据需要设置线程数
异常重试：只要重试次数足够多，就没有下载不下来的图片 (^o)/
增量下载：设计师/用户有新的上传，再跑一遍程序就行了 O(∩_∩)O嗯!
支持代理：可以配置使用代理

环境：

python3.6及以上

1. 快速使用

1) 克隆项目到本地

git clone https://github.com/lonsty/scraper

2) 安装依赖包

cd scraper

pip install -r requirements.txt

3) 快速使用

通过用户名username下载所有图片到路径path下：

python crawler.py -u <username> -d <path>

运行截图

爬取结果

2. 使用帮助

查看所有命令

python crawler.py --help

Usage: crawler.py [OPTIONS]

  Use multi-threaded to download images from https://www.zcool.com.cn in

  bulk by username or ID.

Options:

  -i, --id TEXT              User id.

  -u, --username TEXT        User name.

  -d, --directory TEXT       Directory to save images.

  -p, --max-pages INTEGER    Maximum pages to parse.

  -t, --max-topics INTEGER   Maximum topics per page to parse.

  -w, --max-workers INTEGER  Maximum thread workers.  [default: 20]

  -R, --retries INTEGER      Repeat download for failed images.  [default: 3]

  -r, --redownload TEXT      Redownload images from failed records.

  -o, --override             Override existing files.  [default: False]

  --proxies TEXT             Use proxies to access websites.

                             Example:

                             '{"http": "user:passwd@www.example.com:port",

                             "https": "user:passwd@www.example.com:port"}'

  --help                     Show this message and exit.

3. 更新历史

Version 0.1.0 (2019.09.09)

主要功能：
- 极速下载：多线程异步下载，可以根据需要设置线程数
- 异常重试：只要重试次数足够多，就没有下载不下来的图片 (^o)/
- 增量下载：设计师/用户有新的上传，再跑一遍程序就行了 O(∩_∩)O嗯!
- 支持代理：可以配置使用代理

Python 多线程爬取站酷（zcool.com.cn）图片的更多相关文章

python多线程爬取斗图啦数据
python多线程爬取斗图啦网的表情数据使用到的技术点 requests请求库 re 正则表达式 pyquery解析库,python实现的jquery threading 线程 queue 队列 ' ...
python多线程爬取世纪佳缘女生资料并简单数据分析
一. 目标作为一只万年单身狗,一直很好奇女生找对象的时候都在想啥呢,这事也不好意思直接问身边的女生,不然别人还以为你要跟她表白啥的,况且工科出身的自己本来接触的女生就少,即使是挨个问遍,样本量也 ...
Python多线程爬取某网站表情包
# 爬取网络图片import requestsfrom lxml import etreefrom urllib import requestfrom queue import Queue # 导入队 ...
用Python爬虫爬取炉石原画卡牌图片
前段时间看了点Python的语法以及制作爬虫常用的类库,于是动手制作了一个爬虫尝试爬取一些炉石原画图片.本文仅记录对特定目标网站的分析过程和爬虫代码的编写过程.代码功能很局限,无通用性,仅作为一个一般 ...
【Python爬虫案例学习2】python多线程爬取youtube视频
转载:https://www.cnblogs.com/binglansky/p/8534544.html 开发环境: python2.7 + win10 开始先说一下,访问youtube需要那啥的,请 ...
python多线程爬取-今日头条的街拍数据（附源码加思路注释）
这里用的是json+re+requests+beautifulsoup+多线程 1 import json import re from multiprocessing.pool import Poo ...
selenium爬取优酷页面并下载图片
from selenium import webdriver import requests driver = webdriver.Chrome() #打开优酷 driver.get("ht ...
Python爬虫入门教程： All IT eBooks多线程爬取
All IT eBooks多线程爬取-写在前面对一个爬虫爱好者来说,或多或少都有这么一点点的收集癖 ~ 发现好的图片,发现好的书籍,发现各种能存放在电脑上的东西,都喜欢把它批量的爬取下来. 然后放着 ...
Python爬虫之爬取站内所有图片
title date tags layut Python爬虫之爬取站内所有图片 2018-10-07 Python post 目标是 http://www.5442.com/meinv/ 如需在非li ...

随机推荐

爬取的地址存入mysql记录
CREATE DATABASE HELLO; CREATE TABLE IF NOT EXISTS `botoo`( `id` INT UNSIGNED AUTO_INCREMENT, `title` ...
python 解决 idea 或者 pucharm 编译器在引入自定义的 py 文件的类时，没有提示的问题
1,问题描述: 假设我们有两个问价 a.py 和 b.py 其中分别有 A 类和 B 类,现在我们想在 b.py 中引用 A 类语法为 from a import A 虽然这是正确的语法,但是 ...
Kubernetes之在k8s中部署Java应用
部署好了k8s以后部署参考https://www.cnblogs.com/minseo/p/12055731.html 怎么在k8s部署应用项目迁移到k8s平台是怎样的流程 1,制作镜像 2,控制 ...
[Go] 数据类型，变量与变量作用域，常量
// var.gopackage main import ( "fmt" ) func main() { // 声明变量的一般形式是使用 var 关键字,可以一次声明多个变量 // ...
测试标题CSS样式
标题1 内容1 标题2 内容2 标题3 内容3
Git 删除所有历史提交记录方法
Git 删除所有历史提交记录方法切换分支 git checkout --orphan latest_branch 添加所有文件 git add -A 提交更改 git commit -am &quo ...
袁新生《LINGO和Excel在数学建模中的应用》
内容介绍本书深入浅出地介绍了LINGO的基础知识.用LINGO语言描述现实问题的方法和用Excel处理数据的方法,重点是这两种软件在解决各种优化问题以及在数学建模中的应用,通过丰富的实例介绍了把实际 ...
【转帖】全网最通俗易懂的Kafka入门
全网最通俗易懂的Kafka入门 http://www.itpub.net/2019/12/04/4597/ 前言只有光头才能变强. 文本已收录至我的GitHub仓库,欢迎Star:https://g ...
VMware和Centos安装
1.Windows,VMware和Centos三者的关系 2.VMware安装下载好之后一直下一步安装,很简单 3.Centos安装打开VMware,点击创建新的虚拟机选择自定义,然后点下一步 ...
LeetCode 5214. 最长定差子序列（Java）HashMap
题目: 5214. 最长定差子序列给你一个整数数组 arr 和一个整数 difference,请你找出 arr 中所有相邻元素之间的差等于给定 difference 的等差子序列,并返回其中最长的等 ...

Python 多线程爬取站酷（zcool.com.cn）图片

特点：

环境：

1. 快速使用

1) 克隆项目到本地

2) 安装依赖包

3) 快速使用

2. 使用帮助

3. 更新历史

Version 0.1.0 (2019.09.09)

Python 多线程爬取站酷（zcool.com.cn）图片的更多相关文章

随机推荐

热门专题