python+正则+多进程爬取糗事百科图片

话不多说，直接上代码；

# 需要的库

import requests

import re

import os

from multiprocessing import Pool

# 请求头

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'

}

# 主函数

def get_img(url):

    # 定义图片存储路径

    img_path = './img/'

    if not os.path.exists(img_path):

        os.mkdir(img_path)

    try:

        # 请求网页

        response = requests.get(url=url,headers=headers)

        # 正则提取图片地址

        response = re.findall('<div class="thumb".*?<img src="(.*?)".*?</a>',response.text,re.S)

        # 循环图片地址

        for i in response:

            # 拼接完整图片路由

            url = ('http:' + i)

            # 请求完整图片路由

            response = requests.get(url,headers)

            # 图片命名

            img_name = url.split('/')[-1]

            # 判断图片是否已下载

            if os.path.exists(img_path+img_name):

                print('图片已存在')

            else:

                # 下载图片

                with open(img_path+img_name,'wb') as f:

                    f.write(response.content)

                    print('正在下载：'+url)

    except Exception as e:

        print(e)

# 程序主入口

if __name__ == '__main__':

    # 构造所有ip地址

    urls = ['https://www.qiushibaike.com/imgrank/page/{}/'.format(i) for i in range(1,14)]

    # 使用多进程

    pool = Pool()

    # 开启多进程爬取

    pool.map(get_img,urls)

    print('下载完毕')

下载中;

打开文件夹查看图片；

done

python+正则+多进程爬取糗事百科图片的更多相关文章

python+BeautifulSoup+多进程爬取糗事百科图片
用到的库: import requests import os from bs4 import BeautifulSoup import time from multiprocessing impor ...
python爬虫之爬取糗事百科并将爬取内容保存至Excel中
本篇博文为使用python爬虫爬取糗事百科content并将爬取内容存入excel中保存·. 实验环境:Windows10 代码编辑工具:pycharm 使用selenium(自动化测试工具)+p ...
Python爬虫：爬取糗事百科
网上看到的教程,但是是用正则表达式写的,并不能运行,后面我就用xpath改了,然后重新写了逻辑,并且使用了双线程,也算是原创了吧#!/usr/bin/python# -*- encoding:utf- ...
python网络爬虫--简单爬取糗事百科
刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
[爬虫]用python的requests模块爬取糗事百科段子
虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更 ...
8.Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
初识python 之爬虫：使用正则表达式爬取“糗事百科 - 文字版”网页数据
初识python 之爬虫:使用正则表达式爬取"古诗文"网页数据的兄弟篇. 详细代码如下: #!/user/bin env python # author:Simple-Sir ...

随机推荐

CSS布局：sticky定位
stick定位一如其名:它随“正常”文档流而动,直到规定位置,尔后“粘”在那里:或者,当它发现自己可以跟随“正常”文档流而脱离sticky位置时,就果断离开从而加入文档流. 代码与效果如下: < ...
WEBSHELL-恶意代码检测
静态查杀提取特征写成规则库,调用规则库查杀.基于规则,会比较快,但漏报.误报会比较明显,一般的Webshell一句话木马变形混淆会比较多. yara规则 $eval = /(<\?php|[; ...
Spring AOP的常用方法
转 https://blog.csdn.net/u014745069/article/details/84887765
kafka的分区
分区会均匀的分配到不同的broke上,即不同的机器上.
elasticsearch 常见查询及聚合的JAVA API
ES 常见查询 (1)根据ID 进行单个查询 GetResponse response = client.prepareGet("accounts", "person&q ...
通过Fastdfs进行文件上传服务（文件和图片的统一处理）
1.文件上传简单流程分析图: 2.Fastdfs介绍: Fastdfs由两个角色组成: Tracker(集群):调度(帮你找到有空闲的Storage) Storage(集群):文件存储(帮你保存文件或 ...
golang笔记之DOS篇
Dos的常用命令 dos的基本介绍 Dos: Disk Operating System 磁盘操作系统 ,简单说一下Windows下的目录 2. dos的基本操作原理目录的操作: md ...
delphi 返回所有URL
delphi 返回所有URL USER MSHTMLprocedure TfrmWebEmail.btn5Click(Sender: TObject);var Doc: IHTMLDocument2; ...
MSSQLSERVER 服务运行内存设置较小导致启动服务失败
问题产生原因: 手动设置MSSQLSERVER 运行内存,设置值未达到MSSQLSERVER 服务运行内存最低值(max server memory 所允许的最小内存量是 128 MB.),导致MSS ...
python中通过selenium简单操作及xpath元素定位&轴定位
浏览器的简单操作 # 导入webdriver模块 # 创建driver对象,指定Chrome浏览器 driver = webdriver.Chrome() # 窗口最大化 driver.maximiz ...

python+正则+多进程爬取糗事百科图片

python+正则+多进程爬取糗事百科图片的更多相关文章

随机推荐

热门专题