Python多线程爬虫爬取网页图片

临近期末考试，但是根本不想复习！啊啊啊啊啊啊啊！！！！

于是做了一个爬虫，网址为 https://yande.re，网页图片为动漫美图（图片带点颜色........宅男福利

github项目地址为：https://github.com/MyBules/yande_pider

多线程代码分为两个版本：一个是基于多页面多线程，一个是基于单页面多线程

一下是第一种代码：

'''

基于多页面多线程

'''

import os  # 引入文件模块

import re  # 正则表达式

import urllib.request

import threading

# 连接网页并返回源码

def open_url(url):

    try:

        req = urllib.request.Request(url)

        req.add_header("User-Agent",

                       "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")

        response = urllib.request.urlopen(req)

        status_code = response.code

        html = response.read()

        return html

    except:

        print(url + "")

        return 404

def mkdir(path):

    '''

    :param path: 路径

    :return:

    '''

    # 引入模块

    import os

    # 去除首位空格

    path = path.strip()

    # 去除尾部 \ 符号

    path = path.rstrip("\\")

    # 判断路径是否存在

    # 存在     True

    # 不存在   False

    isExists = os.path.exists(path)

    # 判断结果

    if not isExists:

        # 如果不存在则创建目录

        # 创建目录操作函数

        os.makedirs(path)

        print(path + ' 创建成功')

        return True

    else:

        # 如果目录存在则不创建，并提示目录已存在

        print(path + ' 目录已存在')

        return False

def Yande1(i):

    imgs = 1

    url = 'https://yande.re/post?page=' + str(i)

    floder = "E:\\Python\\爬虫\\yande\\img\\page" + str(i)

    mkdir(floder)

    html = open_url(url)

    html = html.decode('gbk', 'ignore')

    img_adds = []

    img_adds = re.findall(r'<a class="directlink largeimg" href="([^"]+\.jpg)"', html)

    for i in img_adds:

        filename = floder + "\\" + str(imgs) + '.jpg'

        imgs += 1

        img_html = open_url(i)

        if img_html == 404:

            continue

        with open(filename, 'wb') as f:

            f.write(img_html)

            print(i + ' 下载完成......')

exitflag = 0

class myThread(threading.Thread):

    def __init__(self, threadID, name, list):

        threading.Thread.__init__(self)

        self.threadID = threadID

        self.name = name

        self.list = list

    def run(self):

        print("开始线程：" + self.name)

        # threadLock.acquire()

        get_img(self.name, self.list)

        # threadLock.release()

        print("退出线程："+ self.name)

def get_img(threadname, list):

    if len(list):

        for i in list:

            if exitflag:

                threadname.exit()

            Yande1(i)

if __name__ == '__main__':

    pages1 = int(input('请输入你要下载的起始页面数：'))

    pages2 = int(input('请输入你要下载的末尾页面数：'))

    mkdir('img')

    # for i in range()

    list1 = []

    list2 = []

    list3 = []

    for i in range(pages1, pages2+1):

        if i % 3 == 0:

            list3.append(i)

        if i % 3 == 1:

            list1.append(i)

        if i % 3 == 2:

            list2.append(i)

    threadLock = threading.Lock()

    threads = []

    thread1 = myThread(1, "thread-1", list1)

    thread2 = myThread(2, "thread-2", list2)

    thread3 = myThread(3, "thread-3", list3)

    thread1.start()

    thread2.start()

    thread3.start()

    threads.append(thread1)

    threads.append(thread2)

    threads.append(thread3)

    for t in threads:

        t.join()

    print("退出主线程")

经测试，两种方法速度相差不大。

第二种方法放在github项目地址里了，如果各位游客是为了学习的话，第二种方法的代码还是去看一下较好。

Python多线程爬虫爬取网页图片的更多相关文章

node：爬虫爬取网页图片
代码地址如下:http://www.demodashi.com/demo/13845.html 前言周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图片 ...
erlang 爬虫——爬取网页图片
说起爬虫,大家第一印象就是想到了python来做爬虫.其实,服务端语言好些都可以来实现这个东东. 在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌 ...
Python爬虫爬取网页图片
没想到python是如此强大,令人着迷,以前看见图片总是一张一张复制粘贴,现在好了,学会python就可以用程序将一张张图片,保存下来. 今天逛贴吧看见好多美图,可是图片有点多,不想一张一张地复制粘贴 ...
Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
java爬虫-简单爬取网页图片
刚刚接触到“爬虫”这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语言编程,这次我选择了 ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
python requests库爬取网页小实例：爬取网页图片
爬取网页图片: #网络图片爬取 import requests import os root="C://Users//Lenovo//Desktop//" #以原文件名作为保存的文 ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...
python3爬虫爬取网页思路及常见问题（原创）
学习爬虫有一段时间了,对遇到的一些问题进行一下总结. 爬虫流程可大致分为:请求网页(request),获取响应(response),解析(parse),保存(save). 下面分别说下这几个过程中可以 ...

随机推荐

《Fluid Engine Development》学习笔记2-基础
断断续续花了一个月,终于把这本书的一二两章啃了下来,理解流体模拟的理论似乎不难,无论是<Fluid Simulation for Computer Graphics>还是<计算流体力 ...
Mariadb/Mysql命令行常用命令
一.初始化等 1.登陆数据库方法 mysql -u 用户名 -p 用户密码 2.修改root及用户密码 use mysql; update user set password=password( ...
nginx+keepalived互为主主高可用配置
和nginx主从安装配置都一样就是配置文件多加个vip 里面具体要改的请看下面的配置文件直接master1上keepalived.conf配置文件内容: ! Configuration ...
Nginx+PHP(FastCGI)高性能服务器加载redis+memcache模块
1)Nginx+FastCGI安装配置: yum install openssl openssl-devel pcre-devel pcre zlib zlib-devel –y #下载Nginx源 ...
javascript当中火狐的firebug如何单步调试程序？
[学习笔记] 2)火狐的firebug如何单步调试程序马克-to-win:火狐中:工具/web 开发者/调试器,开始时没有文件,在浏览器当中点刷新按钮,文件就加载进来了. 文章转载自原文:https ...
dubbo探究
一占位待整理.. 二问题汇总 1 谈谈dubbo的超时重试 dubbo 启动时默认有重试机制和超时机制.如果在一定的时间内,provider没有返回,则认为本次调用失败.重试机制出现在调用失败时 ...
利用Python进行数据分析_Pandas_层次化索引
申明:本系列文章是自己在学习<利用Python进行数据分析>这本书的过程中,为了方便后期自己巩固知识而整理. 层次化索引主要解决低纬度形式处理高纬度数据的问题 import pandas ...
MongoDB 正则表达式查询
正则表达式查询 $regex 注:^ 取反的意思用特殊的转义字符需要在前面加一个斜杠通过 ^取反 ,再通过$not取反,就可获得只包含一种类型的数据 \\d 数字 \\s 空格 \\ ...
SysTick 定时实验(中断)
实验目的:利用 SysTick 产生 1s 的时基,LED 以 1s 的频率闪烁. 编程要点 1.设置重装载寄存器的值 2.清除当前数值寄存器的值 3.配置控制与状态寄存器过程我们创建了两个文件: ...
CSS之cursor用法
cursor: url('~ROOT/shared/assets/image/vn-text-cursor-31-49.png') 22 22, nw-resize; 另外还有一个 cursor: g ...

Python多线程爬虫爬取网页图片

Python多线程爬虫爬取网页图片的更多相关文章

随机推荐

热门专题