Python多线程爬虫爬取网页图片

临近期末考试，但是根本不想复习！啊啊啊啊啊啊啊！！！！

于是做了一个爬虫，网址为 https://yande.re，网页图片为动漫美图（图片带点颜色........宅男福利

github项目地址为：https://github.com/MyBules/yande_pider

多线程代码分为两个版本：一个是基于多页面多线程，一个是基于单页面多线程

一下是第一种代码：

'''

基于多页面多线程

'''

import os  # 引入文件模块

import re  # 正则表达式

import urllib.request

import threading

# 连接网页并返回源码

def open_url(url):

    try:

        req = urllib.request.Request(url)

        req.add_header("User-Agent",

                       "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")

        response = urllib.request.urlopen(req)

        status_code = response.code

        html = response.read()

        return html

    except:

        print(url + "")

        return 404

def mkdir(path):

    '''

    :param path: 路径

    :return:

    '''

    # 引入模块

    import os

    # 去除首位空格

    path = path.strip()

    # 去除尾部 \ 符号

    path = path.rstrip("\\")

    # 判断路径是否存在

    # 存在     True

    # 不存在   False

    isExists = os.path.exists(path)

    # 判断结果

    if not isExists:

        # 如果不存在则创建目录

        # 创建目录操作函数

        os.makedirs(path)

        print(path + ' 创建成功')

        return True

    else:

        # 如果目录存在则不创建，并提示目录已存在

        print(path + ' 目录已存在')

        return False

def Yande1(i):

    imgs = 1

    url = 'https://yande.re/post?page=' + str(i)

    floder = "E:\\Python\\爬虫\\yande\\img\\page" + str(i)

    mkdir(floder)

    html = open_url(url)

    html = html.decode('gbk', 'ignore')

    img_adds = []

    img_adds = re.findall(r'<a class="directlink largeimg" href="([^"]+\.jpg)"', html)

    for i in img_adds:

        filename = floder + "\\" + str(imgs) + '.jpg'

        imgs += 1

        img_html = open_url(i)

        if img_html == 404:

            continue

        with open(filename, 'wb') as f:

            f.write(img_html)

            print(i + ' 下载完成......')

exitflag = 0

class myThread(threading.Thread):

    def __init__(self, threadID, name, list):

        threading.Thread.__init__(self)

        self.threadID = threadID

        self.name = name

        self.list = list

    def run(self):

        print("开始线程：" + self.name)

        # threadLock.acquire()

        get_img(self.name, self.list)

        # threadLock.release()

        print("退出线程："+ self.name)

def get_img(threadname, list):

    if len(list):

        for i in list:

            if exitflag:

                threadname.exit()

            Yande1(i)

if __name__ == '__main__':

    pages1 = int(input('请输入你要下载的起始页面数：'))

    pages2 = int(input('请输入你要下载的末尾页面数：'))

    mkdir('img')

    # for i in range()

    list1 = []

    list2 = []

    list3 = []

    for i in range(pages1, pages2+1):

        if i % 3 == 0:

            list3.append(i)

        if i % 3 == 1:

            list1.append(i)

        if i % 3 == 2:

            list2.append(i)

    threadLock = threading.Lock()

    threads = []

    thread1 = myThread(1, "thread-1", list1)

    thread2 = myThread(2, "thread-2", list2)

    thread3 = myThread(3, "thread-3", list3)

    thread1.start()

    thread2.start()

    thread3.start()

    threads.append(thread1)

    threads.append(thread2)

    threads.append(thread3)

    for t in threads:

        t.join()

    print("退出主线程")

经测试，两种方法速度相差不大。

第二种方法放在github项目地址里了，如果各位游客是为了学习的话，第二种方法的代码还是去看一下较好。

Python多线程爬虫爬取网页图片的更多相关文章

node：爬虫爬取网页图片
代码地址如下:http://www.demodashi.com/demo/13845.html 前言周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图片 ...
erlang 爬虫——爬取网页图片
说起爬虫,大家第一印象就是想到了python来做爬虫.其实,服务端语言好些都可以来实现这个东东. 在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌 ...
Python爬虫爬取网页图片
没想到python是如此强大,令人着迷,以前看见图片总是一张一张复制粘贴,现在好了,学会python就可以用程序将一张张图片,保存下来. 今天逛贴吧看见好多美图,可是图片有点多,不想一张一张地复制粘贴 ...
Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
java爬虫-简单爬取网页图片
刚刚接触到“爬虫”这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语言编程,这次我选择了 ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
python requests库爬取网页小实例：爬取网页图片
爬取网页图片: #网络图片爬取 import requests import os root="C://Users//Lenovo//Desktop//" #以原文件名作为保存的文 ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...
python3爬虫爬取网页思路及常见问题（原创）
学习爬虫有一段时间了,对遇到的一些问题进行一下总结. 爬虫流程可大致分为:请求网页(request),获取响应(response),解析(parse),保存(save). 下面分别说下这几个过程中可以 ...

随机推荐

iOS-self.用法
关于self.用法的一些总结 2010-01-10 21:46 最近有人问我关于什么时候用self.赋值的问题, 我总结了一下, 发出来给大家参考. 有什么问题请大家斧正. 关于什么时间用self. ...
WordPress获取特色图像的链接地址
为什么要获取WordPress的特色图像呢? 这主要是因为,我们已经写好了静态模板文件,只有获取WordPress特色图像地址插入进去就可以了,非常方便. 还有就是有的时候,我们需要设置图片的宽度为1 ...
对图片清晰度问题，纠结了一晚上。清理了下Libray，瞬间变清晰了，泪奔
对图片清晰度问题,纠结了一晚上.清理了下Libray,瞬间变清晰了,泪奔
selenium之定位详篇
一.Web定位方法(find_elements返回元素list) 1.id: find_element_by_id() # find_element_by_id("id") fi ...
Linux_Ubantu下编译c++文件
1. 编译单个文件利用cmake进行编译首先在项目文件夹中创建.cpp文件利用最简单的 hello world #include<iostream> using namespace ...
Python基础第6章抽象
1. 引言及抽象和结构生成斐波那契数列的代码如下: fibs = [0, 1] num = int(input('How many num you want:')) for x in range(n ...
2019java学习路线图
学习路线图往往是学习一样技术的入门指南.网上搜到的Java学习路线图也是一抓一大把.但是很多学习路线图总结的云里雾里,也没有配套的视频,学习效果并不好. 分享一个完整的Java学习路线图给大家,也是贴 ...
“Using 声明”在 C# 7.3 中不可用。请使用 8.0 或更高的语言版本。
Core3.0升级至3.1时候报错:“Using 声明”在 C# 7.3 中不可用.请使用 8.0 或更高的语言版本. 参照微软文档:https://docs.microsoft.com/zh-cn/ ...
Crossword Expert CodeForces - 1194F (期望)
大意: $n$个题, 按照第$i$题随机$t_i$或$t_i+1$秒钟完成, 最多做$T$秒, 求做题数期望. 期望转为做题数$\ge x$的方案数之和最后再除以总方案数这是因为$\sum\limi ...
Unity塔防游戏的创建
看了下塔防游戏的教程,比我想像的还简单一些,有些收获: (1)敌人的移动路径,其时比较简单,用了N个Empty GameObject作为路径点,然后做一个总的Empty GameObject 作为父级 ...

Python多线程爬虫爬取网页图片

Python多线程爬虫爬取网页图片的更多相关文章

随机推荐

热门专题