python批量下载验证码，用来做验证码处理

刚学到爬虫识别验证码，所以自己建一个获取验证码的类，感兴趣的道友，可以看看，代码如下：

import requests

import time

import os

import re

class Pictures:

    """docstring for Pictures"""

    def __init__(self, url, request=None, file_dir=None, headers=None):

        self.url = url

        if not request:

            self.requests = requests.session()

        else:

            self.requests = request

        if not file_dir:

            self.image_dir = './image/'

        else:

            self.image_dir = file_dir

        if not headers:

            self.headers = {

            'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

            'Accept-Encoding':'gzip,deflate',

            'Accept-Language':'zh-CN,zh;q=0.8',

            'User-Agent':'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.111 Safari/537.36'

            }

        else:

            self.headers = headers

    '''

    保存图片

    '''

    def save_image(self, url=None):

        if url is not None:

            self.url = url

        if not self.url:

            return False

        size = 0

        number = 0

        while size == 0:

            try:

                img_file = self.requests.get(url=self.url, headers=self.headers)

            except self.requests.exceptions.RequestException as e:

                raise e

            # 不是图片跳过

            if not self.check_image(img_file.headers['Content-Type']):

                return False

            file_path = self.image_path(img_file.headers)

            # 保存

            with open(file_path, 'wb') as f:

                f.write(img_file.content)

            # 判断是否正确保存图片

            size = os.path.getsize(file_path)

            if size == 0:

                os.remove(file_path)

            # 如果该图片获取超过十次则跳过

            number += 1

            if number >= 10:

                break

        return file_path if (size > 0) else False

    '''

    图片保存的路径

    '''

    def image_path(self, header):

        # 文件夹

        if not os.path.exists(self.image_dir):

            os.makedirs(self.image_dir)

        # 文件名

        file_name = str(time.time()).replace('.', '')

        # 文件后缀

        suffix = self.img_type(header)

        return self.image_dir + file_name + suffix

    '''

    获取图片后缀名

    '''

    def img_type(self,header):

        # 获取文件属性

        image_attr = header['Content-Type']

        pattern = 'image/([a-zA-Z]+)'

        suffix = re.findall(pattern, image_attr, re.IGNORECASE)

        # 获取后缀

        if not suffix:

            suffix = 'png'

        else:

            suffix = suffix[0]

        if re.search('jpeg', suffix, re.IGNORECASE):

            suffix = 'jpg'

        return '.' + suffix

    # 检查是否为图片类型

    def check_image(self, content_type):

        if 'image' in content_type:

            return True

        else:

            return False

if __name__ == '__main__':

    image = Pictures('http://my.cnki.net/elibregister/CheckCode.aspx')

    for i in range(50):

        image.save_image()

python批量下载验证码，用来做验证码处理的更多相关文章

用Python批量下载DACC的MODIS数据
本人初次尝试用Python批量下载DACC的MODIS数据,记下步骤,提醒自己,数据还在下载,成功是否未知,等待结果中...... 若有大佬发现步骤有不对之处,望指出,不胜感激. 1.下载Python ...
用python批量下载贴吧图片附源代码
环境:windows 7 64位:python2.7:IDE pycharm2016.1 功能: 批量下载百度贴吧某吧某页的所有帖子中的所有图片使用方法: 1.安装python2.7,安装re模块, ...
Python 批量下载BiliBili视频打包成软件
文章目录很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那么针对这三类人,我给大家 ...
python批量下载微信好友头像，微信头像批量下载
#!/usr/bin/python #coding=utf8 # 自行下载微信模块 itchat 小和QQ496631085 import itchat,os itchat.auto_login() ...
用python批量下载图片
一写爬虫注意事项网络上有不少有用的资源, 如果需要合理的用爬虫去爬取资源是合法的,但是注意不要越界,前一阶段有个公司因为一个程序员写了个爬虫,导致公司200多个人被抓,所以先进入正题之前了解下什么 ...
python——批量下载图片
前言批量下载网页上的图片需要三个步骤: 获取网页的URL 获取网页上图片的URL 下载图片例子 from html.parser import HTMLParser import urllib.r ...
Python - 批量下载 IIS 共享的文件
1.说明用 IIS 以WEB形式发布了本地文件夹,提供文件下载,并设置了访问权限:默认下载需要点击一个一个的下载,web界面如下: 3.脚本执行脚本批量下载文件,会在当前目录创建文件夹,并压缩该文 ...
用 Python 批量下载百度图片
为了做一个图像分类的小项目,需要制作自己的数据集.要想制作数据集,就得从网上下载大量的图片,再统一处理. 这时,一张张的保存下载,就显得很繁琐.那么,有没有一种方法可以把搜索到的图片直接下载到本地 ...
python批量下载图片的三种方法
一是用微软提供的扩展库win32com来操作IE: win32com可以获得类似js里面的document对象,但貌似是只读的(文档都没找到). 二是用selenium的webdriver: sele ...

随机推荐

STM32程序加载与调试
1.STM32程序的ISP下载,只能使用串口1,其它串口不可以.
VB之Collection---Collection集合类
你看到的这个文章来自于http://www.cnblogs.com/ayanmw 由于要对一些数据进行处理,比较麻烦,实现某个算法要处理大量不同的不同类型的数据. 所以考虑到一些因素,又在使用VB6( ...
python模块与包的详解
一模块 1.什么是模块? 常见场景:一个模块包含python定义和声明的文件,文件名就是模块名字加上.py的后缀 2.为何要是用模块如果你退出python解释器然后重新进入,那么你之前定义的函数或者 ...
java并发学习--第七章 JDK提供的线程工具类
一.ThreadLocal ThreadLocal类用于隔离多线程中使用的对象,为ThreadLocal类中传递的泛型就是要隔离的对象,简单的来说:如果我们在主线程创建了一个对象,并且需要给下面的多线 ...
基于iview使用jsx扩展成可编辑的表格
<template> <div> <Table :columns="columns" :data="data"></T ...
MySQL--缓存的使用注意
几个参数 query_cache_type:为ON时开启,为OFF关闭,为DEMAND时则只有查询语句中有sql cache时才使用缓存 query_cache_size: 缓存的内存空间 query ...
layui 表格设置td的宽度
layui 表格设置td的宽度, td{ min-width: 150px; max-width: 200px; } 超出长度隐藏 overflow: hidden; text-overflow: e ...
java 用RGB生成图片动态命名
import java.awt.Color; import java.awt.Graphics2D; import java.awt.image.BufferedImage; import java. ...
clang和llvm的安装
https://blog.csdn.net/qq_31157999/article/details/78906982
vs 2010创建Windows服务定时timer程序
vs 2010创建Windows服务定时timer程序: 版权声明:本文为搜集借鉴各类文章的原创文章,转载请注明出处: http://www.cnblogs.com/2186009311CFF/p/ ...

python批量下载验证码，用来做验证码处理

python批量下载验证码，用来做验证码处理的更多相关文章

随机推荐

热门专题