python批量下载图片3

import urllib.request

import os

def url_open(url):

    req = urllib.request.Request(url)

    req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.134 Safari/537.36')

    response = urllib.request.urlopen(url)

    html = response.read()

    return html

def get_page(url):

    html =  url_open(url).decode('utf-8')

    a = html.find('current-comment-page') + 23

    b = html.find(']',a)

    return html[a:b]

def find_imgs(url):

    html = url_open(url).decode('utf-8')

    img_addrs = []

    a = html.find('img src=')

    while a!=-1:

        b = html.find('.jpg',a,a+255)

        if b != -1:

            img_addrs.append(html[a+9:b+4])

        else:

            b = a + 9

        a = html.find('img src=',b)

    return img_addrs

def save_imgs(folder,img_addrs):

     for each in img_addrs:

          filename = each.split('/')[-1]

          urllib.request.urlretrieve(each,filename,None)

def download_mm(folder='OOXX',pages=10):

    #os.mkdir(folder)

    os.chdir(folder)

    url = "http://konachan.com/post?tags=rating%3Asafe"

    page_num = int(2)

    for i in range(pages):

        page_num += i

        print(i)

        page_url = 'http://konachan.com/post?page=' + str(page_num) + '&tags=rating%3Asafe'

        print(page_url)

        img_addrs = find_imgs(page_url)

        save_imgs(folder,img_addrs)

if __name__=='__main__':

    download_mm()

和

import urllib.request

import os

def url_open(url):

    req = urllib.request.Request(url)

    req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.134 Safari/537.36')

    response = urllib.request.urlopen(url)

    html = response.read()

    return html

def get_page(url):

    html =  url_open(url).decode('utf-8')

    a = html.find('current-comment-page') + 23

    b = html.find(']',a)

    return html[a:b]

def find_imgs(url):

    html = url_open(url).decode('utf-8')

    img_addrs = []

    a = html.find('img src=')

    while a!=-1:

        b = html.find('.jpg',a,a+255)

        if b != -1:

            img_addrs.append(html[a+9:b+4])

        else:

            b = a + 9

        a = html.find('img src=',b)

    return img_addrs

def save_imgs(folder,img_addrs):

     for each in img_addrs:

          filename = each.split('/')[-1]

          with open(filename,'wb')as f:

                img = url_open(each)

                f.write(img)
　　　　　　　　　 f.close()                                              #每次存储之后都要close()否则存储的只是一个图

def download_mm(folder='OOXX',pages=10):

    os.mkdir(folder)

    os.chdir(folder)

    url = "http://konachan.com/post?tags=rating%3Asafe"

    page_num = int(2)

    for i in range(pages):

        page_num += i

        print(i)

        page_url = 'http://konachan.com/post?page=' + str(page_num) + '&tags=rating%3Asafe'

        print(page_url)

        img_addrs = find_imgs(page_url)

        save_imgs(folder,img_addrs)

if __name__=='__main__':

    download_mm()

python批量下载图片3的更多相关文章

用python批量下载图片
一写爬虫注意事项网络上有不少有用的资源, 如果需要合理的用爬虫去爬取资源是合法的,但是注意不要越界,前一阶段有个公司因为一个程序员写了个爬虫,导致公司200多个人被抓,所以先进入正题之前了解下什么 ...
python——批量下载图片
前言批量下载网页上的图片需要三个步骤: 获取网页的URL 获取网页上图片的URL 下载图片例子 from html.parser import HTMLParser import urllib.r ...
python批量下载图片的三种方法
一是用微软提供的扩展库win32com来操作IE: win32com可以获得类似js里面的document对象,但貌似是只读的(文档都没找到). 二是用selenium的webdriver: sele ...
python 批量下载图片
#coding=utf-8import re,sysimport urllib def getHtml(url): page = urllib.urlopen(url) html = page.rea ...
python批量下载图片
从数据库拿了一批图片地址,需要一张一张的把图片下载下来,自从有了python,想到能省事就琢磨如何省事. 代码如下: import urllib.requestf=open("E:\999\ ...
【Python】nvshens按目录批量下载图片爬虫1.00(单线程版)
# nvshens按目录批量下载图片爬虫1.00(单线程版) from bs4 import BeautifulSoup import requests import datetime import ...
用Python批量下载DACC的MODIS数据
本人初次尝试用Python批量下载DACC的MODIS数据,记下步骤,提醒自己,数据还在下载,成功是否未知,等待结果中...... 若有大佬发现步骤有不对之处,望指出,不胜感激. 1.下载Python ...
Python批量修改图片格式和尺寸
Python批量修改图片格式和尺寸备注: 1.导入了PIL库,是处理图片用的,很强大; 2.导入了的win32库,是判断隐藏文件用的,我们的项目需要删除隐藏文件,不需要的可以直接找到删除. 3.导入 ...
scrapy操作mysql/批量下载图片
1.操作mysql items.py meiju.py 3.piplines.py 4.settings.py -------------------------------------------- ...

随机推荐

Hessian 2.0 序列化协议 - Hessian 2.0 Serialization Protocol 翻译
Hessian是一种轻量.快速的web协议,在微服务场景下经常被使用. Hessian协议实际上包含两种含义: 1. Web网络通信远程调用服务,具体可以参考:http://hessian.cauch ...
下拉框select chosen被遮盖
最简单的就是让容器高度大点. 用js调整也行. 为什么z-index不管事,看下面... 浏览器支持所有主流浏览器都支持 z-index 属性. 注释:任何的版本的 Internet Explore ...
user32的使用
通过代码查询特定的窗口,并在文本框中输入文字然后单击"OK"按钮需要查找的Dialog 使用Spy++查看窗口信息通过代码实现功能 class Program { //defi ...
[C/C++] malloc内存分配与free内存释放原理
1.问题的引入: 为什么要使用malloc,主要是因为在代码中,为了节约内存,很多数据都是动态生成的,所以会用malloc,对应于C++中的new,底层还是调用malloc. 2.碎片的问题: 会有内 ...
BZOJ4448 SCOI2015情报传递（离线+树链剖分+树状数组）
即滋磁单点修改,询问路径上小于某数的值有多少个.暴力树剖套个主席树(或者直接树上主席树,似乎就1个log了?感觉不一定比两个log快)即可,然而不太优美. 开始觉得可以cdq,然而就变成log^3了. ...
[NOI2017 D1T1]整数
题目大意:有一个整数 $x$ ,一开始为 $0$ .有 $n$ 个操作,有两种类型: $1 \;a\; b$:将 $x$ 加上整数 $a\cdot 2^b$ ,其中 $a$ 为一个整数, $b$ 为一 ...
安徽师大附中%你赛day9 T2 富解题报告
富题目背景出于某些原因, 苟先生在追杀富先生. 题目描述富先生所在的地方是一个$n\times m$的网格,苟先生排出了他的狼狗大军,共有$k$条狗,第$i$条狗所在的位置为\((x ...
一个简易的Python全站抓取系统
很长时间没有更新博客了,前一阵时间在做项目,里面有一个爬虫系统,然后就从里面整理了一点代码做成了一个简易的爬虫系统,还挺实用的. 简单说来,这个爬虫系统的功能就是:给定初始的链接池,然后设定一些参数, ...
模拟实现jdk动态代理
实现步骤 1.生成代理类的源代码 2.将源代码保存到磁盘 3.使用JavaCompiler编译源代码生成.class字节码文件 4.使用JavaCompiler编译源代码生成.class字节码文件 5 ...
java+ssh+eclipse开发过程问题记录
原文 http://www.sdfengxi.com/?p=408 最近在忙着的项目是基于cloudstack平台的管理平台,因为CloudStack使用java开发,管理机上已部署好rhel+t ...

python批量下载图片3

python批量下载图片3的更多相关文章

随机推荐

热门专题