Python图片爬虫

1.今天给大家介绍自己写的一个图片爬虫，说白了就是从网页自动上下载需要的图片

2.首先选取目标为：http://www.zhangzishi.cc/涨姿势这个网站如下图，我们的目标就是爬取该网站福利社的所有美图

3.福利社地址为http://www.zhangzishi.cc/category/welfare，获取图片就是获取所有网站图片的url地址,首先

A.打开URL,获取html代码

def url_open(url):

    req = urllib.request.Request(url)

    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')

    response = urllib.request.urlopen(req)

    html = response.read()

    print('url_open')

    return html

B.从html代码中摘取网页链接，返回的是一个列表

def page_htmls(url,count):

    html = url_open(url).decode('utf-8')

    pages = []

    a = html.find('a target="_blank" href=')

    i = 0

    while a != -1:

        i += 1

        b = html.find('.html',a,a+200)

        if b != -1:

            pages.append(html[a+24:b+5])

        else:

            b = a + 24

        a = html.find('a target="_blank" href=',b)

        if i == count:

            break

    for each in pages:

        print(each)

    return pages

C.从每一个链接页中获取图片地址，我这用了两种方法

def find_imgs(url):

    html = url_open(url).decode('utf-8')

    imgs = []

    a = html.find('img src=')

    while a != -1:

        b = html.find('.jpg',a,a+100)

        if b != -1:

            if html[a+9:b+4].find('http') == -1:

                imgs.append('http:'+html[a+9:b+4])

            else:

                imgs.append(html[a+9:b+4])

        else:

            b = a + 9

        a = html.find('img src=',b)

        '''

    for each in imgs:

        print(each)

        '''

    return imgs

def imgurl_get(url):

    html = url_open(url).decode('utf-8')

    imgurls = []

    a = html.find('color: #555555;" src=')

    while a != -1:

        b = html.find('.jpg',a,a+100)

        if b != -1:

            imgurls.append('http:'+html[a+22:b+4])

        else:

            b = a + 22

        a = html.find('color: #555555;" src=',b)

    return imgurls

D.根据图片url下载图片到文件

def save_imgs(folder,imgs):

    for ea in imgs:

        filename = ea.split('/')[-1]

        with open(filename,'wb') as f:

            img = url_open(ea)

            f.write(img)

def download_mm(folder='H:\\xxoo2',page_count = 100,count = 100):

    main_url = 'http://www.zhangzishi.cc/category/welfare'

    main_urls = []

    for i in range(count):

        main_urls.append(main_url+'/page/'+str(i+1))

    os.mkdir(folder)

    os.chdir(folder)

    for url in main_urls:

        htmls = page_htmls(url,page_count)

        for page in htmls:

            imgurls = imgurl_get(page)

            save_imgs(folder,imgurls)

E.开始下载

def download__img(folder='H:\\xxoo',page_count=100):

    main_url = 'http://www.zhangzishi.cc/category/welfare'

    os.mkdir(folder)

    os.chdir(folder)

    htmls = page_htmls(main_url,page_count)

    for page in htmls:

       imgs_url =  find_imgs(page)

       save_imgs(folder,imgs_url)

if __name__ == '__main__':

    download_mm()

    #download__img()

F:下载结果

顺便附上全部代码：

import urllib.request

import os

def url_open(url):

    req = urllib.request.Request(url)

    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')

    response = urllib.request.urlopen(req)

    html = response.read()

    print('url_open')

    return html

def page_htmls(url,count):

    html = url_open(url).decode('utf-8')

    pages = []

    a = html.find('a target="_blank" href=')

    i = 0

    while a != -1:

        i += 1

        b = html.find('.html',a,a+200)

        if b != -1:

            pages.append(html[a+24:b+5])

        else:

            b = a + 24

        a = html.find('a target="_blank" href=',b)

        if i == count:

            break

    for each in pages:

        print(each)

    return pages

'''

'''

def find_imgs(url):

    html = url_open(url).decode('utf-8')

    imgs = []

    a = html.find('img src=')

    while a != -1:

        b = html.find('.jpg',a,a+100)

        if b != -1:

            if html[a+9:b+4].find('http') == -1:

                imgs.append('http:'+html[a+9:b+4])

            else:

                imgs.append(html[a+9:b+4])

        else:

            b = a + 9

        a = html.find('img src=',b)

        '''

    for each in imgs:

        print(each)

        '''

    return imgs

def imgurl_get(url):

    html = url_open(url).decode('utf-8')

    imgurls = []

    a = html.find('color: #555555;" src=')

    while a != -1:

        b = html.find('.jpg',a,a+100)

        if b != -1:

            imgurls.append('http:'+html[a+22:b+4])

        else:

            b = a + 22

        a = html.find('color: #555555;" src=',b)

    return imgurls

'''

    for each in imgurls:

        print(each)

'''

def save_imgs(folder,imgs):

    for ea in imgs:

        filename = ea.split('/')[-1]

        with open(filename,'wb') as f:

            img = url_open(ea)

            f.write(img)

def download_mm(folder='H:\\xxoo2',page_count = 100,count = 100):

    main_url = 'http://www.zhangzishi.cc/category/welfare'

    main_urls = []

    for i in range(count):

        main_urls.append(main_url+'/page/'+str(i+1))

    os.mkdir(folder)

    os.chdir(folder)

    for url in main_urls:

        htmls = page_htmls(url,page_count)

        for page in htmls:

            imgurls = imgurl_get(page)

            save_imgs(folder,imgurls)

def download__img(folder='H:\\xxoo',page_count=100):

    main_url = 'http://www.zhangzishi.cc/category/welfare'

    os.mkdir(folder)

    os.chdir(folder)

    htmls = page_htmls(main_url,page_count)

    for page in htmls:

       imgs_url =  find_imgs(page)

       save_imgs(folder,imgs_url)

if __name__ == '__main__':

    download_mm()

    #download__img()

Python图片爬虫的更多相关文章

python 图片爬虫
#!/usr/bin/env python #coding:utf-8 import urllib import re def GetHtml(url): """获取HT ...
python图片爬虫 - 批量下载unsplash图片
前言 unslpash绝对是找图的绝佳场所, 但是进网站等待图片加载真的令人捉急, 仿佛是一场拼RP的战争然后就开始思考用爬虫帮我批量下载, 等下载完再挑选, 操作了一下不算很麻烦, 顺便也给大家提 ...
python简易爬虫来实现自动图片下载
菜鸟新人刚刚入住博客园,先发个之前写的简易爬虫的实现吧,水平有限请轻喷. 估计利用python实现爬虫的程序网上已经有太多了,不过新人用来练手学习python确实是个不错的选择.本人借鉴网上的部分实现 ...
Python爬虫02——贴吧图片爬虫V2.0
Python小爬虫——贴吧图片爬虫V2.0 贴吧图片爬虫进阶:在上次的第一个小爬虫过后,用了几次发现每爬一个帖子,都要自己手动输入帖子链接,WTF这程序简直反人类!不行了不行了得改进改进. 思路: 贴 ...
python多线程爬虫+批量下载斗图啦图片项目（关注、持续更新）
python多线程爬虫项目() 爬取目标:斗图啦(起始url:http://www.doutula.com/photo/list/?page=1) 爬取内容:斗图啦全网图片使用工具:requests ...
第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器
第三百四十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器编写spiders爬虫文件循环 ...
python网络爬虫之解析网页的正则表达式(爬取4k动漫图片)[三]
前言 hello,大家好本章可是一个重中之重,因为我们今天是要爬取一个图片而不是一个网页或是一个json 所以我们也就不用用到selenium模块了,当然有兴趣的同学也一样可以使用selenium去 ...
python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片
Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片其实没太大用,就是方便一些,因为现在各个平台之间的图片都不能共享,比如说在 CSDN 不能用简书的图片, ...

随机推荐

Spring MVC 学习总结（九）——Spring MVC实现RESTful与JSON（Spring MVC为前端提供服务）
很多时候前端都需要调用后台服务实现交互功能,常见的数据交换格式多是JSON或XML,这里主要讲解Spring MVC为前端提供JSON格式的数据并实现与前台交互.RESTful则是一种软件架构风格.设 ...
Nginx 搭建rtmp直播服务器
1.到nginx源码目录新建个rtmp目录 ,进入 git clone https://github.com/arut/nginx-rtmp-module.git 2.重编译nginx 代码如下 ...
mysqldump指定编码导出数据
mysqldump指定编码导出数据第一步,导出旧库 mysqldump --default-character-set=latin1 -uroot -pXXX --database db > ...
PHP求解一个值是否为质数
/** * 求解一个值是否为质数 * * @param $a * @return int 0是 1不是 */ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 function ...
选择客栈noip2011
哈,没想到吧.今天居然有两篇(算什么,厕所读物吗选择客栈本题的更优解请跳转zt 这题11年,刚改2day. 对于30% 的数据,有 n ≤100: 对于50% 的数据,有 n ≤1,000: 对于 ...
用nodejs把目录下所有用px做单位的css文件转化为用rem做单位的css文件
20171105 1211/星期日公司为了更好适配手机端,以前用px做单位的css文件,全部需要转化为用rem做单位,目前是1rem=37.5px;开发新项目时,还是用习惯的px写样式代码,完成UI ...
【算法】二叉查找树实现字典API
参考资料 <算法(java)> — — Robert Sedgewick, Kevin Wayne <数据结构> ...
实践作业3：白盒测试----我是如何写测试用例DAY6
一开始接到写白盒测试的任务,我感觉挺难的,因为感觉之前我所想到的都是黑盒测试啊,说到测试系统逻辑,感觉就有些神秘的样子没有思路了,那黑盒和白盒写的到底有啥区别.后来我请教了实验室的一个同学,他虽然还没 ...
JAVA通过Gearman实现MySQL到Redis的数据同步（异步复制）
MySQL到Redis数据复制方案无论MySQL还是Redis,自身都带有数据同步的机制,像比较常用的 MySQL的Master/Slave模式 ,就是由Slave端分析Master的binlog来 ...
Create-React-App创建antd-mobile开发环境(学习中的记录)
(参考别人结合自己的整理得出,若有错误请大神指出) Facebook 官方推出Create-React-App脚手架,基本可以零配置搭建基于webpack的React开发环境,内置了热更新等功能. 详 ...

Python图片爬虫

Python图片爬虫的更多相关文章

随机推荐

热门专题