1.今天给大家介绍自己写的一个图片爬虫,说白了就是从网页自动上下载需要的图片

2.首先选取目标为:http://www.zhangzishi.cc/涨姿势这个网站如下图,我们的目标就是爬取该网站福利社的所有美图

3.福利社地址为http://www.zhangzishi.cc/category/welfare,获取图片就是获取所有网站图片的url地址,首先

A.打开URL,获取html代码

def url_open(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')
response = urllib.request.urlopen(req)
html = response.read()
print('url_open')
return html

B.从html代码中摘取网页链接,返回的是一个列表

def page_htmls(url,count):
html = url_open(url).decode('utf-8')
pages = []
a = html.find('a target="_blank" href=')
i = 0
while a != -1:
i += 1
b = html.find('.html',a,a+200)
if b != -1:
pages.append(html[a+24:b+5])
else:
b = a + 24
a = html.find('a target="_blank" href=',b)
if i == count:
break
for each in pages:
print(each)
return pages

C.从每一个链接页中获取图片地址,我这用了两种方法

def find_imgs(url):
html = url_open(url).decode('utf-8')
imgs = [] a = html.find('img src=')
while a != -1:
b = html.find('.jpg',a,a+100)
if b != -1:
if html[a+9:b+4].find('http') == -1:
imgs.append('http:'+html[a+9:b+4])
else:
imgs.append(html[a+9:b+4])
else:
b = a + 9
a = html.find('img src=',b)
'''
for each in imgs:
print(each)
'''
return imgs def imgurl_get(url):
html = url_open(url).decode('utf-8')
imgurls = []
a = html.find('color: #555555;" src=')
while a != -1:
b = html.find('.jpg',a,a+100)
if b != -1:
imgurls.append('http:'+html[a+22:b+4])
else:
b = a + 22
a = html.find('color: #555555;" src=',b) return imgurls

D.根据图片url下载图片到文件

def save_imgs(folder,imgs):
for ea in imgs:
filename = ea.split('/')[-1]
with open(filename,'wb') as f:
img = url_open(ea)
f.write(img) def download_mm(folder='H:\\xxoo2',page_count = 100,count = 100):
main_url = 'http://www.zhangzishi.cc/category/welfare'
main_urls = []
for i in range(count):
main_urls.append(main_url+'/page/'+str(i+1))
os.mkdir(folder)
os.chdir(folder)
for url in main_urls:
htmls = page_htmls(url,page_count)
for page in htmls:
imgurls = imgurl_get(page) save_imgs(folder,imgurls)

E.开始下载

def download__img(folder='H:\\xxoo',page_count=100):
main_url = 'http://www.zhangzishi.cc/category/welfare'
os.mkdir(folder)
os.chdir(folder)
htmls = page_htmls(main_url,page_count)
for page in htmls:
imgs_url = find_imgs(page) save_imgs(folder,imgs_url) if __name__ == '__main__': download_mm()
#download__img()

F:下载结果

顺便附上全部代码:

import urllib.request
import os def url_open(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')
response = urllib.request.urlopen(req)
html = response.read()
print('url_open')
return html def page_htmls(url,count):
html = url_open(url).decode('utf-8')
pages = []
a = html.find('a target="_blank" href=')
i = 0
while a != -1:
i += 1
b = html.find('.html',a,a+200)
if b != -1:
pages.append(html[a+24:b+5])
else:
b = a + 24
a = html.find('a target="_blank" href=',b)
if i == count:
break
for each in pages:
print(each)
return pages
''' '''
def find_imgs(url):
html = url_open(url).decode('utf-8')
imgs = [] a = html.find('img src=')
while a != -1:
b = html.find('.jpg',a,a+100)
if b != -1:
if html[a+9:b+4].find('http') == -1:
imgs.append('http:'+html[a+9:b+4])
else:
imgs.append(html[a+9:b+4])
else:
b = a + 9
a = html.find('img src=',b)
'''
for each in imgs:
print(each)
'''
return imgs def imgurl_get(url):
html = url_open(url).decode('utf-8')
imgurls = []
a = html.find('color: #555555;" src=')
while a != -1:
b = html.find('.jpg',a,a+100)
if b != -1:
imgurls.append('http:'+html[a+22:b+4])
else:
b = a + 22
a = html.find('color: #555555;" src=',b) return imgurls
'''
for each in imgurls:
print(each)
''' def save_imgs(folder,imgs):
for ea in imgs:
filename = ea.split('/')[-1]
with open(filename,'wb') as f:
img = url_open(ea)
f.write(img) def download_mm(folder='H:\\xxoo2',page_count = 100,count = 100):
main_url = 'http://www.zhangzishi.cc/category/welfare'
main_urls = []
for i in range(count):
main_urls.append(main_url+'/page/'+str(i+1))
os.mkdir(folder)
os.chdir(folder)
for url in main_urls:
htmls = page_htmls(url,page_count)
for page in htmls:
imgurls = imgurl_get(page) save_imgs(folder,imgurls) def download__img(folder='H:\\xxoo',page_count=100):
main_url = 'http://www.zhangzishi.cc/category/welfare'
os.mkdir(folder)
os.chdir(folder)
htmls = page_htmls(main_url,page_count)
for page in htmls:
imgs_url = find_imgs(page) save_imgs(folder,imgs_url) if __name__ == '__main__': download_mm()
#download__img()

Python图片爬虫的更多相关文章

  1. python 图片爬虫

    #!/usr/bin/env python #coding:utf-8 import urllib import re def GetHtml(url): """获取HT ...

  2. python图片爬虫 - 批量下载unsplash图片

    前言 unslpash绝对是找图的绝佳场所, 但是进网站等待图片加载真的令人捉急, 仿佛是一场拼RP的战争 然后就开始思考用爬虫帮我批量下载, 等下载完再挑选, 操作了一下不算很麻烦, 顺便也给大家提 ...

  3. python简易爬虫来实现自动图片下载

    菜鸟新人刚刚入住博客园,先发个之前写的简易爬虫的实现吧,水平有限请轻喷. 估计利用python实现爬虫的程序网上已经有太多了,不过新人用来练手学习python确实是个不错的选择.本人借鉴网上的部分实现 ...

  4. Python爬虫02——贴吧图片爬虫V2.0

    Python小爬虫——贴吧图片爬虫V2.0 贴吧图片爬虫进阶:在上次的第一个小爬虫过后,用了几次发现每爬一个帖子,都要自己手动输入帖子链接,WTF这程序简直反人类!不行了不行了得改进改进. 思路: 贴 ...

  5. python多线程爬虫+批量下载斗图啦图片项目(关注、持续更新)

    python多线程爬虫项目() 爬取目标:斗图啦(起始url:http://www.doutula.com/photo/list/?page=1) 爬取内容:斗图啦全网图片 使用工具:requests ...

  6. 第三百四十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器

    第三百四十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器 编写spiders爬虫文件循环 ...

  7. python网络爬虫之解析网页的正则表达式(爬取4k动漫图片)[三]

    前言 hello,大家好 本章可是一个重中之重,因为我们今天是要爬取一个图片而不是一个网页或是一个json 所以我们也就不用用到selenium模块了,当然有兴趣的同学也一样可以使用selenium去 ...

  8. python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]

    目录 前言 一.BeautifulSoup的基本语法 二.爬取网页图片 扩展学习 后记 前言 本章同样是解析一个网页的结构信息 在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...

  9. Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片

    Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片 其实没太大用,就是方便一些,因为现在各个平台之间的图片都不能共享,比如说在 CSDN 不能用简书的图片, ...

随机推荐

  1. lodash源码分析之chunk的尺与刀

    以不正义开始的事情,必须用罪恶使它巩固. --莎士比亚<麦克白> 最近很多事似乎印证了这句话,一句谎言最后要用一百句谎言来圆谎. 本文为读 lodash 源码的第二篇,后续文章会更新到这个 ...

  2. 矩阵取数游戏洛谷p1005

    题目描述 帅帅经常跟同学玩一个矩阵取数游戏:对于一个给定的n*m的矩阵,矩阵中的每个元素aij均为非负整数.游戏规则如下: 1.每次取数时须从每行各取走一个元素,共n个.m次后取完矩阵所有元素: 2. ...

  3. Filter、Listener 学习总结

    今天我们来介绍 Filter.Listener 这两个模块一些简单的知识和应用,接下来我们开始我们的正题 ! 1. Filter(过滤器) 1.1 对 Servlet 容器调用 Servlet 的过程 ...

  4. poj 2456 Aggressive cows && nyoj 疯牛 最大化最小值 二分

    poj 2456 Aggressive cows && nyoj 疯牛 最大化最小值 二分 题目链接: nyoj : http://acm.nyist.net/JudgeOnline/ ...

  5. Solr6.5.0配置中文分词器配置

    准备工作: solr6.5.0安装成功 1.去官网https://github.com/wks/ik-analyzer下载IK分词器 2.Solr集成IK a)将ik-analyzer-solr6.x ...

  6. DDD峰会归来话DDD

    一场大戏落幕,首届DDD中国峰会如大会主题色一般的红.或许在12月9日这一天,全中国的DDD粉丝大约有一半都汇聚在了国家会议中心.听起来是幸,其实是不幸,因为DDD在中国的人群基数实在是太少了. 因为 ...

  7. replace深入

    var b = 0; var arr = []; str = str.replace(/J/g,function(){ var args = arguments; b++; arr.push(args ...

  8. 蓝牙核心技术概述(五):蓝牙协议规范(irOBEX、BNEP、AVDTP、AVCTP)

    关键词:蓝牙核心技术协议  irDA BNEP  AVDTP AVCTP 作者:xubin341719(欢迎转载,请注明作者,请尊重版权,谢谢! )欢迎指正错误,共同学习.共同进步!! 下载链接:Bl ...

  9. 查询linux版本命令

    [环境] Ubuntu [本文命令记录] uname -a lsb_release cat /etc/issue cat /proc/version [截图效果] (1)uname -a (2)lsb ...

  10. Elasticsearch聚合——aggregation

    聚合提供了分组并统计数据的能力.理解聚合的最简单的方式是将其粗略地等同为SQL的GROUP BY和SQL聚合函数.在Elasticsearch中,你可以在一个响应中同时返回命中的数据和聚合结果.你可以 ...