代码如下:

#coding:utf-8
# import datetime
import requests
import os
import sys
from lxml import etree
import codecs class Spider:
def __init__(self):
self.headers = {}
self.headers['User_Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0'
self.headers['Referer'] = 'http://www.mzitu.com/all/' def crawl(self, root_url):
html_text = requests.get(root_url,headers=self.headers).text
html_tree = etree.HTML(html_text)
groups = html_tree.xpath("//div[@class='main-content']//ul[@class='archives']//a")
count = 0
print "开始抓取:"
for group in groups:
title = group.text
groupUrl = group.get('href')
print "正在抓取组图:"+title
dirpath = self.makDir(title) #获取标题,并以标题为名字创建文件夹
self.getGroup(groupUrl,dirpath) #
count = count+1
if count>=5:
print "抓取完成……"
os._exit(0) def makDir(self,dirname):
dirpath = os.path.join(u'E:\学习资料',dirname)
if not os.path.exists(dirpath):
os.makedirs(dirpath)
return dirpath def getGroup(self,groupUrl,dirpath):
self.headers['Referer'] = groupUrl
html_text = requests.get(groupUrl, headers=self.headers).text
html_tree = etree.HTML(html_text)
maxPage = html_tree.xpath("//div[@class='pagenavi']//span")[-2].text #获取改组图的张数
for page in range(1,int(maxPage)+1): #获取每一张图的所在页面
pageUrl = groupUrl + '/' + str(page) #拼接页面url
self.getPage(pageUrl,page,dirpath) #访问该页面 def getPage(self, pageUrl,page,dirpath):
self.headers['Referer'] = pageUrl
page_text = requests.get(pageUrl, headers=self.headers).text #请求该图所在的页面
page_tree = etree.HTML(page_text)
imageurl = page_tree.xpath("//div[@class='main-image']//img")[0].get('src') #获取图片url
image = requests.get(imageurl, headers=self.headers).content #请求获取图片
self.saveImage(image,page,dirpath) def saveImage(self,image,page,dirpath):
imagepath = os.path.join(dirpath, str(page) + u'.jpg')
file = codecs.open(imagepath, 'wb')
file.write(image)
file.close() if __name__ == '__main__':
reload(sys)
sys.setdefaultencoding('utf-8')
Mzitu = Spider()
Mzitu.crawl('http://www.mzitu.com/all')

Python爬虫 —— 抓取美女图片的更多相关文章

  1. Python爬虫 —— 抓取美女图片(Scrapy篇)

    杂谈: 之前用requests模块爬取了美女图片,今天用scrapy框架实现了一遍. (图片尺度确实大了点,但老衲早已无恋红尘,权当观赏哈哈哈) Item: # -*- coding: utf-8 - ...

  2. python 爬虫抓取心得

    quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...

  3. Python3简单爬虫抓取网页图片

    现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...

  4. Python爬虫----抓取豆瓣电影Top250

    有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...

  5. Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储

    Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...

  6. python爬虫-爬取百度图片

    python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...

  7. Python 爬虫: 抓取花瓣网图片

    接触Python也好长时间了,一直没什么机会使用,没有机会那就自己创造机会!呐,就先从爬虫开始吧,抓点美女图片下来. 废话不多说了,讲讲我是怎么做的. 1. 分析网站 想要下载图片,只要知道图片的地址 ...

  8. python爬虫抓取哈尔滨天气信息(静态爬虫)

    python 爬虫 爬取哈尔滨天气信息 - http://www.weather.com.cn/weather/101050101.shtml 环境: windows7 python3.4(pip i ...

  9. python+requests抓取页面图片

    前言: 学完requests库后,想到可以利用python+requests爬取页面图片,想到实战一下.依照现在所学只能爬取图片在html页面的而不能爬取由JavaScript生成的图片,所以我选取饿 ...

随机推荐

  1. ElasticSearch查询max_result_window问题处理

    需要出一份印地语文章的表,导出规则为: 1.所有印地语(包含各种颜色,各种状态)的文章 2.阅读数大于300 3.按照阅读推荐比进行排序,取前3000篇文章 说明: 1.文章信息,和阅读推荐数量在两个 ...

  2. 压缩软件Snappy的安装

    1.下载源码,通过编译源码安装  tar -zxvf  /home/zfll/soft/snappy-1.1.2.tar.gz cd snappy-1.1.2 ./configure make sud ...

  3. java中的占位符\t\n\r\f

    \t 相当于tab,缩进\n NewLine 换行 System.out.println("aaa\tbbb"); //aaa bbbSystem.out.println(&quo ...

  4. c语言单链表实现

    /************************************************************************* > File Name: singleLin ...

  5. 如何选择Haproxy和Nginx

    对于做软负载,我们都知道主流的方案有LVS.Haproxy.Nginx!那么对于Haproxy和Nginx,我们如何选择呢?回答这个问题之前,我根据个人使用经验来讲下它们的特点! Haproxy特点 ...

  6. Tomcat 性能监控及调优

    1.性能监控 方式1: /usr/local/tomcat7/conf/tomcat-users.xml 添加如下: <role rolename="manager-gui" ...

  7. 好工具MyEclise2016 CI下载

    地址:http://pan.baidu.com/s/1gfBw9Ab 安装后,点开crack目录,按步骤走. 下面是我安装成功的画面.

  8. iOS开发个人独立博客收集

    如今国内技术博客站点有非常多,如CSDN,CNBlog,ITEye等.论坛的话主要是要cocachina. 这里是我收集的iOS开发个人独立博客,文章用搜索引擎比較难搜到,都是牛人: OneV's D ...

  9. falsh,.swf文件修改z-index

    <object style="z-index:-1;"> <param name="wmode" value="transparen ...

  10. qs库使用

    1.npm地址 https://www.npmjs.com/package/qs 2.概述 将url中的参数转为对象: 将对象转为url参数形式 3.示例 import qs from 'qs'; c ...