Python爬虫 —— 抓取美女图片

代码如下：

#coding:utf-8

# import datetime

import requests

import os

import sys

from lxml import etree

import codecs

class Spider:

    def __init__(self):

        self.headers = {}

        self.headers['User_Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0'

        self.headers['Referer'] = 'http://www.mzitu.com/all/'

    def crawl(self, root_url):

        html_text = requests.get(root_url,headers=self.headers).text

        html_tree = etree.HTML(html_text)

        groups = html_tree.xpath("//div[@class='main-content']//ul[@class='archives']//a")

        count = 0

        print "开始抓取："

        for group in groups:

            title = group.text

            groupUrl = group.get('href')

            print "正在抓取组图："+title

            dirpath = self.makDir(title)   #获取标题，并以标题为名字创建文件夹

            self.getGroup(groupUrl,dirpath)    #

            count = count+1

            if count>=5:

                print "抓取完成……"

                os._exit(0)

    def makDir(self,dirname):

        dirpath = os.path.join(u'E:\学习资料',dirname)

        if not os.path.exists(dirpath):

            os.makedirs(dirpath)

        return dirpath

    def getGroup(self,groupUrl,dirpath):

        self.headers['Referer'] = groupUrl

        html_text = requests.get(groupUrl, headers=self.headers).text

        html_tree = etree.HTML(html_text)

        maxPage = html_tree.xpath("//div[@class='pagenavi']//span")[-2].text    #获取改组图的张数

        for page in range(1,int(maxPage)+1):    #获取每一张图的所在页面

            pageUrl = groupUrl + '/' + str(page)    #拼接页面url

            self.getPage(pageUrl,page,dirpath)   #访问该页面

    def getPage(self, pageUrl,page,dirpath):

        self.headers['Referer'] = pageUrl

        page_text = requests.get(pageUrl, headers=self.headers).text  #请求该图所在的页面

        page_tree = etree.HTML(page_text)

        imageurl = page_tree.xpath("//div[@class='main-image']//img")[0].get('src')    #获取图片url

        image = requests.get(imageurl, headers=self.headers).content                    #请求获取图片

        self.saveImage(image,page,dirpath)

    def saveImage(self,image,page,dirpath):

        imagepath = os.path.join(dirpath, str(page) + u'.jpg')

        file = codecs.open(imagepath, 'wb')

        file.write(image)

        file.close()

if __name__ == '__main__':

    reload(sys)

    sys.setdefaultencoding('utf-8')

    Mzitu = Spider()

    Mzitu.crawl('http://www.mzitu.com/all')

Python爬虫 —— 抓取美女图片的更多相关文章

Python爬虫 —— 抓取美女图片（Scrapy篇）
杂谈: 之前用requests模块爬取了美女图片,今天用scrapy框架实现了一遍. (图片尺度确实大了点,但老衲早已无恋红尘,权当观赏哈哈哈) Item: # -*- coding: utf-8 - ...
python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
Python3简单爬虫抓取网页图片
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
Python 爬虫: 抓取花瓣网图片
接触Python也好长时间了,一直没什么机会使用,没有机会那就自己创造机会!呐,就先从爬虫开始吧,抓点美女图片下来. 废话不多说了,讲讲我是怎么做的. 1. 分析网站想要下载图片,只要知道图片的地址 ...
python爬虫抓取哈尔滨天气信息（静态爬虫）
python 爬虫爬取哈尔滨天气信息 - http://www.weather.com.cn/weather/101050101.shtml 环境: windows7 python3.4(pip i ...
python+requests抓取页面图片
前言: 学完requests库后,想到可以利用python+requests爬取页面图片,想到实战一下.依照现在所学只能爬取图片在html页面的而不能爬取由JavaScript生成的图片,所以我选取饿 ...

随机推荐

Node.js自动化技术实现（Java）
Node.js自动化测试框架(NodeTestFramework):
本地搭建Hadoop伪分布式环境之四：开启搭建Hadoop2.4.0之旅
1.准备软件 64位下载包下载: hadoop-2.4.0-64bit.tar.gz 百度网盘: 链接: http://pan.baidu.com/s/1hqEDe2S password: ...
html小知识，怎么实现一个td占据2行
<table border="1" width="100%"> <tr> <td rowspan="2"> ...
处理中文空格.replace((char)12288,' ')
trim()只能替换英文空格.replace((char)12288,' ')是替换中文
Java千百问_05面向对象（006）_is-a，has-a，like-a是什么
点击进入_很多其它_Java千百问 1.is-a,has-a,like-a是什么在面向对象设计的领域里,有若干种设计思路,主要有例如以下三种: is-a.has-a.like-a java中在类.接 ...
设计模式之Protocol实现代理模式
使用场合使用步骤不使用protocol实现代理使用protocol实现代理一.使用场合 A想让B帮忙,就让B代理 A想通知B发生了一些事情,或者传一些数据给B 观察者模式二.使用步骤定义一 ...
提升Web性能的技巧
1. 采用反向代理服务器(Reverse Proxy Server)来对应用进行加速和保护其作用主要在以下三方面: 负载平衡 – 运行在反向代理服务器上的负载平衡器会在不同的不服务器间进行传输 ...
python etree解析xml
# -*- coding:utf-8 -*- #conding:utf-8 __author__ = 'hdfs' ''' 简洁高效明了 ElementTree轻量级的 Python 式的 API ...
win7查看端口占用
1.查看谁占用了我们的80端口,在windows命令行窗口下执行: netstat -aon|findstr 80 发现80端口被进程号为2596的进程占用.2.查看占用80端口进程的应用程序是什 ...
结缘mac
还记得上一次买MacBookPro.是在去年的7月下旬,记得那次是我大学第一次买电脑,那时候刚准备開始研究android.听stormzhang以及android开发界的大佬们对mac开发androi ...

Python爬虫 —— 抓取美女图片

Python爬虫 —— 抓取美女图片的更多相关文章

随机推荐

热门专题