Python爬虫 —— 抓取美女图片

代码如下：

#coding:utf-8

# import datetime

import requests

import os

import sys

from lxml import etree

import codecs

class Spider:

    def __init__(self):

        self.headers = {}

        self.headers['User_Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0'

        self.headers['Referer'] = 'http://www.mzitu.com/all/'

    def crawl(self, root_url):

        html_text = requests.get(root_url,headers=self.headers).text

        html_tree = etree.HTML(html_text)

        groups = html_tree.xpath("//div[@class='main-content']//ul[@class='archives']//a")

        count = 0

        print "开始抓取："

        for group in groups:

            title = group.text

            groupUrl = group.get('href')

            print "正在抓取组图："+title

            dirpath = self.makDir(title)   #获取标题，并以标题为名字创建文件夹

            self.getGroup(groupUrl,dirpath)    #

            count = count+1

            if count>=5:

                print "抓取完成……"

                os._exit(0)

    def makDir(self,dirname):

        dirpath = os.path.join(u'E:\学习资料',dirname)

        if not os.path.exists(dirpath):

            os.makedirs(dirpath)

        return dirpath

    def getGroup(self,groupUrl,dirpath):

        self.headers['Referer'] = groupUrl

        html_text = requests.get(groupUrl, headers=self.headers).text

        html_tree = etree.HTML(html_text)

        maxPage = html_tree.xpath("//div[@class='pagenavi']//span")[-2].text    #获取改组图的张数

        for page in range(1,int(maxPage)+1):    #获取每一张图的所在页面

            pageUrl = groupUrl + '/' + str(page)    #拼接页面url

            self.getPage(pageUrl,page,dirpath)   #访问该页面

    def getPage(self, pageUrl,page,dirpath):

        self.headers['Referer'] = pageUrl

        page_text = requests.get(pageUrl, headers=self.headers).text  #请求该图所在的页面

        page_tree = etree.HTML(page_text)

        imageurl = page_tree.xpath("//div[@class='main-image']//img")[0].get('src')    #获取图片url

        image = requests.get(imageurl, headers=self.headers).content                    #请求获取图片

        self.saveImage(image,page,dirpath)

    def saveImage(self,image,page,dirpath):

        imagepath = os.path.join(dirpath, str(page) + u'.jpg')

        file = codecs.open(imagepath, 'wb')

        file.write(image)

        file.close()

if __name__ == '__main__':

    reload(sys)

    sys.setdefaultencoding('utf-8')

    Mzitu = Spider()

    Mzitu.crawl('http://www.mzitu.com/all')

Python爬虫 —— 抓取美女图片的更多相关文章

Python爬虫 —— 抓取美女图片（Scrapy篇）
杂谈: 之前用requests模块爬取了美女图片,今天用scrapy框架实现了一遍. (图片尺度确实大了点,但老衲早已无恋红尘,权当观赏哈哈哈) Item: # -*- coding: utf-8 - ...
python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
Python3简单爬虫抓取网页图片
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
Python 爬虫: 抓取花瓣网图片
接触Python也好长时间了,一直没什么机会使用,没有机会那就自己创造机会!呐,就先从爬虫开始吧,抓点美女图片下来. 废话不多说了,讲讲我是怎么做的. 1. 分析网站想要下载图片,只要知道图片的地址 ...
python爬虫抓取哈尔滨天气信息（静态爬虫）
python 爬虫爬取哈尔滨天气信息 - http://www.weather.com.cn/weather/101050101.shtml 环境: windows7 python3.4(pip i ...
python+requests抓取页面图片
前言: 学完requests库后,想到可以利用python+requests爬取页面图片,想到实战一下.依照现在所学只能爬取图片在html页面的而不能爬取由JavaScript生成的图片,所以我选取饿 ...

随机推荐

hbase安装配置
环境准备 Java HDFS zookeeper SSH,NTP时间同步系统调优,这个可以等安装完后改,文件打开数(ulimit和nproc) 修改Hadoop HDFS Datanode同时处理文 ...
Jenkins安装war版本
Jenkins的war包安装很简单: 下载jenkins的war包地址:https://jenkins.io/download/ 选择对应的版本然后放入tomcat启动就好,其他根据提示来就好,比较 ...
VIM正则表达式查找替换
0. 一些需要注意的不同 VIM中的正则表达式和其他的有点不一样 (1) 有些符号要用\转义,比如\+表示重复一次或以上,其他的还有一些,:h pattern查看(2) 非贪婪匹配用\{-}, 如 ...
【Python】删除字符串的空白
在程序中,额外的空白可能让人迷惑,对于程序员来说,'python'跟'python '看起来几乎一样,但是对于程序来说,可是千差万别 (lstrip)删除开头空白 >>> Langu ...
jquery:选择器过滤器
容易理解错误的地方: 1.假如我们想要让一个表格中第八列的所有单元格,都隐藏起来.我们可能会这么写$("table tr td:eq(8)").css("display& ...
JAVA实现KNN分类
转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/51064307 http://www.llwjy.com/blogdetail/f ...
SpringBoot开启https以及http重定向
一.使用JDK keytool创建SSL证书进入$JAVA_HOME/bin目录,运行以下命令 keytool -genkey -alias WeChatAppletsDemo -keypass - ...
【Java】使用@Value @Reource或@Autowire依赖 (值) 注入时出现NPE的排查方法
首先想说明的是,@Value @Resource和@Autowire虽然都是用于依赖注入的Annotation,但是二者是有区别的. 1 Resource不依赖于Spring,后者相反,因此为了减少以 ...
HDFS源码分析心跳汇报之整体结构
我们知道,HDFS全称是Hadoop Distribute FileSystem,即Hadoop分布式文件系统.既然它是一个分布式文件系统,那么肯定存在很多物理节点,而这其中,就会有主从节点之分.在H ...
Spark源码分析之三：Stage划分
继上篇<Spark源码分析之Job的调度模型与运行反馈>之后,我们继续来看第二阶段--Stage划分. Stage划分的大体流程如下图所示: 前面提到,对于JobSubmitted事件,我 ...

Python爬虫 —— 抓取美女图片

Python爬虫 —— 抓取美女图片的更多相关文章

随机推荐

热门专题