python实战项目 — 爬取妹子图网，保存图片到本地

重点：

1. 用def函数

2. 使用 os.path.dirname("路径保存") ，实现每组图片保存在独立的文件夹中

方法1：

import requests

from lxml import etree

import os

import time

start = time.time()

def mz_spider(base_url, headers_one):

    res = requests.get(url=base_url, headers=headers_one)           # 请求链接

    base_html = etree.HTML(res.text)                             # 解析html

    img_src = base_html.xpath('//div[@class="postlist"]/ul/li/a/@href')

    for img_url in img_src:

        # print(img_url)

        img_parse(img_url)

def img_parse(img_url):

    headers = {

        "User-Agent": "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E; SE 2.X MetaSr 1.0)",

        'Referer': "https://www.mzitu.com/"

    }

    res_sec = requests.get(url=img_url, headers=headers)

    html_sec = etree.HTML(res_sec.text)

    try:

        # 由于会出现 list index out of range，所以用try进行,获取标题

        title = html_sec.xpath('//div[@class="content"]/h2/text()')[0]

        # print(title)

        # 获取图片总页数

        page_num = html_sec.xpath('//div[@class="pagenavi"]/a/span/text()')[-2]

        # print("这组图一共有：{} 页".format(page_num))

        # 拼接图片详情页地址

        for num in range(1, int(page_num) + 1):

            # 拼接每个图片url

            img_per_url = img_url + "/" + str(num)

            download_img(img_per_url, title)

    except Exception as e:

        print(e)

    else:

        pass

# 下载图片

def download_img(img_per_url, title):

    res_per = requests.get(url=img_per_url, headers=headers_one)

    html_per = etree.HTML(res_per.text)

    # 提取每个图片的url

    img_down_url = html_per.xpath('//div[@class="main-image"]/p/a/img/@src')[0]

    # 解析图片url 把 html3 每个图片再解析拿到 content

    res_down = requests.get(img_down_url, headers=headers_one)

    # 把图片文件装入内容

    data = res_down.content

    # 下载文件，设置保存文件和路径

    # 获取文件所在的路径,注意的是路径是 D:/图片/mz

    path = os.path.dirname("D:\图片\mz\\0.py")

    img_name = img_down_url.split('/')[-1]

    # 设置文件夹名称

    folder_name = title.replace(' ', '')

    # 保存的地址是 C:\py_code\new_code\mz\"title"

    root_dir = path + "\\" + folder_name

    # 新建文档的文件夹

    if not os.path.exists(root_dir):

        os.makedirs(root_dir)

    # 设置保存文件的绝对地址

    with open(root_dir + "\\" + img_name, "wb") as f:

        f.write(data)

        # 强行把缓冲区中的内容放到磁盘中

        f.flush()

        f.close()

        print(img_name + "__文件下载成功: " + title)

if __name__ == "__main__":

    headers_one = {

        "User-Agent": 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Trident/4.0)',

        'Referer': "https://www.mzitu.com/"

    }

    for i in range(1, 10):

        base_url = 'https://www.mzitu.com/page/{}/'.format(str(i))

        time.sleep(0.5)

        mz_spider(base_url, headers_one)

print("全部下载完成，耗时 %d s" % (start - time.time()))

方法2：

import requests

from lxml import etree

import time

import os

start = time.time()

headers_one = {

        "User-Agent": 'Mozilla/5.0 (Windows; U; Windows NT 5.2) AppleWebKit/525.13 (KHTML, like Gecko) Chrome/0.2.149.27 Safari/525.13',

        'Referer': "https://www.mzitu.com/"

    }

headers_two = {

    "User-Agent": 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36',

    'Referer': "https://www.mzitu.com/"

}

headers_three = {

    "User-Agent": 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',

    'Referer': "https://www.mzitu.com/"

}

# 构建所有要抓取的页面链接

for i in range(1, 3):

    base_url = 'https://www.mzitu.com/page/{}/'.format(str(i))

    print(" ———— 现在抓取第{}页   ".format(i) + base_url)

    base_response = requests.get(url=base_url, headers=headers_one)         # 请求链接

    print(base_response)

    base_html = etree.HTML(base_response.text)                              # 解析html

    # 第一层主页面，获取每组图片的链接和详细信息

    # 获取每组图片的主链接

    img_urls = base_html.xpath('//div[@class="postlist"]/ul/li/a/@href')

    for img_url in img_urls:

        print("抓取第{}页, 这组图片的 img_url： ".format(i) + img_url)

        # 第二层，每组图片的详细页面

        res_two = requests.get(url=img_url, headers=headers_two)

        html_sec = etree.HTML(res_two.text)

        try:

            # 由于会出现 list index out of range，所以用try进行

            # 获取标题

            title = html_sec.xpath('//div[@class="content"]/h2/text()')[0]

            # 获取图片总页数

            page_num = html_sec.xpath('//div[@class="pagenavi"]/a/span/text()')[-2]

            print("这组图一共有：{} 页".format(page_num))

            page = int(page_num) + 1

            # 拼接图片详情页地址

            for num in range(1, page):

                # 拼接每个图片url

                img_per_url = img_url + "/" + str(num)

                # print("组图中的第{}张图的URL  ".format(num) + img_per_url)

                # 解析每个图片所在的网页，获取每个图片的URL

                res_three = requests.get(url=img_per_url, headers=headers_three)

                html_url = etree.HTML(res_three.text)

                # 提取每个图片的url

                img_down_url = html_url.xpath('//div[@class="main-image"]/p/a/img/@src')[0]

                # print("图片下载的 img_down_url： " + img_down_url)

                # 第三层，解析图片url 把 html3 每个图片再解析拿到 content

                res_four = requests.get(img_down_url, headers=headers_three)

                # 把图片文件

                data = res_four.content

                # 下载文件，设置保存文件和路径

                # 获取文件所在的路径,注意的是路径是 C:/py_code/new_code/mz

                path = os.path.dirname("C:/py_code/new_code/mz/0.py")

                # 获取图片名称

                img_name = img_down_url.split('/')[-1]

                # 设置文件夹名称

                folder = title.replace(' ', '')

                # 保存的地址是 C:/py_code/new_code/mz/"title"

                root_dir = path + "/" + folder

                # 新建文档的文件夹

                if not os.path.exists(root_dir):

                    os.makedirs(root_dir)

                else:

                    # 如果存在就不做更改

                    pass

                # 设置保存文件的绝对地址

                with open(root_dir + "/" + img_name, "wb") as f:

                    f.write(data)

                    # 强行把缓冲区中的内容放到磁盘中

                    f.flush()

                    f.close()

                    print(img_name + "__文件下载成功: " + title)

                    time.sleep(0.5)

        except Exception as e:

            print(e)

            continue

        else:

            pass

print("完了,程序耗时是：%f s" % (start-time.time()))

python实战项目 — 爬取妹子图网，保存图片到本地的更多相关文章

python实战项目 — 爬取校花网图片
重点: 1. 指定路径创建文件夹,判断是否存在 2. 保存图片文件 # 获得校花网的地址,图片的链接 import re import requests import time import os ...
python实战项目 — 爬取中国票房网年度电影信息并保存在csv
import pandas as pd import requests from bs4 import BeautifulSoup import time def spider(url, header ...
小白学 Python 爬虫（16）：urllib 实战之爬取妹子图
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...
Python 爬虫入门之爬取妹子图
Python 爬虫入门之爬取妹子图来源:李英杰链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...
利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
Python 2.7_First_try_爬取阳光电影网_20161206
之前看过用Scrapy 框架建立项目爬取网页解析时候用的Xpath进行解析的网页元素这次尝试用select方法匹配元素 1.入口爬取页面 http://www.ygdy8.com/index.ht ...
python爬虫项目-爬取雪球网金融数据（关注、持续更新）
(一)python金融数据爬虫项目爬取目标:雪球网(起始url:https://xueqiu.com/hq#exchange=CN&firstName=1&secondName=1_ ...
Python爬虫项目--爬取自如网房源信息
本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储正文 1.分析目标站点 1. url: http:/ ...

随机推荐

S1_搭建分布式OpenStack集群_03 Mysql、MQ、Memcached、ETCD安装配置
一.安装mysql(contorller)controller ~]# yum -y install mariadb mariadb-server python2-PyMySQL 配置my.cnf文件 ...
sphinx doc 文档生成脚手架工具
sphinx 在python 语言开发中,是一个使用的比较多文档生成脚手架工具,我们帮助我们生成专业的帮助文档,同时也有远端的免费saas 托管服务,方便分发安装 sphinx 的安装好多方便,m ...
JMeter学习1
Jmeter的组织方式相对比较扁平,直接是TestPlan(相当于Project),TestPlan下创建的ThreadsGroup(相当于TestCase), Jmeter一个TestPlan也是一 ...
[译博文]CUDA是什么
翻译自:https://blogs.nvidia.com/blog/2012/09/10/what-is-cuda-2/ 你可能并没有意识到,GPU的应用有多广泛,它不但用于视频.游戏以及科学研究中, ...
MSSQL手工注入报错注入方法
例子:www.kfgtfcj.gov.cn/lzygg/Zixun_show.aspx?id=1[1]首先爆版本:http://www.kfgtfcj.gov.cn/lzygg/Zixun_show. ...
Java两个数的和
给你一个整数数组, 返回两个数的指数,使他们加起来等于给定的数. 你可以假设只有一个解, 并且相同的元素不会用两次. 比如: 给定数组 = [2, 7, 11, 15], 目标数 = 9, 因为[0] ...
JS和JQuery实现Button绑定键盘Enter事件实现提交
JavaScript实现方法 document.onkeydown = function(e) { if (!e) e = window.event;//火狐中是 window.event if (( ...
windows 10下启用docker的k8s集群
安装Docker Desktop后,由于国内无法下载到Kubernete的文件,在Docker Desktop设置里勾选启用Kubernete一直显示”Kubernete is starting”状态 ...
第10组 Beta冲刺（1/5）
链接部分队名:女生都队组长博客: 博客链接作业博客:博客链接小组内容恩泽(组长) 过去两天完成了哪些任务描述 tomcat的学习与实现服务器后端部署,API接口的beta版实现后端代码 ...
Beta3冲刺
队名:福大帮组长博客链接: 作业博客 : https://edu.cnblogs.com/campus/fzu/SoftwareEngineeringClassAofFuzhouUniversity ...

python实战项目 — 爬取 妹子图网，保存图片到本地

python实战项目 — 爬取 妹子图网，保存图片到本地的更多相关文章

随机推荐

热门专题

python实战项目 — 爬取妹子图网，保存图片到本地

python实战项目 — 爬取妹子图网，保存图片到本地的更多相关文章