爬取mzi.com妹子图片网站（requests库）

看了崔大佬的文章，写了这个爬虫，学习了！原文地址

现在该网站加了反爬机制，不过在headers里加上refere参数就行了。

以下代码仅做学习记录之用：

from bs4 import BeautifulSoup

import requests

import os

import time

# 构造带页码的页面链接

def get_mzi_page():

    headers = {

        'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1"

                      " (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}

    res = requests.get('http://www.mzitu.com', headers=headers)

    soup = BeautifulSoup(res.text, 'lxml')

    page = soup.select('.nav-links a')  # 返回一个列表

    page_count = page[-2].get_text()

    for i in range(1, int(page_count) + 1):

        # 构造每个页面链接

        page_url = "http://www.mzitu.com/page/" + f"{i}/"

        # 获取当前页面的所有专题,并输出提示

        print(f"总计{page_count}页,当前第{i}页:")

        get_mzi_channel(page_url)

def get_mzi_channel(url):

    headers = {

        'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1"

                      " (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}

    res = requests.get(url, headers=headers)

    soup = BeautifulSoup(res.text, 'lxml')

    # 抓取每个妹子的专题页面

    channel = soup.select('#pins li span a')

    channel_count_onepage = len(channel)

    print(channel)

    count = 0

    # 遍历所有专题url，逐个访问下载图片

    for c in channel:

        count += 1

        channel_name = c.get_text()

        os.mkdir('D;\mziPic')

        filepath = f'D:\mziPic\{channel_name}'

        if os.path.exists(filepath):

            pass

        else:

            os.mkdir(filepath)

        channel_url = c.get('href')

        print(f"本页总计{len(channel)}个妹子，当前第{count}个妹子")# 提示信息

        get_mzi_img(filepath, channel_url)

def get_mzi_img(filepath ,url):

    # 下载一个妹子的所有图片

    headers = {

        'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1"

                      " (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}

    res = requests.get(url, headers=headers)

    soup = BeautifulSoup(res.text, 'lxml')

    #每个妹子的all图片是分多个页面展示的，所以还要再访问多个页面，逐图片下载

    img_page = soup.select('.pagenavi a')

    img_page_count = img_page[-2].get_text()

    # 构造逐图片下载的url

    count2 = 0

    for i in range(1, int(img_page_count) + 1):

        count2 += 1

        img_page_url = url + f'/{i}'

        print(f"本妹子共{img_page_count}图片，现第{count2}张")

        print("img_page_url(refere)：", img_page_url)

        download(filepath, img_page_url, count2)

def download(filepath, img_page_url, count2):

    headers = {

               'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'

               }

    headers2 = {'Accept': 'image/webp,image/apng,image/*,*/*;q=0.8',

               'Accept-Encoding': 'gzip, deflate',

               'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',

               'Connection': 'keep-alive',

               'DNT': '',

               'Host': 'i.meizitu.net',

               'Referer': img_page_url,

               'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'

               }

    res = requests.get(img_page_url, headers=headers)

    print("res.status_code", res.status_code)

    if res.status_code == 200:

        soup = BeautifulSoup(res.text, 'lxml')

        img_url = soup.find('div', class_='main-image').find('img').get('src')

        print("图片地址", img_url)

        # 这个网站访问图片必须要带refere参数，不然返回403，（折腾好久才发现问题

        res2 = requests.get(img_url, headers=headers2)

        print("res2.status_code:", res2.status_code)

        with open(filepath + f'/{count2}.jpg', 'ab') as f:

            f.write(res2.content)

            f.close()

        # time.sleep(1) # 注释后运行下好像不封ip。。。

    else:

        pass

if __name__ == '__main__':

    get_mzi_page()

爬取mzi.com妹子图片网站（requests库）的更多相关文章

python网络爬虫之解析网页的正则表达式(爬取4k动漫图片)[三]
前言 hello,大家好本章可是一个重中之重,因为我们今天是要爬取一个图片而不是一个网页或是一个json 所以我们也就不用用到selenium模块了,当然有兴趣的同学也一样可以使用selenium去 ...
Python 爬取陈都灵百度图片
Python 爬取陈都灵百度图片标签(空格分隔): 随笔今天意外发现了自己以前写的一篇爬虫脚本,爬取的是我的女神陈都灵,尝试运行了一下发现居然还能用.故把脚本贴出来分享一下. import req ...
使用BeautifulSoup自动爬取微信公众号图片
爬取微信分享的图片,根据不同的页面自行修改,使用BeautifulSoup爬取,自行格局HTML修改要爬取图片的位置 import re import time import requests imp ...
Python爬取 | 唯美女生图片
这里只是代码展示,且复制后不能直接运行,需要配置一些设置才行,具体请查看下方链接介绍: Python爬取 | 唯美女生图片 from selenium import webdriver from fa ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
C#爬取微博文字、图片、视频（不使用Cookie）
前两天在网上偶然看到一个大佬OmegaXYZ写的文章,Python爬取微博文字与图片(不使用Cookie) 于是就心血来潮,顺手撸一个C#版本的. 其实原理也很简单,现在网上大多数版本都需要Cooki ...
Python+Requests+Xpath（解析）爬取某站点简历图片（数据分析三）
1.环境安装 pip install lxml 2.解析原理使用通用爬虫爬取网页数据实例化etree对象,且将页面数据加载到该对象中使用xpath函数结合xpath表达式进行标签定位和指定数据提 ...
爬虫入门（三）——动态网页爬取：爬取pexel上的图片
Pexel上有大量精美的图片,没事总想看看有什么好看的自己保存到电脑里可能会很有用但是一个一个保存当然太麻烦了所以不如我们写个爬虫吧(๑•̀ㅂ•́)و✧ 一开始学习爬虫的时候希望爬取pexel上的 ...

随机推荐

前端测试框架Jest系列教程 -- Mock Functions（模拟器）
写在前面: 在写单元测试的时候有一个最重要的步骤就是Mock,我们通常会根据接口来Mock接口的实现,比如你要测试某个class中的某个方法,而这个方法又依赖了外部的一些接口的实现,从单元测试的角度来 ...
vue-07-自定义指令
1, 全局指令在main.js中引入 // 注册一个全局自定义指令 `v-focus` Vue.directive('focus', { // 当被绑定的元素插入到 DOM 中时…… inserte ...
【原创】STM32下波特率计算详解
波特率的计算 STM32下的波特率和串口外设时钟息息相关,USART 1的时钟来源于APB2,USART 2-5的时钟来源于APB1.在STM32中,有个波特率寄存器USART_BRR,如下: ...
如何做活动页面的滚动动画？让用户体验MAX的demo在这里！
本文由云+社区发表最近的一个活动页面需要做一个可以左右滑动的抽签效果,故通过用css的transform属性和js结合来模拟可以无限滚动的效果. 先上效果: demo地址:https://kiror ...
PHP配置文件php.ini详解
; PHP还是一个不断发展的工具,其功能还在不断地删减 ; 而php.ini的设置更改可以反映出相当的变化, ; 在使用新的PHP版本前,研究一下php.ini会有好处的 ;;;;;;;;;;;;;; ...
Spring Boot （一）快速入门
一.关于Spring Boot 在开始了解Spring Boot之前,我们需要先了解一下Spring,因为Spring Boot的诞生和Spring是息息相关的,Spring Boot是Spring发 ...
翻译：window function(已提交到MariaDB官方手册)
本文为mariadb官方手册:window functions的译文. 原文:https://mariadb.com/kb/en/window-functions-overview/ 我提交到Mari ...
.NET CORE 实践（2）--对Ubuntu下安装SDK的记录
根据官网Ubuntu安装SDK操作如下: allen@allen-Virtual-Machine:~$ sudo apt-key adv --keyserver apt-mo.trafficmanag ...
第一册：lesson thirty five。
原文: Our village . This is a photograph of our village. Our village is in a valley. It is between to ...
php获取服务器信息常用方法（零碎知识记忆）
突然整理下零碎小知识.......加深下印象: $info = array( '操作系统'=>PHP_OS, '运行环境'=>$_SERVER["SERVER_SOFTWARE& ...

爬取mzi.com妹子图片网站（requests库）

爬取mzi.com妹子图片网站（requests库）的更多相关文章

随机推荐

热门专题