Python抓取妹子图，内含福利

目标抓取全站妹子封面图片全部爬下来以图片标题命名

分析网页数据结构

妹子图首页
接下来找张图片右击点击检查

想要数据
拿到图片链接直接用浏览器可以访问，但是程序下载有反爬虫，图片直接下载不了需要加请求头部信息

先上手代码试试！

import requests

from lxml import etree

# 设计模式 --》面向对象编程

class Spider(object):

    def __init__(self):

        # 反反爬虫措施，加请求头部信息

        self.headers = {

            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36",

            "Referer": "https://www.mzitu.com/xinggan/"

        }

    def start_request(self):

        # 1. 获取整体网页的数据 requests

        for i in range(1, 204):

            print("==========正在抓取%s页==========" % i)

            response = requests.get("https://www.mzitu.com/page/"+ str(i) + "/", headers=self.headers)

            html = etree.HTML(response.content.decode())

            self.xpath_data(html)

    def xpath_data(self, html):

        # 2. 抽取想要的数据 标题 图片 xpath

        src_list = html.xpath('//ul[@id="pins"]/li/a/img/@data-original')

        alt_list = html.xpath('//ul[@id="pins"]/li/a/img/@alt')

        for src, alt in zip(src_list, alt_list):

            file_name = alt + ".jpg"

            response = requests.get(src, headers=self.headers)

            print("正在抓取图片：" + file_name)

            # 3. 存储数据 jpg with open

            try:

                with open(file_name, "wb") as f:

                    f.write(response.content)

            except:

                print("==========文件名有误！==========")

spider = Spider()

spider.start_request()

哎！好像没问题！

运行中

运行结果

同学们，都把裤子给我穿上！好好学习！

教程已出，但是可能有很多网友不会使用

大家有任何问题可以扫描二维码关注公众号，添加我的微信

我会第一时间为大家解答

搜索公众号“一条正弦”或扫码关注公众号，第一时间获取更多优质资源

Python抓取妹子图，内含福利的更多相关文章

python 爬取妹子图
作为一个python还没入门的小白,搞懂这段代码实在是很不容易,还要去学html的知识(#黑脸) 因此我加上了注释,比较好读懂点 #coding=utf-8 import time import re ...
Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...
Python 爬虫入门之爬取妹子图
Python 爬虫入门之爬取妹子图来源:李英杰链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...
Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
使用 Python 抓取欧洲足球联赛数据
Web Scraping在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤数据的采集和获取数据的清洗,抽取,变形和装载数据的分析,探索和预测 ...
python抓取性感尤物美女图
由于是只用标准库,装了python3运行本代码就能下载到多多的美女图... 写出代码前面部分的时候,我意识到自己的函数设计错了,强忍继续把代码写完. 测试发现速度一般,200K左右的下载速度,也没有很 ...
python抓取网页例子
python抓取网页例子最近在学习python,刚刚完成了一个网页抓取的例子,通过python抓取全世界所有的学校以及学院的数据,并存为xml文件.数据源是人人网. 因为刚学习python,写的代码 ...
Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式) <转>
Python抓取页面中超链接(URL)的3中方法比较(HTMLParser.pyquery.正则表达式) HTMLParser版: #!/usr/bin/python # -*- coding: UT ...
如何用python抓取js生成的数据 - SegmentFault
如何用python抓取js生成的数据 - SegmentFault 如何用python抓取js生成的数据 1赞踩收藏想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓 ...

随机推荐

Elasticsearch系列---初识搜索
概要本篇主要介绍搜索的报文结构含义.搜索超时时间的处理过程,提及了一下多索引搜索和轻量搜索,最后将精确搜索与全文搜索做了简单的对比. 空搜索搜索API最简单的形式是不指定索引和类型的空搜索,它将返 ...
可编程逻辑（FPGA）与硬核处理器（HPS）之间互联的结构
本周我想进一步探究可编程逻辑(FPGA)与硬核处理器(HPS)之间互联的结构.我发现了三种主要方式,它们是如何映射并处理通信的,哪些组件需要管控时序并且有访问权限. AXI Bridge 为了能够实现 ...
JS---DOM---为元素解绑事件
解绑事件注意:用什么方式绑定事件, 就应该用对应的方式解绑事件 1.解绑事件对象.on事件名字=事件处理函数--->绑定事件对象.on事件名字=null; //1 对象.on事件名字= ...
CSS 选择器、字体/文本、背景
CSS的基本使用直接写在标签内 <p style="color: red; font-size: 40px;">段落</p> 写在 style 标签内 & ...
idea2019注册码，亲测可用！
2019已经过半了,最近可把我忙死了,好久没打理这里的留言了. 今天登上来,看到许多同学反馈按照之前的那篇文章 IntelliJ IDEA 2018激活码永久破解里的步骤无法破解idea,其实用这 ...
MYSQL 游标学习及使用实例
who?(游标是什么?)游标(cursor)官方定义:是系统为用户开通的一个数据缓冲区,存放sql执行结果.每个游标区都有一个名字,用户可以通过sql语句逐一从游标中获取记录,并赋值给变量,交由主语言 ...
面试连环炮系列（四）：说说TCP的三次握手过程
说说TCP三次握手的过程? 第一次握手:Client将标志位SYN置为1,随机产生一个值seq=J,并将该数据包发送给Server,Client进入SYN_SENT状态,等待Server确认. 第二次 ...
.Net Core HTTP Error 500.0 - ANCM In-Process Handler Load Failure 发布后启动错误处理
方法1: 应用池高级配置 - 启动32位应用程序 - 设置为True 方法2: web.config <aspNetCore processPath="%LAUNCHER_PATH%& ...
MFC程序出现uafxcwd.lib(afxmem.obj) : error LNK2005: "void * __cdecl operator new(unsigned int)解决办法
在同一个地方摔倒两次之后,决定记录下来这个东西. 问题 1>uafxcwd.lib(afxmem.obj) : error LNK2005: "void * __cdecl opera ...
mysql 查询存在A表中而不存在B表中的数据
有两张表,学生信息表infolist: 学生姓名表namelist: 现要查询出,存在infolist中,而不存在namelist中的学生,语句如下: select * from infolist w ...

Python抓取妹子图，内含福利

目标抓取全站妹子封面图片全部爬下来以图片标题命名

同学们，都把裤子给我穿上！好好学习！

Python抓取妹子图，内含福利的更多相关文章

随机推荐

热门专题