Python 爬取妹子图(技术是无罪的)

...

import requests

from bs4 import BeautifulSoup

import os

import sys

class mzitu():

    def html(self, href):

        html = self.request(href)

        a = BeautifulSoup(html.text, 'lxml').find('h2', class_='main-title')

        title = a.get_text()

        print(u'开始保存：', title)

        path = str(title)

        self.mkdir(path)

        max_span = BeautifulSoup(html.text, 'lxml').find('div', class_='pagenavi').find_all('span')[-2].get_text()

        for page in range(1, int(max_span) + 1):

            page_url = href + '/' + str(page)

            self.img(page_url)

    def img(self, page_url):

        img_html = self.request(page_url)

        img_url = BeautifulSoup(img_html.text, 'lxml').find('div', class_='main-image').find('img')['src']

        self.save(img_url)

    def save(self, img_url):

        name = img_url[-6:-4]

        img = self.request(img_url)

        with open(name + '.jpg','ab') as f:

            f.write(img.content)

    def request(self, url):

        headers = {'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}

        content = requests.get(url, headers=headers)

        return content

    def mkdir(self, path): ##这个函数创建文件夹

        path = path.strip()

        isExists = os.path.exists(os.path.join("D:\mzitu", path))

        if not isExists:

            print(u'创建', path, u'文件夹')

            os.makedirs(os.path.join("E:\MZITU", path))

            os.chdir(os.path.join("E:\mzitu", path)) ##切换到目录

            return True

        else:

            print(u'名字叫做', path, u'的文件夹已经存在了')

            return False

Mzitu = mzitu()

Mzitu.html('http://www.mzitu.com/92251')

...

Python 爬取妹子图(技术是无罪的)的更多相关文章

Python 爬取妹子图(技术是无罪的)
... #!/usr/bin/env python import urllib.request from bs4 import BeautifulSoup def crawl(url): header ...
python爬取妹子图全站全部图片-可自行添加-线程-进程爬取，图片去重
from bs4 import BeautifulSoupimport sys,os,requests,pymongo,timefrom lxml import etreedef get_fenlei ...
Python协程爬取妹子图(内有福利，你懂得~)
项目说明: 1.项目介绍本项目使用Python提供的协程+scrapy中的选择器的使用(相当好用)实现爬取妹子图的(福利图)图片,这个学会了,某榴什么的.pow(2, 10)是吧! 2.用到的知 ...
Python3爬虫系列：理论+实验+爬取妹子图实战
Github: https://github.com/wangy8961/python3-concurrency-pics-02 ,欢迎star 爬虫系列: (1) 理论 Python3爬虫系列01 ...
python 爬取妹子
爬取妹子图片网址:https://www.mzitu.com/jiepai/ 2019-06-13 环境WIN10 1903 python 3.7.3 个人习惯先在IDLE中进行调试 import ...
Python网络爬虫 | Scrapy爬取妹子图网站全站照片
根据现有的知识,写了一个下载妹子图(meizitu.com)Scrapy脚本,把全站两万多张照片下载到了本地. 网站的分析网页的网址分析打开网站,发现网页的网址都是以 http://www.mei ...
python爬取斗图网中的 “最新套图”和“最新表情”
1.分析斗图网斗图网地址:http://www.doutula.com 网站的顶部有这两个部分: 先分析“最新套图” 发现地址栏变成了这个链接,我们在点击第二页可见,每一页的地址栏只有后面的pag ...
Python爬取斗图表情，让你成为斗图大佬
话不多说,上结果(只爬了10页内容) 上代码:(可直接运行) 用到Xpath #encoding:utf-8 # __author__ = 'donghao' # __time__ = 2018/ ...
使用requests+BeaBeautiful Soup爬取妹子图图片
1. Requests:让 HTTP 服务人类 Requests 继承了urllib2的所有特性.Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定 ...

随机推荐

三、mybatis多表关联查询和分布查询
前言 mybatis多表关联查询和懒查询,这篇文章通过一对一和一对多的实例来展示多表查询.不过需要掌握数据输出的这方面的知识.之前整理过了mybatis入门案例和mybatis数据输出,多表查询是在前 ...
PHP审计之PHP反序列化漏洞
PHP审计之PHP反序列化漏洞前言一直不懂,PHP反序列化感觉上比Java的反序列化难上不少.但归根结底还是serialize和unserialize中的一些问题. 在此不做多的介绍. 魔术方法 ...
canvas 实现简单的画板功能添加手机端效果 1.01
在上次的基础上,加了一些代码,手机端可操作访问网址:https://chandler712.github.io/Item/  <!DOCTYPE htm ...
使用tinypng对需要上传Gitee图床的图片进行压缩
目录背景 Tinypng简介 Tinypng使用手动上传图片使用API 调用API自动上传超过1MB图片安装tinyfy 自动上传脚本其他背景在使用Gitee作为图床时(使用Typora ...
【UE4 C++】解析与构建 XML 数据，XmlParser 与 tinyxml
XmlParser 简单读取 XmlParser 为引擎自带模块 XML 文件 <?xml version="1.0" encoding="UTF-8"? ...
Redis：学习笔记-01
Redis:学习笔记-01 该部分内容,参考了 bilibili 上讲解 Redis 中,观看数最多的课程 Redis最新超详细版教程通俗易懂,来自 UP主遇见狂神说 1. Redis入门 2.1 ...
nio之缓冲区(Buffer)理解
一.缓冲区简介 Nio中的 Buffer 是用于存储特定基础类型的一个容器.为了能熟练的使用 Nio中的各种 Buffer , 我们需要理解 Buffer 中的三个重要的属性. 1. capaci ...
IDEA注释设置：从当前鼠标位置开始注释快捷键
在写xml或html注释时,经常出现注释出来的时候都是顶格的,前面包含一大段空格,并没有在鼠标位置开始. 可在设置中进行修改,其他代码格式修改方法类似
cURL 命令获取本机外网 IP
1.1 查询本机外网 IP # curl dhcp.cn 134.175.159.160 1.2 输出格式为 JSON # curl dhcp.cn/?json { "IP": & ...
编译内核错误：Can't use 'defined(@array)' (Maybe you should just omit the defined()?) at kernel/timeconst.pl line 373
最近在编译一个新的rk sdk的时候,编译内核报错 CHK include/linux/version.h CHK include/generated/utsrelease.h make[1]: 'i ...

Python 爬取妹子图(技术是无罪的)

Python 爬取妹子图(技术是无罪的)的更多相关文章

随机推荐

热门专题