python爬虫妹子图片网

代码如下

#coding=utf-8

import os

import re

import urllib

from time import sleep

import requests

from lxml import etree

host = "http://www.mzitu.com"

category = ['xinggan']

start_page = 124973

end_page = start_page + 1

def validateTitle(title):

   rstr = r"[\/\\\:\*\?\"\<\>\|]"  # '/ \ : * ? " < > |'

   new_title = re.sub(rstr, "_", title)  # 替换为下划线

   return new_title

def save_img(img,dir_path,file_name):

    headers = {"Referer": "http://www.mzitu.com","User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36"}

    file_content = requests.get(img,headers=headers)

    if file_content.status_code != 200:

        print(img, "下载失败")

    else:

        #urllib.request.urlretrieve(img, dir_path + file_name)

        with open(dir_path + file_name, "wb") as f:

            f.write(file_content.content)

        print("保存图片" + dir_path + file_name + "成功")

def get_html(url,page):

    sleep(5)

    new_url = url+"/"+str(page)

    headers = {"Referer": "http://www.mzitu.com","User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36"}

    response = requests.get(new_url,headers=headers)

    print(response.headers)

    html = etree.HTML(response.content)

    title = html.xpath("/html/body/div[2]/div[1]/h2/text()")

    img_url = html.xpath("/html/body/div[2]/div[1]/div[3]/p/a/img/@src")

    if len(title) >0 and len(img_url) >0:

        title = validateTitle(title[0])

        surfix = os.path.splitext(img_url[0])[1]

        title = title + surfix

        dir_path = "/www/spider/images/"

        print(dir_path+title)

        print(img_url)

        save_img(img_url[0],dir_path,title)

try:

    for i in range(start_page, int(end_page)):

        url = host + '/' + str(i)

        headers = {"Referer":"http://www.mzitu.com","User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36"}

        response = requests.get(url,headers=headers)

        print(url)

        print(response.headers)

        if response.status_code == 200:

            html = etree.HTML(response.content)

            total_page = html.xpath("/html/body/div[2]/div[1]/div[4]/a[5]/span/text()")

            if len(total_page) > 0:

                for i in range(1,int(total_page[0]) + 1):

                    get_html(url,i)

        # 获取总页数

except Exception as e:

    print(str(e))

python爬虫妹子图片网的更多相关文章

【收藏】收集的各种Python爬虫、暗网爬虫、豆瓣爬虫、抖音爬虫 Github1万+星
收集的各种Python爬虫.暗网爬虫.豆瓣爬虫 Github 1万+星磁力搜索网站2020/01/07更新 https://www.cnblogs.com/cilisousuo/p/1209954 ...
[Python爬虫]煎蛋网OOXX妹子图爬虫（1）——解密图片地址
之前在鱼C论坛的时候,看到很多人都在用Python写爬虫爬煎蛋网的妹子图,当时我也写过,爬了很多的妹子图片.后来煎蛋网把妹子图的网页改进了,对图片的地址进行了加密,所以论坛里面的人经常有人问怎么请求的 ...
python爬虫——《瓜子网》的广州二手车市场信息
由于多线程爬取数据比单线程的效率要高,尤其对于爬取数据量大的情况,效果更好,所以这次采用多线程进行爬取.具体代码和流程如下: import math import re from concurrent ...
python 爬虫 scrapy1_官网教程
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
python爬虫之图片懒加载、selenium和phantomJS
一.什么是图片懒加载在网页中,常常需要用到图片,而图片需要消耗较大的流量.正常情况下,浏览器会解析整个HTML代码,然后从上到下依次加载<img src="xxx"> ...
Python爬虫之图片懒加载技术、selenium和PhantomJS
一.引入 2.概要图片懒加载 selenium phantomJs 谷歌无头浏览器 3.回顾验证码处理流程一.今日详情动态数据加载处理 1.图片懒加载什么是图片懒加载? 案例分析:抓取站长素 ...
Python 爬虫校花网
爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 福利来了校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易,不会受到打击,第二呢你懂得.... 1.第一步,需要下 ...
Python爬虫（图片）编写过程中遇到的问题
最近我突然对网络爬虫开窍了,真正做起来的时候发现并不算太难,都怪我以前有点懒,不过近两年编写了一些程序,手感积累了一些肯定也是因素,总之,还是惭愧了.好了,说正题,我把这两天做爬虫的过程中遇到的问题总 ...
利用Python爬虫实现百度网盘自动化添加资源
事情的起因是这样的,由于我想找几部经典电影欣赏欣赏,于是便向某老司机寻求资源(我备注了需要正规视频,绝对不是他想的那种资源),然后他丢给了我一个视频资源网站,说是比较有名的视频资源网站.我信以为真,便 ...

随机推荐

Flink的部署
Flink的部署环境准备:windows7系统,本地连接.如果打开更改适配器设置后没有本地连接,可以通过驱动精灵等软件安装网卡驱动.为了使部署在虚拟机上的服务器可以与物理机进行连通,必须使物理机的网 ...
centos7环境下ELK部署之elasticsearch
es部署:es只能用普通用户启动博客园首发,转载请注明出处:https://www.cnblogs.com/tzxxh/p/9435318.html 一.环境准备: 安装jdk1.8.创建普通用户 ...
django配置虚拟环境-1
目录安装python 使用venv虚拟环境使用Virtualenv虚拟环境 ### Windows安装方案一方案二 Linux安装其他命令安装django 安装python https:/ ...
Java学习笔记十九:Java中的访问控制修饰符
Java中的访问控制修饰符一:Java修饰符的种类: 访问修饰符非访问修饰符修饰符用来定义类.方法或者变量,通常放在语句的最前端.我们通过下面的例子来说明: public class Hello ...
游戏人工智能读书笔记（四） AI算法简介——Ad-Hoc 行为编程
本文内容包含以下章节: Chapter 2 AI Methods Chapter 2.1 General Notes 本书英文版: Artificial Intelligence and Games ...
Qt 报错onecoreuap\inetcore\urlmon\zones\zoneidentifier.cxx(359)\urlmon.dll!00007FF9D9FA5B50:
具体报错内容 onecoreuap\inetcore\urlmon\zones\zoneidentifier.cxx(359)\urlmon.dll!00007FF9D9FA5B50: (caller ...
180601-MySql性能监控工具MyTop
文章链接:https://blog.hhui.top/hexblog/2018/06/01/180601-MySql性能监控工具MyTop/ mysql 性能监控小工具之 mytop 参考: How ...
Linux命令应用大词典-第44章 PPPoE配置
44.1 pppoe-setup:配置PPPoE客户端 44.2 ppoe-connect:管理PPPoE链路 44.3 pppoe-start:启动PPPoE链路 44.4 pppoe-stop:关 ...
Android 简介
一 Android起源 android: 机器人 android是google公司开发的基于Linux2.6的免费开源操作系统 2005 Google收购 Android Inc. 开始 Dalvik ...
MVC数据的注册及验证简单总结
一.注解注解是一种通用机制,可以用来向框架注入元数据,同时,框架不只驱动元数据的验证,还可以在生成显示和编辑模型的HTML标记时使用元数据. 二.验证注册的使用 1.Require:属性为Null或 ...

python爬虫 妹子图片网

python爬虫 妹子图片网的更多相关文章

随机推荐

热门专题

python爬虫妹子图片网

python爬虫妹子图片网的更多相关文章