python爬取妹子图全站全部图片-可自行添加-线程-进程爬取，图片去重

from bs4 import BeautifulSoup
import sys,os,requests,pymongo,time
from lxml import etree
def get_fenlei(url,headers):
    """
    获取妹子图的分类链接，并创建相对应的分类文件夹
    :param url:
    :param headers:
    :return:
    """
    response = requests.get(url,headers=headers).text
    soup = BeautifulSoup(response,'lxml')
    fenlei_url = soup.select('#menu-nav > li > a')
    list1 = []
    print(sys.path)
    for i in fenlei_url:
        fen_lei_lianjie = i['href']
        if ''.join(fen_lei_lianjie).split('/')[3] =='all':
            continue
        elif ''.join(fen_lei_lianjie).split('/')[3] != '':
            fenlei_name = i.get_text()
            print(fenlei_name,fen_lei_lianjie,'首页')
            get_fenlei_xia(fen_lei_lianjie,fenlei_name)
            list1.append(fen_lei_lianjie)
def get_fenlei_xia(fen_lei_lianjie,fenlei_name):
    """

    :param fen_lei_lianjie:
    :param fenlei_name:
    :return:
    """
    print('{}{}'.format(fen_lei_lianjie,'<><><><><><>'))
    response = requests.get(fen_lei_lianjie,headers=headers).text
    html = etree.HTML(response)
    fenye_page = html.xpath('/html/body/div[2]/div[1]/div[2]/nav/div/a[4]')
    page_list = []
    if fenye_page != []:
        for i in fenye_page:
            page_shu = i.xpath('./text()')[0]
            page_url = i.xpath('./@href')[0]
            for ia in range(1,int(page_shu)+1):
                fenlei_url = '{}/{}/{}/{}/'.format('https://www.mzitu.com/',''.join(page_url).split('/')[3],'page',ia)
                page_list.append(fenlei_url)
    else:
        print('{}'.format('没有数据11111'))
    fenye_page2 = html.xpath('//*[@id="comments"]/div/a[3]')
    if fenye_page2 != []:
        for aa in fenye_page2:
            shuliang_shu = aa.xpath('./text()')[0]
            shuliang_url = aa.xpath('./@href')[0]
            for page in range(1,int(shuliang_shu)+3):
                shen_url = '{}{}/{}/{}/{}'.format('https://www.mzitu.com/',''.join(shuliang_url).split('/')[3],'comment-page-',page,'#comments')
                page_list.append(shen_url)
    else:
        print('{}'.format('没有数据222222'))
    for shu in page_list:
        get_all_url(shu,fenlei_name)

def get_all_url(shu,fenlei_name):
    """
    爬取分页下的图片链接
    :param shu:
    :param fenlei_name:
    :return:
    """
    print(shu,'<><><><><><><><>')
    response = requests.get(shu,headers=headers).text
    soup = BeautifulSoup(response,'lxml')
    img_src = soup.select('#pins > li > a')
    page_list = []
    for i in img_src:
        img_src = i['href']
        page_list.append(img_src)
        get_img_gref(img_src,fenlei_name)
def get_img_gref(img_src,fenlei_name):
    """
    下载图片
    :param img_src:
    :param fenlei_name:
    :return:
    """
    print(img_src,'<><><><><><><><><><><<')
    try:
        response = requests.get(img_src,headers=headers)
        print(response.status_code,'页面状态码')
        html = etree.HTML(response.text)
        img_href = html.xpath('//div[2]/div[1]/div[3]/p/a/img/@src')[0]
        lei_name = html.xpath('/html/body/div[2]/div[1]/div[2]/span[1]/a/text()')[0]
        if fenlei_name == lei_name:
            wenjian = 'D:\\web_xiangmu\\biquge_tushu\\妹子图\\' + fenlei_name
            if not os.path.exists(wenjian):
                os.makedirs(wenjian)
                print('{}{}{}'.format('D:\\web_xiangmu\\biquge_tushu\\妹子图\\<<<', fenlei_name, '>>>分类文件夹创建成功'))
            else:
                print(print('{}{}{}'.format('D:\\web_xiangmu\\biquge_tushu\\妹子图\\<<<', fenlei_name, '>>>分类文件夹已存在')))
            """
            图片去重
            """
            img_name = ''.join(img_href).split('/')[-1]
            res = requests.get(img_href, headers=headers)
            root_dir = 'D:\\web_xiangmu\\biquge_tushu\\妹子图\\' + fenlei_name
            panduan_root_dir = 'D:\\web_xiangmu\\biquge_tushu\妹子图\\{}\\{}'.format(fenlei_name,img_name)
            if os.path.exists(panduan_root_dir):
                print('{}{}'.format(img_name,'已存在'))
            else:
                with open(root_dir + "\\" + img_name, 'wb') as f:
                    f.write(res.content)
                    f.close()
                    print(fenlei_name + '---' + img_name + '文件保存成功')
            """
            图片去重
            """
        else:
            return None
    except:
        print('《《《连接失败》》》')

def main():
    return get_fenlei(url,headers)

if __name__ == '__main__':
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36',
        'Referer': 'https://www.mzitu.com/hot/',

    }
    url = "https://www.mzitu.com/"
    main()

python爬取妹子图全站全部图片-可自行添加-线程-进程爬取，图片去重的更多相关文章

Python协程爬取妹子图(内有福利，你懂得~)
项目说明: 1.项目介绍本项目使用Python提供的协程+scrapy中的选择器的使用(相当好用)实现爬取妹子图的(福利图)图片,这个学会了,某榴什么的.pow(2, 10)是吧! 2.用到的知 ...
Python3爬虫系列：理论+实验+爬取妹子图实战
Github: https://github.com/wangy8961/python3-concurrency-pics-02 ,欢迎star 爬虫系列: (1) 理论 Python3爬虫系列01 ...
Python-爬取妹子图(单线程和多线程版本)
一.参考文章 Python爬虫之——爬取妹子图片上述文章中的代码讲述的非常清楚,我的基本能思路也是这样,本篇文章中的代码仅仅做了一些异常处理和一些日志显示优化工作,写此文章主要是当做笔记,方便以后查 ...
Python网络爬虫 | Scrapy爬取妹子图网站全站照片
根据现有的知识,写了一个下载妹子图(meizitu.com)Scrapy脚本,把全站两万多张照片下载到了本地. 网站的分析网页的网址分析打开网站,发现网页的网址都是以 http://www.mei ...
Python 2.7和3.6爬取妹子图网站单页测试图片
1.url= http://www.mzitu.com/74100/x,2为1到23的值 2.用到模块 os 创建文件目录; re模块正则匹配目录名图片下载地址; time模块限制下载时间;req ...
Python 2.7_爬取妹子图网站单页测试图片_20170114
1.url= http://www.mzitu.com/74100/x,2为1到23的值 2.用到模块 os 创建文件目录; re模块正则匹配目录名图片下载地址; time模块限制下载时间;req ...
使用requests+BeaBeautiful Soup爬取妹子图图片
1. Requests:让 HTTP 服务人类 Requests 继承了urllib2的所有特性.Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定 ...
Python 爬取妹子图(技术是无罪的)
... #!/usr/bin/env python import urllib.request from bs4 import BeautifulSoup def crawl(url): header ...
Python 爬取妹子图(技术是无罪的)
... import requests from bs4 import BeautifulSoup import os import sys class mzitu(): def html(self, ...

随机推荐

react-hook设定定时器的方法
const useInterval = (callback, delay) => { const savedCallback = useRef(); // 保存新回调 useEffect(() ...
html5验证自适应
// 移动端跳转 var OS = function() { var a = navigator.userAgent, b = /(?:Android)/.test(a), d = /(?:Firef ...
UTC ISO 8601
如果时间在零时区,并恰好与协调世界时相同,那么(不加空格地)在时间最后加一个大写字母Z.Z是相对协调世界时时间0偏移的代号.如下午2点30分5秒表示为14:30:05Z或143005Z:只表示小时和分 ...
VC 实现程序只运行一个实例，并激活已运行的程序
转载:http://blog.sina.com.cn/s/blog_4b44e1c00100bh69.html 进程的互斥运行:CreateMutex函数实现只运行一个程序实例正常情况下,一个进程的 ...
04 MySQL之函数
01-数学函数数学函数主要用来处理数值数据. # 1.绝对值函数 ABS(x) 和返回圆周率的函数 PI() ABS(x) 返回x的绝对值. 例: mysql> select ABS(2), ...
来自iSpy整理的最全海康大华IPC的RTSP连接地址
来自iSpy整理的最全海康大华IPC的RTSP连接地址先贴出处: 海康:http://www.ispyconnect.com/man.aspx?n=Hikvision 大华:http://www.i ...
Requests API
Requests API http://docs.python-requests.org/en/latest/ requests的具体安装过程请看: http://docs.python-reques ...
Python3 编程第一步_关键字end
关键字end可以被用于防止输出新的一行,或者在输出的末尾添加不同的字符: a, b = 0, 1 while b < 1000: print(b, end=',') a, b = b, a+b ...
DevOps - DevOps工具链
不要满足于使用世界上已存在的各种方法和技术,而应重点放在希望达到的效果上! 单单使用工具不难,困难的是在团队开发中熟练使用,并形成一套理想的工作流程,只有在团队中工具和思想才能发挥最大价值. 开源工具 ...
docker清理
# 删除退出的容器docker rm $(docker ps -qa --no-trunc --filter "status=exited") # 删除悬挂镜像docker rmi ...

python爬取妹子图全站全部图片-可自行添加-线程-进程爬取，图片去重

python爬取妹子图全站全部图片-可自行添加-线程-进程爬取，图片去重的更多相关文章

随机推荐

热门专题