python爬取妹子图全站全部图片-可自行添加-线程-进程爬取，图片去重

from bs4 import BeautifulSoup
import sys,os,requests,pymongo,time
from lxml import etree
def get_fenlei(url,headers):
    """
    获取妹子图的分类链接，并创建相对应的分类文件夹
    :param url:
    :param headers:
    :return:
    """
    response = requests.get(url,headers=headers).text
    soup = BeautifulSoup(response,'lxml')
    fenlei_url = soup.select('#menu-nav > li > a')
    list1 = []
    print(sys.path)
    for i in fenlei_url:
        fen_lei_lianjie = i['href']
        if ''.join(fen_lei_lianjie).split('/')[3] =='all':
            continue
        elif ''.join(fen_lei_lianjie).split('/')[3] != '':
            fenlei_name = i.get_text()
            print(fenlei_name,fen_lei_lianjie,'首页')
            get_fenlei_xia(fen_lei_lianjie,fenlei_name)
            list1.append(fen_lei_lianjie)
def get_fenlei_xia(fen_lei_lianjie,fenlei_name):
    """

    :param fen_lei_lianjie:
    :param fenlei_name:
    :return:
    """
    print('{}{}'.format(fen_lei_lianjie,'<><><><><><>'))
    response = requests.get(fen_lei_lianjie,headers=headers).text
    html = etree.HTML(response)
    fenye_page = html.xpath('/html/body/div[2]/div[1]/div[2]/nav/div/a[4]')
    page_list = []
    if fenye_page != []:
        for i in fenye_page:
            page_shu = i.xpath('./text()')[0]
            page_url = i.xpath('./@href')[0]
            for ia in range(1,int(page_shu)+1):
                fenlei_url = '{}/{}/{}/{}/'.format('https://www.mzitu.com/',''.join(page_url).split('/')[3],'page',ia)
                page_list.append(fenlei_url)
    else:
        print('{}'.format('没有数据11111'))
    fenye_page2 = html.xpath('//*[@id="comments"]/div/a[3]')
    if fenye_page2 != []:
        for aa in fenye_page2:
            shuliang_shu = aa.xpath('./text()')[0]
            shuliang_url = aa.xpath('./@href')[0]
            for page in range(1,int(shuliang_shu)+3):
                shen_url = '{}{}/{}/{}/{}'.format('https://www.mzitu.com/',''.join(shuliang_url).split('/')[3],'comment-page-',page,'#comments')
                page_list.append(shen_url)
    else:
        print('{}'.format('没有数据222222'))
    for shu in page_list:
        get_all_url(shu,fenlei_name)

def get_all_url(shu,fenlei_name):
    """
    爬取分页下的图片链接
    :param shu:
    :param fenlei_name:
    :return:
    """
    print(shu,'<><><><><><><><>')
    response = requests.get(shu,headers=headers).text
    soup = BeautifulSoup(response,'lxml')
    img_src = soup.select('#pins > li > a')
    page_list = []
    for i in img_src:
        img_src = i['href']
        page_list.append(img_src)
        get_img_gref(img_src,fenlei_name)
def get_img_gref(img_src,fenlei_name):
    """
    下载图片
    :param img_src:
    :param fenlei_name:
    :return:
    """
    print(img_src,'<><><><><><><><><><><<')
    try:
        response = requests.get(img_src,headers=headers)
        print(response.status_code,'页面状态码')
        html = etree.HTML(response.text)
        img_href = html.xpath('//div[2]/div[1]/div[3]/p/a/img/@src')[0]
        lei_name = html.xpath('/html/body/div[2]/div[1]/div[2]/span[1]/a/text()')[0]
        if fenlei_name == lei_name:
            wenjian = 'D:\\web_xiangmu\\biquge_tushu\\妹子图\\' + fenlei_name
            if not os.path.exists(wenjian):
                os.makedirs(wenjian)
                print('{}{}{}'.format('D:\\web_xiangmu\\biquge_tushu\\妹子图\\<<<', fenlei_name, '>>>分类文件夹创建成功'))
            else:
                print(print('{}{}{}'.format('D:\\web_xiangmu\\biquge_tushu\\妹子图\\<<<', fenlei_name, '>>>分类文件夹已存在')))
            """
            图片去重
            """
            img_name = ''.join(img_href).split('/')[-1]
            res = requests.get(img_href, headers=headers)
            root_dir = 'D:\\web_xiangmu\\biquge_tushu\\妹子图\\' + fenlei_name
            panduan_root_dir = 'D:\\web_xiangmu\\biquge_tushu\妹子图\\{}\\{}'.format(fenlei_name,img_name)
            if os.path.exists(panduan_root_dir):
                print('{}{}'.format(img_name,'已存在'))
            else:
                with open(root_dir + "\\" + img_name, 'wb') as f:
                    f.write(res.content)
                    f.close()
                    print(fenlei_name + '---' + img_name + '文件保存成功')
            """
            图片去重
            """
        else:
            return None
    except:
        print('《《《连接失败》》》')

def main():
    return get_fenlei(url,headers)

if __name__ == '__main__':
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36',
        'Referer': 'https://www.mzitu.com/hot/',

    }
    url = "https://www.mzitu.com/"
    main()

python爬取妹子图全站全部图片-可自行添加-线程-进程爬取，图片去重的更多相关文章

Python协程爬取妹子图(内有福利，你懂得~)
项目说明: 1.项目介绍本项目使用Python提供的协程+scrapy中的选择器的使用(相当好用)实现爬取妹子图的(福利图)图片,这个学会了,某榴什么的.pow(2, 10)是吧! 2.用到的知 ...
Python3爬虫系列：理论+实验+爬取妹子图实战
Github: https://github.com/wangy8961/python3-concurrency-pics-02 ,欢迎star 爬虫系列: (1) 理论 Python3爬虫系列01 ...
Python-爬取妹子图(单线程和多线程版本)
一.参考文章 Python爬虫之——爬取妹子图片上述文章中的代码讲述的非常清楚,我的基本能思路也是这样,本篇文章中的代码仅仅做了一些异常处理和一些日志显示优化工作,写此文章主要是当做笔记,方便以后查 ...
Python网络爬虫 | Scrapy爬取妹子图网站全站照片
根据现有的知识,写了一个下载妹子图(meizitu.com)Scrapy脚本,把全站两万多张照片下载到了本地. 网站的分析网页的网址分析打开网站,发现网页的网址都是以 http://www.mei ...
Python 2.7和3.6爬取妹子图网站单页测试图片
1.url= http://www.mzitu.com/74100/x,2为1到23的值 2.用到模块 os 创建文件目录; re模块正则匹配目录名图片下载地址; time模块限制下载时间;req ...
Python 2.7_爬取妹子图网站单页测试图片_20170114
1.url= http://www.mzitu.com/74100/x,2为1到23的值 2.用到模块 os 创建文件目录; re模块正则匹配目录名图片下载地址; time模块限制下载时间;req ...
使用requests+BeaBeautiful Soup爬取妹子图图片
1. Requests:让 HTTP 服务人类 Requests 继承了urllib2的所有特性.Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定 ...
Python 爬取妹子图(技术是无罪的)
... #!/usr/bin/env python import urllib.request from bs4 import BeautifulSoup def crawl(url): header ...
Python 爬取妹子图(技术是无罪的)
... import requests from bs4 import BeautifulSoup import os import sys class mzitu(): def html(self, ...

随机推荐

1.springboot内置tomcat的connection相关
最近在研究tomcat的连接超时问题,环境:jdk1.8 + springboot 2.1.1.RELEASE,以下仅为个人理解,如果异议,欢迎指正. springboot的tomcat的几个配置参数 ...
CNN基础框架简介
卷积神经网络简介卷积神经网络是多层感知机的变种,由生物学家休博尔和维瑟尔在早期关于猫视觉皮层的研究发展而来.视觉皮层的细胞存在一个复杂的构造,这些细胞对视觉输入空间的子区域非常敏感,我们称之为感受野 ...
driver.implicitly_wait不起作用的排错方法
环境是python3.6+selenium 3.4.3+chrome64 在编写前端自动化脚本时使用implicitly_wait时不起作用 1.确认自己是否正确使用,可用简单的例子来测试,比如: 此 ...
CSS层叠样式表的层叠是什么意思
层叠的意思就是“继承”.“权重”.“覆盖”,通过良好的层级命名更好的实现效果,更少的代码,更多的功能,下面为大家详细介绍下,感兴趣的朋友不要错过解答一: 层叠指的是样式的优先级,当产生冲突时以优 ...
Python - 排序( 插入, 冒泡, 快速, 二分 )
插入排序算法分析两次循环, 大循环对队列中的每一个元素拿出来作为小循环的裁定对象小循环对堆当前循环对象在有序队列中寻找插入的位置性能参数空间复杂度 O(1) 时间复杂度 O(n^2) 详细代 ...
vue 面试题（文章末尾还有其他链接）
https://segmentfault.com/a/1190000016344599
centos7安装redis3.2.5集群
安装参照 https://blog.csdn.net/mingliangniwo/article/details/54600640 https://blog.csdn.net/u013820 ...
【JVM学习笔记】字节码文件结构实例
上一篇笔记的内容大部分没有实际动手操作,因此决定完成这个完整的练习并记录下来. 另注,idea环境下有jclasslib插件用于更好的查看类似于javap结果的内容. 源代码如下: package c ...
linux的vm.overcommit_memory的内存分配参数详解
公司的redis有时background save db不成功,通过log发现下面的告警,很可能由它引起的: [13223] 17 Mar 13:18:02.207 # WARNING overcom ...
mysql对字段的操作
增: alter table 表名 add 字段名+数据类型, add 字段名+数据类型; alter table 表名 add primary key 字段: "添加主键" 删: ...

python爬取妹子图全站全部图片-可自行添加-线程-进程爬取，图片去重

python爬取妹子图全站全部图片-可自行添加-线程-进程爬取，图片去重的更多相关文章

随机推荐

热门专题