Python3x 爬取妹子图

思路：1、get_totalpages(url) 通过【性。感。美。女。图】获得该版块的总页数【首页1234567891011下一页末页共 21页1034条】

2、get_sercoverurl(pageurl) 版块每一页有50个系列的封面，获得每个封面的地址。

3、进入该封面（即系列），获得该系列图片的总张数【[url=]共79页:[/url]上一页12345678910111213下一页】

4、get_serurl(sercoverurl) 获得每一个图片所在页面的地址

5、urllib.request.urlretrieve(picurl, filename) 获得图片的下载地址。

根据网站结构，总结了版块 -< 系列 -- 系列封面 -< 图片页面 -- 图片下载地址的编排规律，

其中" -< " 表示 1对多，即1个版块有多个系列, 1个系列封面有多个图片；

" -- " 表示 1对1，如1个系列只有1个封面， 1个图片页面只有1个图片下载地址

搞清楚这些就明白哪些地方需要循环了。

废话太多，直接上代码吧！

import urllib.request

import os

import re

def url_open(url):

    req = urllib.request.Request(url)

    req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.65 Safari/537.36')

    response = urllib.request.urlopen(url)

    html = response.read()

    return html

def get_totalpages(url):                          #通过版块地址获得该版块所有页数（每页有50个系列），返回值为数字

    html = url_open(url).decode('gbk')

    reg = r'共 <strong>(.*?)</strong>页'

    totalpages = re.findall(reg,html)[0]

    return int(totalpages)

def get_sercoverurl(pageurl):                    #通过页面地址获得该页面下所有系列的封面地址，返回值为列表

    html = url_open(pageurl).decode('gbk')

    reg = r'<p><a href="(.*?)"'

    sercoverurl = re.findall(reg, html)

    return sercoverurl                          #各个系列的封面 列表

def get_serurl(sercoverurl):                  #通过封面获得该系列的所有图片所在的页面地址 (每个页面有一张图片，其地址待下一步获取)

    html = url_open(sercoverurl).decode('gbk')   #

    reg1 = r'<li><a>共(.*?)页'

    totalsheets = int(re.findall(reg1, html)[0])  # 获得该系列图片总张数

    serurls = []

    serurls.append(sercoverurl)

    for eachsheet in range(2,totalsheets+1):

        serurl = sercoverurl[:-5] + '_' + str(eachsheet) + sercoverurl[-5:]

        serurls.append(serurl)

    return serurls

def get_picurl(serurl):

    html = url_open(serurl).decode('gbk')

    reg = r"<img src='(.*?)'"

    picurl = re.findall(reg,html)[0]

    return picurl     #只有一个地址，即封面地址

def download_cl(folder = '爬虫youmzi'):               #主程序

    try:

        os.mkdir(folder)

        os.chdir(folder)

    except:

        os.chdir(folder)

    url = 'http://www.youmzi.com/meinv.html'

    totalpages = get_totalpages(url)

    print(totalpages)

    for eachpage in range(1,totalpages+1):

        pageurl = url[:-5] + '_'+ str(eachpage) + url[-5:]

        print(pageurl)

        sercoverurl = get_sercoverurl(pageurl)       #获得系列的封面地址 列表

        print(sercoverurl)

        for eachsercover in sercoverurl:

            serurl = get_serurl(eachsercover)      #返回系列的所有地址 列表

            for oneser in serurl:

                picurl = get_picurl(oneser)

                print(picurl)

                filename = picurl.split('/')[-1]

                urllib.request.urlretrieve(picurl, filename)

if __name__ == '__main__':

    download_cl()

Python3x 爬取妹子图的更多相关文章

Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...
Python 爬虫入门之爬取妹子图
Python 爬虫入门之爬取妹子图来源:李英杰链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...
scrapy 也能爬取妹子图？
目录前言 Media Pipeline 启用Media Pipeline 使用 ImgPipeline 抓取妹子图瞎比比前言我们在抓取数据的过程中,除了要抓取文本数据之外,当然也会有抓取图片的需 ...
使用request+Beautiful爬取妹子图
一.request安装 pip install requests request使用示例 import requests response = requests.get('https://www.mz ...
requests+正则表达式爬取妹子图
做了一个爬取妹子图某张索引页面的爬虫,主要用request和正则表达式. 感谢崔庆才大神的爬虫教学视频和 gitbook: B站:https://www.bilibili.com/video/a ...
爬取妹子图(requests + BeautifulSoup)
刚刚入门爬虫,今天先对于单个图集进行爬取,过几天再进行翻页爬取. 使用requests库和BeautifulSoup库目标网站:妹子图今天是对于单个图集的爬取,就选择一个进行爬取,我选择的链接为: ...
小白学 Python 爬虫（16）：urllib 实战之爬取妹子图
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
利用 PhpQuery 随机爬取妹子图
前言运行下面的代码会随机得到妹子图的一张图片,代码中的phpQuery可以在这里下载:phpQuery-0.9.5.386.zip <?php require 'phpQuery.php'; ...
python 爬取妹子图
作为一个python还没入门的小白,搞懂这段代码实在是很不容易,还要去学html的知识(#黑脸) 因此我加上了注释,比较好读懂点 #coding=utf-8 import time import re ...

随机推荐

用oracle建表,必须注意Oracle 关键字(保留字)
Oracle 关键字(保留字) 大全转其实这个东西可以在oracle 上输入一个sql语句就可以得到: select * from v$reserved_words order by keyw ...
Android 屏幕自适应方向尺寸
最近感觉要被屏幕适配玩死了…… 安卓的手机为虾米不能像苹果那样只有几个分辨率呢?为什么呢!!!!!!!阿门…… 目前想到有两种解决办法…… 第一种: HTML5+CSS3+WebView交互……目 ...
Android 5.0最应该实现的8个期望
毫无疑问,Android 5 将是令人兴奋的操作系统,因为 Android4.0 至 4.4 版本之间并没有显著的差异,显然谷歌会在 5.0 版本中进行一些较大幅度的革新.那么,代号为“柠檬芝士蛋糕” ...
日期常用操作类DateUtil
一.给定yyyy-MM-dd hh:mm:ss格式的字符串,返回Date. public Date convertStr2Date(String dateString) { try { SimpleD ...
POJ 3279 Fliptile （二进制+搜索）
[题目链接]click here~~ [题目大意]: 农夫约翰知道聪明的牛产奶多. 于是为了提高牛的智商他准备了例如以下游戏. 有一个M×N 的格子,每一个格子能够翻转正反面,它们一面是黑色,还有一面 ...
php 实现打印预览的功能
<inputid="btnPrint" type="button" value="打印"onclick="javascrip ...
vim的窗口切换
当用vim写代码的时候,我喜欢一边看着头文件中结构的定义,一边编写实现的代码,这样就经常用到多窗口来编辑,查看文档. 1.同时打开多个文件,并横向排列 vim -o t.c t.h 2.同时打开多个文 ...
Ubuntu12.04 修复GRUB
电脑安装了双系统,本来好好的GRUB管理启动,在重装过之后就只能进win7了,所以尝试将GRuB重新安装到mbr,使用GRUB作为启动管理程序. 1.制作U盘系统使用软碟通,讲Ubuntu12.04 ...
【鉴别】日版iPhone如何通过IMEI查询运营商
SoftBank.au.docomo是日本的三大运营商,以前日本不同运营商的iPhone在型号上进行区分,但iPhone5s/5c上三个运营商的型号都一致,所以无法在型号上对运营商进行区分,本文介绍通 ...
DOM节点的三个属性
在文档对象模型 (DOM) 中,每个节点都是一个对象.DOM 节点有三个重要的属性 : 1. nodeName : 节点的名称 2. nodeValue :节点的值 3. nodeType :节点的类 ...

Python3x 爬取妹子图

Python3x 爬取妹子图的更多相关文章

随机推荐

热门专题