【Python56--爬取妹子图】

爬取网站的思路

第一步：首先分析爬取网站的连接地址特性，发现翻页图片的时候连接：http://www.mmjpg.com/mm/1570 ，http://www.mmjpg.com/mm/1569，只有后面的数字会变化

第二步：然后翻页1，2，3，用检查（查看源代码）来获取翻页的数字

第三步：查看图片的地址，保存后并写入文件内

思路就是这样的一个思路，具体用代码梳理具体的思路

第一步：

首先写一个主函数：包括：url，url后面的索引：index(1570)，翻页(1，2)，下载的图片地址；并且采用函数封装的思路

def main(index):

    #1、写url地址

    main_url = 'http://www.mmjpg.com/mm/%s' % index

    #2、获取翻页地址，写一个get_page()函数

    page = get_page(main_url)

    if os.path.exists(path) != True:

        os.mkdir(path) #创建工作目录

        #print(path)

    else:

        os.chdir(path) #切换到工作目录

    #3、遍历所有页，获取图片的地址

    for i in range(1, int(page) + 1):

        url = '%s/%s' % (main_url, i)

        try:

            get_img(url)  #获取图片地址

        except Exception as e:

            raise e

第二步：

抓取index，用函数封装写

1、用网页检查拿到1570的html

''''

 <li><a href="http://www.mmjpg.com/mm/1570" target="_blank">切出来1570这个数字

 '''

#获取http://www.mmjpg.com/mm/1570的index:如：1570，1569

def get_index():

    #2、获取网页的html

    r = requests.get('http://www.mmjpg.com', headers=headers)

    r.encoding = 'utf-8'

    html = r.text

    #3、etree.HTML():构造了一个XPath解析对象并对HTML文本进行自动修正。

    #etree.tostring()：输出修正后的结果，类型是bytes

    selector = etree.HTML(html)

    #4、获取<li><a标签下的内容，[0]取第一个

    content = selector.xpath('//li/a')[0]

    #5、继续取href的内容，[0]取第一个：即：http://www.mmjpg.com/mm/1570

    num = content.xpath('@href')[0]

    #6、已斜杠为切片，获取不同的字符，即：['http:', '', 'www.mmjpg.com', 'mm', '1570']

    num = num.split('/')

    #7、取num最后一个字符，并强制转换成整形

    num = int(num[-1])

    #返回所有的index:1570,1569

    return range(1, num + 1)

    # for each in range(1,num+1):

    #     print(each)

第三步：

获取翻页的1，2，3

#1、鼠标放到翻页的1上面右键检查，得到以下内容

'''

<div class="page" id="page">

  <em class="ch preno">没有了</em>

  <em>1</em>

  <a href="/mm/1570/2">2</a>

  <a href="/mm/1570/3">3</a>

  <a href="/mm/1570/4">4</a>

  <a href="/mm/1570/5">5</a>

  <a href="/mm/1570/6">6</a>

  <i>

  </i>

  <a href="/mm/1570/50">50</a>

  <em class="ch all" id="opic" onclick="openall(1);">全部图片</em>

  <a href="/mm/1570/2" class="ch next">下一张</a></div>

'''

def get_page(url):

    r = requests.get(url, headers=headers)

    r.encoding = 'utf-8'

    html = r.text

    selector = etree.HTML(html)

    #2、获取所有页：1、2...50、下一页，即获取下面<a>2<a>的2，3，4，5，6...50

    page = selector.xpath('//div[@id="page"]/a/text()')[-2]

第四步：

获取图片地址

#1、鼠标放到图片上，右键检查，获取以下内容

'''

<div class="content" id="content">

  <a href="http://www.mmjpg.com/mm/1570/2">

    <img src="http://fm.shiyunjj.com/2018/1570/1i28.jpg" data-img="http://fm.shiyunjj.com/2018/1570/1i28.jpg" alt="萌味十足的小尤奈雪白胴体相当性感"></a>

</div>

'''

#通过图片的地址来获取图片

def get_img(url):

    r = requests.get(url, headers=headers)

    r.encoding = 'utf-8'

    html = r.text

    selector = etree.HTML(html)

    try:

        #2、取img标签下的内容

        content = selector.xpath('//div[@id="content"]/a/img')[0]

        #3、获取图片url地址

        img_url = content.xpath('@src')[0]

        #4、取图片名字

        title = content.xpath('@alt')[0]

        #5、 #保存标题和对应的url地址

        sav_img(title, img_url)

    except Exception as e:

        print('Erro!!!')

        pass

第六步：

编写__name__

if __name__ == '__main__':

    indexs = get_index()

    #reversed()函数是返回序列seq的反向访问的迭代子,因为get_index()返回的是1570，1569，1568这样的序列，反向就是从1568，1569，1570

    for index in reversed(indexs):

        main(index)

完整的代码如下：

import requests

import os

from lxml import etree

headers = {

    'Referer': 'http://www.mmjpg.com/mm/',

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'

}

#返回当前进程的工作目录

path = os.getcwd() + '\img'

def get_index():

    r = requests.get('http://www.mmjpg.com',headers = headers)

    r.encoding= 'utf-8'

    html = r.text

    selector = etree.HTML(html)

    content = selector.xpath('//li/a')[0]

    num = content.xpath('@href')[0]

    num = num.split('/')

    num = int(num[-1])

    return range(1,num+1)

def get_page(url):

    r = requests.get(url,headers=headers)

    r.encoding = 'utf-8'

    html = r.text

    selector = etree.HTML(html)

    page = selector.xpath('//div[@id="page"]/a/text()')[-2]

    return (page)

def get_img(url):

    r = requests.get(url,headers=headers)

    r.encoding = 'utf-8'

    html = r.text

    selector = etree.HTML(html)

    try:

        content = selector.xpath('//div[@id = "content"]/a/img')[0]

        img_url = content.xpath('@src')[0]

        title = content.xpath('@alt')[0]

        save_img(title,img_url)

    except Exception as e:

        print('Erro!!!')

        pass

def save_img(name,url):

    name = name + '.jpg'

    if name in os.listdir(path):

        print('重复文件')

    else:

        r = requests.get(url,headers=headers)

        with open(name,'wb') as f:

            f.write(r.content)

        print(name)

def main(index):

    main_url = 'http://www.mmjpg.com/mm/%s'%index

    page = get_page(main_url)

    if os.path.exists(path)!= True:

        os.mkdir(path)

    else:

        os.chdir(path)

    for i in range(1,int(page)+1):

        url = '%s/%s'%(main_url,i)

        try:

            get_img(url)

        except Exception as e:

            raise e

if __name__ == '__main__':

    index = get_index()

    for index in reversed(index):

        main(index)

【Python56--爬取妹子图】的更多相关文章

Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...
Python 爬虫入门之爬取妹子图
Python 爬虫入门之爬取妹子图来源:李英杰链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...
scrapy 也能爬取妹子图？
目录前言 Media Pipeline 启用Media Pipeline 使用 ImgPipeline 抓取妹子图瞎比比前言我们在抓取数据的过程中,除了要抓取文本数据之外,当然也会有抓取图片的需 ...
使用request+Beautiful爬取妹子图
一.request安装 pip install requests request使用示例 import requests response = requests.get('https://www.mz ...
requests+正则表达式爬取妹子图
做了一个爬取妹子图某张索引页面的爬虫,主要用request和正则表达式. 感谢崔庆才大神的爬虫教学视频和 gitbook: B站:https://www.bilibili.com/video/a ...
爬取妹子图(requests + BeautifulSoup)
刚刚入门爬虫,今天先对于单个图集进行爬取,过几天再进行翻页爬取. 使用requests库和BeautifulSoup库目标网站:妹子图今天是对于单个图集的爬取,就选择一个进行爬取,我选择的链接为: ...
小白学 Python 爬虫（16）：urllib 实战之爬取妹子图
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
利用 PhpQuery 随机爬取妹子图
前言运行下面的代码会随机得到妹子图的一张图片,代码中的phpQuery可以在这里下载:phpQuery-0.9.5.386.zip <?php require 'phpQuery.php'; ...
python 爬取妹子图
作为一个python还没入门的小白,搞懂这段代码实在是很不容易,还要去学html的知识(#黑脸) 因此我加上了注释,比较好读懂点 #coding=utf-8 import time import re ...
python实战项目 — 爬取妹子图网，保存图片到本地
重点: 1. 用def函数 2. 使用 os.path.dirname("路径保存") , 实现每组图片保存在独立的文件夹中方法1: import requests from l ...

随机推荐

JDK源码调试常见错误。
1.删除不需要的代码,即swing相关的代码 2.执行命令时要将前提环境进入文件夹如下: 起初没有完全执行第一条,因为网上说可以根据需要选择相关的代码,于是就没有删除,以后第一次模仿网上的例子的时候要 ...
C++二进制字符串转十六进制字符串十六进制字符串转二进制字符串
============================================== 二进制转十六进制 ============================================ ...
sql 存储过程命名规范
规范的命名可以提高开发和维护的效率,如果你正在创建一个新的存储过程,请参考如下的命名规范. 句法: 存储过程的命名有这个的语法:[proc] [MainTableName] By [FieldName ...
kettle杂记
版本8.0,以下是我在使用kettle时候的一些小tips 1.“插入/更新”必须指定字段,“表输出”无需指定字段,但是源表的字段必须包含在目标表中,否则unknown colum! 2.连接数据库时 ...
CG标准函数库
(1)数学函数函数功能描述 abs(x) 返回输入参数的绝对值 acos(x) 反余切函数,输入参数范围为[-1,1], 返回[0,π]区间的角度值 all(x) 如果输入参数均不为0,则返回tu ...
4.无监督学习--K-means聚类
K-means方法及其应用 1.K-means聚类算法简介: k-means算法以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低.主要处理过程包括: 1.随机选择k个点作为 ...
Vue系列之 => 全局，私有过滤器
私有过滤器也称局部过滤器 <script> // 全局过滤器 Vue.filter("datatime",function(timestr){ var tm = new ...
文件、文件夹操作(I)
遍历一个目录下的所有文件首先我们获取用户文档目录路径 let manager = FileManager.default let urlForDocument = manager.urls(for: ...
CentOS下Yum的$releasever和$basearch的取值
CentOS下Yum源配置文件中如CentOS-Base.repo的$releasever和$basearch的取值 $releasever的值,这个表示当前系统的发行版本,可以通过如下命令查看: r ...
邮件服务器hMailServer管理工具hMailServer Administrator汉化（转）
//实现:邮件服务器hMailServer管理工具hMailServer Administrator的汉化 //环境: Windows Server 2008 R2 hMailServer Admin ...

【Python56--爬取妹子图】

【Python56--爬取妹子图】的更多相关文章

随机推荐

热门专题