一、项目名称

抓取MM131美女写真图片,并将这些图片下载到本地指定文件夹。

共有6种类型的美女图片:

  1. 性感美女

  2. 清纯美眉

  3. 美女校花

  4. 性感车模

  5. 旗袍美女

  6. 明星写真

抓取后的效果图如下,每个图集是一个独立的文件夹:

二、项目目的

抓取美女写真图片,能有啥目的,纯粹是为了技术,顺便养养眼,不行吗?

另外,可以分析不同图片类型的图集数量、图片数量,以此来判断什么类型的图片最受欢迎。

三、项目要求

  1. 成功抓取到图片,并将图片进行重命名后保存到指定的文件夹,文件夹使用图集的名称

  2. 开始下载后,要有下载进度的提示,当前已下载图集数、剩余图集数、正在下载第几张图片,类似这样:

  1. 也可以增加一些其他功能,例如,请求多长时间获取不到结果时,该怎么办,这个我没写,留给大家自由发挥了

  2. 分析不同图片类型的图集数量、图片数量,以此来判断什么类型的图片最受欢迎,这个我没做,留给大家,前面会做了,这个就很简单了

四、步骤

声明一下,这个是我自己的思路,一定不是最好的,大家可以有更好的思路,欢迎交流。

步骤1:写一个函数,用于获取某一个图片类型每一页的页面链接,如 清纯美眉,共31页,需要将每一页的页面链接拿到,

要拿到每一页的链接,需要知道链接的规则,以及一共有多少页,如下图标红处,如何知道某个图片类型共有多少页呢?

也就是怎么把 list_1_31.html 中的 31 拿到呢?

步骤2:写一个函数,用于获取某一个页面的全部图集链接,如 清纯美眉第一页,拿到这个页面的所有的图集链接,

注意看每一个图集的链接,有什么统一的规则

步骤3:写一个函数,用于将某一图集的所有图片保存下来,如 清纯美眉第一个第一个图集,把这个图集的所有图片都保存下来,

注意看每一个图集的图片链接,有什么规则

步骤4:开始执行以上的函数,验证是否得到想要的结果。

建议,仔细研究一下不同图片类型的页面链接、图集链接之间的相同点和不同点,然后构思写代码。不要一次性全部下载,在写每一个函数时,传入一个具体的链接进行测试,保证每个函数都满足要求后,再批量下载。

五、如何使用

  1. Python3 版本

  2. 已安装程序需要的库,如 requests、BeautifulSoup、os、time

六、版权声明

图片版本由其官方网址持有,抓取图片仅供技术交流使用,切勿商用。

本项目来自GitHub,由于MM131换了域名,so我更新了一下

原文章:https://www.jianshu.com/p/e4a3bf1f95ab

项目地址:https://github.com/HuanGeNet/grab_beautiful_girls_pictures

【Python爬虫程序】抓取MM131美女图片,并将这些图片下载到本地指定文件夹。的更多相关文章

  1. Python爬虫实战---抓取图书馆借阅信息

    Python爬虫实战---抓取图书馆借阅信息 原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息 前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...

  2. Python爬虫实现抓取腾讯视频所有电影【实战必学】

    2019-06-27 23:51:51 阅读数 407  收藏 更多 分类专栏: python爬虫   前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问 ...

  3. 【转】Python爬虫:抓取新浪新闻数据

    案例一 抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...

  4. Python爬虫:抓取新浪新闻数据

    案例一 抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...

  5. Python爬虫,抓取淘宝商品评论内容!

    作为一个资深吃货,网购各种零食是很频繁的,但是能否在浩瀚的商品库中找到合适的东西,就只能参考评论了!今天给大家分享用python做个抓取淘宝商品评论的小爬虫! 思路 我们就拿"德州扒鸡&qu ...

  6. summernote图片上传功能保存到服务器指定文件夹+php代码+java方法

    1.summernote富文本编辑器 summernote是一款基于bootstrap的富文本编辑器,是一款十分好用的文本编辑器,还附带有图片和文件上传功能. 那么在我们网站中想吧这个图片上传到服务器 ...

  7. python爬虫数据抓取方法汇总

    概要:利用python进行web数据抓取方法和实现. 1.python进行网页数据抓取有两种方式:一种是直接依据url链接来拼接使用get方法得到内容,一种是构建post请求改变对应参数来获得web返 ...

  8. python爬虫批量抓取ip代理

    使用爬虫抓取数据时,经常要用到多个ip代理,防止单个ip访问太过频繁被封禁.ip代理可以从这个网站获取:http://www.xicidaili.com/nn/.因此写一个python程序来获取ip代 ...

  9. 利用Nodejs & Cheerio & Request抓取Lofter美女图片

    还是参考了这篇文章: http://cnodejs.org/topic/54bdaac4514ea9146862abee 另外有上面文章 nodejs抓取网易公开课的一些经验. 代码如下,注意其中用到 ...

随机推荐

  1. 3行java代码实现百度站长主动推送

    个人博客 地址:http://www.wenhaofan.com/article/push-link-seo 介绍 当网站新增了一个网页之后,此时这个网页是不能够立马被百度收录的,如果想以最快的速度被 ...

  2. VTK坐标系统及视图分割

    计算机图像学里广泛应用的坐标系统有四种,分别是:模型坐标系统(model),世界坐标系统(world),视图坐标系统(view)和显示坐标系统(display). 模型坐标系统就是定义模型时所用的坐标 ...

  3. 迭代器iterator遍历map集合

    结果:

  4. c#中的位运算

    &与  全为1才是1 |或  全为0才是0 !非  两边相同时为1,不同时为0 ~取反  0变1,1变0,包括符号位 >>右移 溢出舍掉,正数补0,负数补1,移动n位:原数 / 2 ...

  5. TP5和TP3.2的使用区别

    模板标签不一样: TP5 可在配置文件中自行定义自己喜欢的标签 TP5  使用双标签 如:{foreach} {/foreach} TP3 : <> TP5 :{} 调用数据表方式: M( ...

  6. C++——程序的结构

    1.作用域和可见性 1.1 函数原型中的参数其作用域仅在()内.因此参数名称可有可无,但是参数类型需要声明. 1.2 块作用域 在块中声明的标识符其作用域自声明处起,限于块中. 1.3 类作用域 类作 ...

  7. 三、ZigBee无线网络工具

    CC2530概述 CC2530是德州仪器Ti公司用于2.4-GHz IEEE 802.15.4.ZigBee 和 RF4CE 应用的一个真正的片上系统(SoC)解决方案,是作为ZigBee无线传 感网 ...

  8. ISCC2018_leftleftrightright-Writeup

    leftleftrightright(150) 这个题学到了不少东西,值得认真写一下 下载好文件后发现是upx的壳,upx -d直接脱掉后运行,发现是经典的check输入的题目(作为一个linuxer ...

  9. c++11 lambda简录

    本文为转载,详情请观看原文连接 或许,Lambda 表达式算得上是 C++ 11 新增特性中最激动人心的一个.这个全新的特性听起来很深奥,但却是很多其他语言早已提供(比如 C#)或者即将提供(比如 J ...

  10. char nchar varchar nvarchar varchar2区别

    char(n):长度不可变,长度为n个字节,非Unicode字符 nchar(n):长度不可变,长度为2n个字节,Unicode字符 varchar(n):长度可变,长度为n个字节,非Unicode字 ...