一、项目名称

抓取MM131美女写真图片,并将这些图片下载到本地指定文件夹。

共有6种类型的美女图片:

  1. 性感美女

  2. 清纯美眉

  3. 美女校花

  4. 性感车模

  5. 旗袍美女

  6. 明星写真

抓取后的效果图如下,每个图集是一个独立的文件夹:

二、项目目的

抓取美女写真图片,能有啥目的,纯粹是为了技术,顺便养养眼,不行吗?

另外,可以分析不同图片类型的图集数量、图片数量,以此来判断什么类型的图片最受欢迎。

三、项目要求

  1. 成功抓取到图片,并将图片进行重命名后保存到指定的文件夹,文件夹使用图集的名称

  2. 开始下载后,要有下载进度的提示,当前已下载图集数、剩余图集数、正在下载第几张图片,类似这样:

  1. 也可以增加一些其他功能,例如,请求多长时间获取不到结果时,该怎么办,这个我没写,留给大家自由发挥了

  2. 分析不同图片类型的图集数量、图片数量,以此来判断什么类型的图片最受欢迎,这个我没做,留给大家,前面会做了,这个就很简单了

四、步骤

声明一下,这个是我自己的思路,一定不是最好的,大家可以有更好的思路,欢迎交流。

步骤1:写一个函数,用于获取某一个图片类型每一页的页面链接,如 清纯美眉,共31页,需要将每一页的页面链接拿到,

要拿到每一页的链接,需要知道链接的规则,以及一共有多少页,如下图标红处,如何知道某个图片类型共有多少页呢?

也就是怎么把 list_1_31.html 中的 31 拿到呢?

步骤2:写一个函数,用于获取某一个页面的全部图集链接,如 清纯美眉第一页,拿到这个页面的所有的图集链接,

注意看每一个图集的链接,有什么统一的规则

步骤3:写一个函数,用于将某一图集的所有图片保存下来,如 清纯美眉第一个第一个图集,把这个图集的所有图片都保存下来,

注意看每一个图集的图片链接,有什么规则

步骤4:开始执行以上的函数,验证是否得到想要的结果。

建议,仔细研究一下不同图片类型的页面链接、图集链接之间的相同点和不同点,然后构思写代码。不要一次性全部下载,在写每一个函数时,传入一个具体的链接进行测试,保证每个函数都满足要求后,再批量下载。

五、如何使用

  1. Python3 版本

  2. 已安装程序需要的库,如 requests、BeautifulSoup、os、time

六、版权声明

图片版本由其官方网址持有,抓取图片仅供技术交流使用,切勿商用。

本项目来自GitHub,由于MM131换了域名,so我更新了一下

原文章:https://www.jianshu.com/p/e4a3bf1f95ab

项目地址:https://github.com/HuanGeNet/grab_beautiful_girls_pictures

【Python爬虫程序】抓取MM131美女图片,并将这些图片下载到本地指定文件夹。的更多相关文章

  1. Python爬虫实战---抓取图书馆借阅信息

    Python爬虫实战---抓取图书馆借阅信息 原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息 前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...

  2. Python爬虫实现抓取腾讯视频所有电影【实战必学】

    2019-06-27 23:51:51 阅读数 407  收藏 更多 分类专栏: python爬虫   前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问 ...

  3. 【转】Python爬虫:抓取新浪新闻数据

    案例一 抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...

  4. Python爬虫:抓取新浪新闻数据

    案例一 抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...

  5. Python爬虫,抓取淘宝商品评论内容!

    作为一个资深吃货,网购各种零食是很频繁的,但是能否在浩瀚的商品库中找到合适的东西,就只能参考评论了!今天给大家分享用python做个抓取淘宝商品评论的小爬虫! 思路 我们就拿"德州扒鸡&qu ...

  6. summernote图片上传功能保存到服务器指定文件夹+php代码+java方法

    1.summernote富文本编辑器 summernote是一款基于bootstrap的富文本编辑器,是一款十分好用的文本编辑器,还附带有图片和文件上传功能. 那么在我们网站中想吧这个图片上传到服务器 ...

  7. python爬虫数据抓取方法汇总

    概要:利用python进行web数据抓取方法和实现. 1.python进行网页数据抓取有两种方式:一种是直接依据url链接来拼接使用get方法得到内容,一种是构建post请求改变对应参数来获得web返 ...

  8. python爬虫批量抓取ip代理

    使用爬虫抓取数据时,经常要用到多个ip代理,防止单个ip访问太过频繁被封禁.ip代理可以从这个网站获取:http://www.xicidaili.com/nn/.因此写一个python程序来获取ip代 ...

  9. 利用Nodejs & Cheerio & Request抓取Lofter美女图片

    还是参考了这篇文章: http://cnodejs.org/topic/54bdaac4514ea9146862abee 另外有上面文章 nodejs抓取网易公开课的一些经验. 代码如下,注意其中用到 ...

随机推荐

  1. Git 版本回退的几种操作方法

    1, 结合使用 git reset --hard <commit id> , git reset --hard HEAD^,  git reflog , git log 1) 使用 git ...

  2. selenium统计网页加载时间

    参考网址: https://blog.csdn.net/thlzjfefe/article/details/99712974 https://blog.csdn.net/weixin_43664254 ...

  3. 利用Master库spt_values表 连续数字

    SELECT CONVERT ( ), dateadd(d, number, GETDATE()), ) AS every_time FROM master..spt_values n WHERE n ...

  4. 二分-G - 4 Values whose Sum is 0

    G - 4 Values whose Sum is 0 The SUM problem can be formulated as follows: given four lists A, B, C, ...

  5. 微信小程序 selectComponent 值为null

    这个东西的执行时间感觉有点迷, 我遇到的情况是在page 的onReady  onShow 当中 使用 selectComponent 无法获取到子组件的对象 只好退而求其次  在需要触发的方法当中 ...

  6. 【Python】程序计时

  7. 解决使用git出现 The file will have its original line endings in your working directory

    执行以下命令即可解决 git rm -r --cached . git config core.autocrlf false git add . . 代表当前目录

  8. Python MonkeyRunner 连接设备总是返回连接成功问题

    device = mr.waitForConnection(1,deviceName) 当使用waitForConnection时,不管设备是否连接,device总是返回一个对象,所以没有办法通过 i ...

  9. axios中then不用第二个参数,最好用catch

    一般来说,不要在then方法里面定义 Reject 状态的回调函数(即then的第二个参数),总是使用catch方法. // bad promise .then(function(data) { // ...

  10. 如何查看当前工程,已经安装的nuget包?

    本文链接:https://blog.csdn.net/Microsoft_Mao/article/details/101161872如果想知道,当前解决方案(solution)里都安装了什么包,这里可 ...