day_5.10py 爬妹子图片 mm131

　　
　　#目前学的爬虫还有潭州教育的直播课,都是千篇一律的requests urllib  下面这个也是,还没有我后面的下载网易云歌单爽来都用到多线程了不过可以用协程,完全异步
 1 #！/usr/bin/env/python

 #-*-coding:utf-8-*-

 '''

 2018-5-9 20:16:57

 下次查明原因

 不会知道为什么报错

 2018-5-10 19:32:39开始重新看视频

 把那个代码删了重新编码一下

 一切运行成功

 代码没错应该是网站封我ip了 还是很不错的

 py爬虫还是很强大的

 2018-5-10 21:12:37

 '''

 import  requests #这个是访问http协议的模块

 from urllib.request import urlopen,urlretrieve,urljoin,Request

 import time #尽量来点休眠

 import re

 url = 'http://www.mm131.com/xinggan/'

 def get_img(url,path,ref):

    #url: jpg地址图像真正的地址

    #path: 图像下载之后保存的路径

    #ref: 图像的ref值

    headers = {

       'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',

       'Referer':ref

    }

    req = Request(url=url,headers=headers)

    res = urlopen(req).read()

    with open(path,'wb') as fp:

       fp.write(res)

 def download(home_url):

     #一级列表页面

     html = requests.get(home_url).content.decode('gbk')

     urls = re.findall('list_6_[0-9]+.html',html) #相对路径

     urls = [urljoin(home_url,url) for url in urls]

     # 二级列表页

         #http://www.mm131.com/qingchun/3982.html

     urls_2 =[]

     for url in set(urls):#从一级列表页下面去出来每一个链接

         html = requests.get(url).content.decode('gbk')

         for i in re.findall('http://www.mm131.com/xinggan/[0-9]+.html',html):

             urls_2.append(i)

     print(urls_2)

     # 三级列表页

         #3961_3.html

     urls_3 = []

     for url in  set(urls_2):

         html = requests.get(url).content.decode('gbk')

         for i in re.findall('[0-9_]+.html',html):

             urls_3.append(i)

     pic_url = {}#key值唯一.不需要额外去重

     # 字典中:

     # key: 图像地址

     # value: Referer值

     # ..jpg:...3333_1.html

     # 从这个一个个的图片展示页面下提取真正的图片地址.jpg

     for url in set(urls_3):

         # http://img1.mm131.me/pic/3961/2.jpg

         # http://img1.mm131.me/pic/3961/3.jpg

         # http://img1.mm131.me/pic/[0-9]+/[0-9]+.jpg

         html = requests.get(url).content.decode('gbk')

         try:

             i = re.findall('http://img1.mm131.me/pic/[0-9]+/[0-9]+.jpg', html)[0]

         except:

             print("[Error] 无效的链接:", url)

         else:

             pic_url[i] = url

     # 从展示页面下，右键是可以看到的

     # 但是直接通过url链接去访问就是不行的

     # 防盗链

     index = 0

     for url in pic_url:

         # key: 下载地址

         # value: ref值

         print('[+] 当前下载%d张:%s' % (index, url))

         get_img(url=url, path=str(index) + '.jpg', ref=pic_url[url])

         index += 1

 download(url)

day_5.10py 爬妹子图片 mm131的更多相关文章

Python练习册第 0013 题：用 Python 写一个爬图片的程序，爬这个链接里的日本妹子图片 :-)，(http://tieba.baidu.com/p/2166231880)
这道题是一道爬虫练习题,需要爬链接http://tieba.baidu.com/p/2166231880里的所有妹子图片,点进链接看一下,这位妹子是日本著名性感女演员--杉本由美,^_^好漂亮啊,赶紧 ...
用python爬取全网妹子图片【附源码笔记】
这是晚上没事无聊写的python爬虫小程序,专门爬取妹子图的,养眼用的,嘻嘻!身为程序狗只会这个了! 废话不多说,代码附上,仅供参考学习! """ 功能:爬取妹子图全网妹 ...
Python爬虫-萌妹子图片
最近发现一个可以看图的地方,一张张翻有点累,毕竟只有一只手(难道鼠标还能两只手翻?).能不能下到电脑上看呢,毕竟不用等网速,还可以预览多张,总之很方便,想怎么就怎么,是吧? 刚好这几天在学python ...
Python3+selenium+BaiduAI识别并下载花瓣网高颜值妹子图片
一.说明 1.1 背景说明上周在“Python3使用百度人脸识别接口识别高颜值妹子图片”中自己说到在成功判断颜值后,下截图片并不是什么难点. 直观感觉上确实如此,你判断的这个url适不适合下载,适合 ...
Python3+BaiduAI识别高颜值妹子图片
一.在百度云平台创建应用为什么要到百度云平台创建应用,首先来说是为了获取获取access_token时需要的API Key和Secret Key 至于为什么需要API Key和Secret Key才 ...
爬取mzi.com妹子图片网站（requests库）
看了崔大佬的文章,写了这个爬虫,学习了!原文地址现在该网站加了反爬机制,不过在headers里加上refere参数就行了. 以下代码仅做学习记录之用: from bs4 import Beautif ...
Python爬取全站妹子图片，差点硬盘走火了！
在这严寒的冬日,为了点燃我们的热情,今天小编可是给大家带来了偷偷收藏了很久的好东西.大家要注意点哈,我第一次使用的时候,大意导致差点坏了大事哈! 1.所需库安装 2.网站分析首先打开妹子图的官网(m ...
python爬虫–爬取煎蛋网妹子图片
前几天刚学了python网络编程,书里没什么实践项目,只好到网上找点东西做. 一直对爬虫很好奇,所以不妨从爬虫先入手吧. Python版本:3.6 这是我看的教程:Python - Jack -Cui ...
scrapy框架爬取妹子图片
首先,建立一个项目#可在github账户下载完整代码:https://github.com/connordb/scrapy-jiandan2 scrapy startproject jiandan2 ...

随机推荐

加密入门（三）：TrueCrypt（转）
http://terrychen.info/encryption-truecrypt/ TrueCrypt 是一款功能强大的开源加密工具,利用 TrueCrypt 可以创建一个加密文件作为虚拟加密卷, ...
【GPU编解码】GPU硬编码 (转)
一.OpenCV中的硬编码 OpenCV2.4.6中,已实现利用GPU进行写视频,编码过程由cv::gpu::VideoWriter_GPU完成,其示例程序如下. 1 int main(int arg ...
【T03】理解私有地址和NAT
1.私有地址包括三块: 10.0.0.0 到 10.255.255.255 172.16.0.0 到 172.31.0.0 192.168.0.0 到 192.168.255.255 2.私有地址接入 ...
Nginx软件优化
1.1 Nginx优化分类安全优化(提升网站安全性配置) 性能优化(提升用户访问网站效率) 1.2 Nginx安全优化 1.2.1 隐藏nginx版本信息优化官方配置参数说明:http://ngi ...
【阿里巴巴Java开发手册——集合处理】13.集合的稳定性（order）和有序性（sort）
有序性(sort):指遍历的结果是按照某种比较规则依次排列的. 稳定性(order):指集合每次遍历的元素的次序是一定的. 如:ArrayList是order/unsort HashMap是unord ...
C#_基础题1-10套答案
one 1.用户输入一个整数,用if...else判断是偶数还是奇数 Console.WriteLine("请输入一个整数:"); ...
Socket网络编程--简单Web服务器(2)
上一小节通过阅读开源的Web服务器--tinyhttpd.大概知道了一次交互的请求信息和应答信息的具体过程.接下来我就自己简单的实现一个Web服务器. 下面这个程序只是实现一个简单的框架出来.这次先实 ...
Source Insight 4.0常用设置
本文以Source Insight 4.00.0086版本为例讲解常用设置. 1.Source Insight简介 Source Insight是一个面向软件开发的代码编辑器和浏览器,它拥有内置的对C ...
【转】python实战——教你用微信每天给女朋友说晚安
但凡一件事,稍微有些重复.我就考虑怎么样用程序来实现它. 这里给各位程序员朋友分享如何每天给朋友定时微信发送”晚安“,故事,新闻,等等··· ··· 最好运行在服务器上,这样后台挂起来更方便. #!/ ...
【MongoDB】MongoDb的“not master and slaveok=false”错误及解决方法 mongo连接从库出现问题
链接mongodb报错如下 2016-03-14T16:26:00.912+0800 E QUERY [thread1] Error: listDatabases failed:{ "ok& ...

day_5.10py 爬妹子图片 mm131

day_5.10py 爬妹子图片 mm131的更多相关文章

随机推荐

热门专题