Python -- 网络编程 -- 抓取网页图片 -- 豆瓣妹子

首先分析页面URL，形如http://dbmeizi.com/category/[1-14]?p=[0-476]

图片种类对应编号：

1:'性感', 2:'有沟', 3:'美腿', 4:'小露点',
6:'所有男', 7:'肌肉男', 8:'清新男', 9:'有意思' ,
10:'所有', 11:'小清新', 12:'文艺', 13:'文艺男', 14:'美臀'

图片地址形如data-bigimg="http://pic.dbmeizi.com/pics/nn2nn2nn/p12378370.jpg"

-----源代码meizi.py-----

 import re, os, time
 import urllib.request

 def getHtml(url):#取得网页的html纯文本
     return urllib.request.urlopen(url).read().decode('utf-8')

 def download(url, filename):#将文件下载到本地
     urllib.request.urlretrieve(url, filename)

 if __name__ == '__main__':
     print('---豆瓣妹子抓图机---')
     dic = {1:'性感', 2:'有沟', 3:'美腿', 4:'小露点',
            6:'所有男', 7:'肌肉男', 8:'清新男', 9:'有意思' ,
            10:'所有', 11:'小清新', 12:'文艺', 13:'文艺男', 14:'美臀'}
     for i in dic.keys():
         print('{:<15}'.format(str(i)+'--'+dic[i]), end='')
         if i%4==0: print()
     category = int(input('\n请输入抓取类别:'))
     pageNo1 = int(input('请输入抓取页面起始编号(0-476):'))#2014.5.5正好476页
     pageNo2 = int(input('请输入抓取页面终止编号(0-476):'))
     for no in range(pageNo1, pageNo2+1):
         url = 'http://dbmeizi.com/category/{}?p={}'.format(category, no)
         html = getHtml(url)
         reMeizi = r'(?<=bigimg=").+jpg'
         pics = re.findall(reMeizi, html)
         folder = 'D:/DBMeizi/{}/{}/'.format(dic[category], no)
         if not os.path.exists(folder):
             os.makedirs(folder)
         logfile = open(folder+'log.txt', 'wt')
         logfile.write('图片来源：'+ url +'\n图片链接：\n')
         for pic in pics:
             print('正在下载', pic)
             try:
                 download(pic, folder+pic[-13:])
             except:
                 print('下载出错')
                 logfile.write(pic + ' 下载出错！\n')
                 continue
             logfile.write(pic+'\n')
         logfile.close()
         print('下载' + dic[category] +'['+ str(no) +']结束。')
         time.sleep(1)
     print('全部任务结束。')

Python -- 网络编程 -- 抓取网页图片 -- 豆瓣妹子的更多相关文章

Python -- 网络编程 -- 抓取网页图片 -- 图虫网
字符串(str)编码成字节码(bytes),字节码解码为字符串获取当前环境编码:sys.stdin.encoding url编码urllib.parse.quote() url解码urllib.pa ...
Asp.net 使用正则和网络编程抓取网页数据(有用)
Asp.net 使用正则和网络编程抓取网页数据(有用) Asp.net 使用正则和网络编程抓取网页数据(有用) /// <summary> /// 抓取网页对应内容 /// </su ...
python网络爬虫抓取网站图片
本文介绍两种爬取方式: 1.正则表达式 2.bs4解析Html 以下为正则表达式爬虫,面向对象封装后的代码如下: import urllib.request # 用于下载图片 import os im ...
如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...
利用Python网络爬虫抓取微信好友的签名及其可视化展示
前几天给大家分享了如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化,利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,以及利用Python网络爬虫抓取微信好友的所 ...
如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例
前几天给大家分享了利用Python网络爬虫抓取微信朋友圈的动态(上)和利用Python网络爬虫爬取微信朋友圈动态——附代码(下),并且对抓取到的数据进行了Python词云和wordart可视化,感兴趣 ...
Python3简单爬虫抓取网页图片
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...
抓取网页图片的脚本(javascript)
抓取网页图片的脚本(javascript) 本文地址: http://blog.csdn.net/caroline_wendy/article/details/24172223 脚本内容 (没有换行) ...
利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化
前几天给大家分享了如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,感兴趣的小伙伴可以点击链接进行查看.今天小编给大家介绍如何利用Python网络爬虫抓取微信好友的省位和城市,并且将 ...

随机推荐

QGIS+GH + MapServer
拒绝描图,如何利用GH+QGIS完爆场地底图?http://www.sohu.com/a/251004986_657084 拒绝描图--爬取OSM数据绘制底图所用软件 RHINO+GH\QGIS\G ...
AOT和JIT以及混合编译的区别、优劣
AOT,JIT是什么? JIT,即Just-in-time,动态(即时)编译,边运行边编译: AOT,Ahead Of Time,指运行前编译,是两种程序的编译方式区别这两种编译方式的主要区别在于 ...
Hibernate多对多双向关联需要注意的问题（实例说话）
以Student和Course为例,一个学生可以选多门课程,一门课程也可以被多个学生选取: 持久化类Student: package bean; import java.util.Set; publi ...
NLTK之WordNet 接口
WordNet是面向语义的英语词典,类似于传统字典.它是NLTK语料库的一部分,可以被这样调用: 更简洁的写法: 1．单词查看一个单词的同义词集用synsets(); 它有一个参数pos,可以指定查 ...
[leetcode] 18. Length of Last Word
这个题目很简单,给一个字符串,然后返回最后一个单词的长度就行.题目如下: Given a string s consists of upper/lower-case alphabets and emp ...
Android-自定义ListView下拉刷新与上拉加载
效果图: 第一步:编写需要在ListView中增加头加载的布局文件,与底部加载的布局文件: 头布局文件: <?xml version="1.0" encoding=" ...
KNN PCA LDA
http://blog.csdn.net/scyscyao/article/details/5987581 这学期选了门模式识别的课.发现最常见的一种情况就是,书上写的老师ppt上写的都看不懂,然后绕 ...
docker 多阶段构建
构建镜像最具挑战性的一点是使镜像大小尽可能的小.Dockerfile中的每条指令都为图像添加了一个图层,您需要记住在移动到下一层之前清理任何不需要的工件.对于多阶段构建,您可以在Dockerfile中 ...
javac编译单文件、多文件引入jar包、-cp解决无法加载主类问题
引言:很多人用ide集成开发环境用的多了,对dos命令编译多个java文件或引入jar包都变得陌生了,java不同于其他解释语言,如ruby.php 都有require,直接引入即可运行代码,但ja ...
The service definition selected is invalid
吐槽下最近在学Java 听闻Java生态很好社区很多但实际操作起来确实另一番风景不多说了说正事添加WebService服务Client时有密码认证得服务 Eclipse抛出 The ser ...

Python -- 网络编程 -- 抓取网页图片 -- 豆瓣妹子

Python -- 网络编程 -- 抓取网页图片 -- 豆瓣妹子的更多相关文章

随机推荐

热门专题