Python爬虫 —— 抓取美女图片
代码如下:
#coding:utf-8
# import datetime
import requests
import os
import sys
from lxml import etree
import codecs class Spider:
def __init__(self):
self.headers = {}
self.headers['User_Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0'
self.headers['Referer'] = 'http://www.mzitu.com/all/' def crawl(self, root_url):
html_text = requests.get(root_url,headers=self.headers).text
html_tree = etree.HTML(html_text)
groups = html_tree.xpath("//div[@class='main-content']//ul[@class='archives']//a")
count = 0
print "开始抓取:"
for group in groups:
title = group.text
groupUrl = group.get('href')
print "正在抓取组图:"+title
dirpath = self.makDir(title) #获取标题,并以标题为名字创建文件夹
self.getGroup(groupUrl,dirpath) #
count = count+1
if count>=5:
print "抓取完成……"
os._exit(0) def makDir(self,dirname):
dirpath = os.path.join(u'E:\学习资料',dirname)
if not os.path.exists(dirpath):
os.makedirs(dirpath)
return dirpath def getGroup(self,groupUrl,dirpath):
self.headers['Referer'] = groupUrl
html_text = requests.get(groupUrl, headers=self.headers).text
html_tree = etree.HTML(html_text)
maxPage = html_tree.xpath("//div[@class='pagenavi']//span")[-2].text #获取改组图的张数
for page in range(1,int(maxPage)+1): #获取每一张图的所在页面
pageUrl = groupUrl + '/' + str(page) #拼接页面url
self.getPage(pageUrl,page,dirpath) #访问该页面 def getPage(self, pageUrl,page,dirpath):
self.headers['Referer'] = pageUrl
page_text = requests.get(pageUrl, headers=self.headers).text #请求该图所在的页面
page_tree = etree.HTML(page_text)
imageurl = page_tree.xpath("//div[@class='main-image']//img")[0].get('src') #获取图片url
image = requests.get(imageurl, headers=self.headers).content #请求获取图片
self.saveImage(image,page,dirpath) def saveImage(self,image,page,dirpath):
imagepath = os.path.join(dirpath, str(page) + u'.jpg')
file = codecs.open(imagepath, 'wb')
file.write(image)
file.close() if __name__ == '__main__':
reload(sys)
sys.setdefaultencoding('utf-8')
Mzitu = Spider()
Mzitu.crawl('http://www.mzitu.com/all')
Python爬虫 —— 抓取美女图片的更多相关文章
- Python爬虫 —— 抓取美女图片(Scrapy篇)
杂谈: 之前用requests模块爬取了美女图片,今天用scrapy框架实现了一遍. (图片尺度确实大了点,但老衲早已无恋红尘,权当观赏哈哈哈) Item: # -*- coding: utf-8 - ...
- python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
- Python3简单爬虫抓取网页图片
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...
- Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
- Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
- python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
- Python 爬虫: 抓取花瓣网图片
接触Python也好长时间了,一直没什么机会使用,没有机会那就自己创造机会!呐,就先从爬虫开始吧,抓点美女图片下来. 废话不多说了,讲讲我是怎么做的. 1. 分析网站 想要下载图片,只要知道图片的地址 ...
- python爬虫抓取哈尔滨天气信息(静态爬虫)
python 爬虫 爬取哈尔滨天气信息 - http://www.weather.com.cn/weather/101050101.shtml 环境: windows7 python3.4(pip i ...
- python+requests抓取页面图片
前言: 学完requests库后,想到可以利用python+requests爬取页面图片,想到实战一下.依照现在所学只能爬取图片在html页面的而不能爬取由JavaScript生成的图片,所以我选取饿 ...
随机推荐
- Esper epl语句实验
基础代码见下,下文列举的实验都是在此程序基础上改动. all,snapshot,first String epl = "select * from appTable.win:time(5 s ...
- AutoCAD如何设置A0A1图纸
可以从网上下载相应的图纸模板,下载之后可以发现有相应的文字和模板文件 随后我们新建并找到这个dwt文件模板(比如要做一个A1的模板) 随后即可发现模板的样式,包括每种颜色的粗细,颜色和明细栏等 ...
- 怎么学习PS快?
PS快速入门笔记 软件界面: 菜单栏, 工具箱 工具属性栏 悬浮面板 画布 ctrl + N 新建画布 如果需要出图:分辨率:300 颜色模式:CMYK 屏幕显示: 分辨率: 72 颜色模式: ...
- angular 视频教程
在网上找了一些,视频教程.存在备用 angular 视频教程 百度云盘地址 小时前 1小时前 30 6 angular 4.0视频教程 链接:https://pan.baidu.com/s/1qXIt ...
- 4种使用webpack提升vue应用的方式
本文参考自:https://mp.weixin.qq.com/s?src=11×tamp=1526886111&ver=889&signature=u9SixhvlJ ...
- vue组件class绑定
当在一个自定义组件上使用 class 属性时,这些类将被添加到该组件的根元素上面.这个元素上已经存在的类不会被覆盖. 例如,如果你声明了这个组件: Vue.component('my-componen ...
- 在Linux下安装R语言软件
安装环境: centos.R3.0.1 1.在终端下下载: #cd /usr/local/ #wget http://mirror.bjtu.edu.cn/cran/src/base/R-3/R-3. ...
- 【转载】IIS与asp.net管道
阅读目录 asp.net是什么 HTTP协议 IIS与asp.net asp.net管道 参考资料 我们在基于asp.net开发web程序,基本上都是发布部署到安装了IIS的windows服务器上,然 ...
- AspectJ学习笔记2-Eclipse中AspectJ插件AJDT的正确安装方法
接着之前一篇日志. 这个事情也挺无语的.简单记录一下. 在这里:http://www.eclipse.org/ajdt/ 能够下载最新的Eclipse Plugin.下载解压之后,一般来说.直接把解压 ...
- 六种基本DCDC变换器拓扑结构
1.SEPIC电路 2.