Python爬虫之路——简单的网页抓图

转载自我自己的博客:http://www.mylonly.com/archives/1401.html

用Python的urllib2库和HTMLParser库写了一个简单的抓图脚本。主要抓的是http://desk.zol.com.cn/meinv/这个链接下的图片，通过得到图集的起始URL地址。得到第一张图片，然后不断的去获取其下一个图片的URL。继而得到全部首页的图集的图片。

整个源代码例如以下。比較简单。写这个仅仅是简单的练手而已

#coding: utf-8 #############################################################

# File Name: girls.py

# Author: mylonly

# mail: mylonly@gmail.com

# Created Time: Mon 09 Jun 2014 09:23:18 PM CST

#########################################################################

#!/usr/bin/python

import urllib2,HTMLParser,re

#根url

host = "http://desk.zol.com.cn"

#本地保存地址

localSavePath = '/data/girls/'

#起始图片html地址

startHtmlUrl = ''

#图片页Html的地址

htmlUrlList = []

#图片Url地址

imageUrlList = []

#依据得到的图片路径URL将图片下载下来保存本地

def downloadImage(url):

	cont = urllib2.urlopen(url).read()

	patter = '[0-9]*\.jpg';

	match = re.search(patter,url);

	if match:

		print '正在下载文件：',match.group()

		filename = localSavePath+match.group()

		f = open(filename,'w+')

		f.write(cont)

		f.close()

	else:

		print 'no match'

#依据首页得到的图片集遍历每一个图片集

def getImageUrlByHtmlUrl(htmlUrl):

	parser = MyHtmlParse(False)

	request = urllib2.Request(htmlUrl)

	try:

		response = urllib2.urlopen(request)

		content = response.read()

		parser.feed(content)

	except urllib2.URLError,e:

		print e.reason

class MyHtmlParse(HTMLParser.HTMLParser):

	def __init__(self,isIndex):

		self.isIndex = isIndex;

		HTMLParser.HTMLParser.__init__(self)

	def handle_starttag(self,tag,attrs):

		if(self.isIndex):

			if(tag == 'a'):

				if(len(attrs) == 4):

					if(attrs[0] ==('class','pic')):

						newUrl = host+attrs[1][1]

						print '找到一处图片的网页链接:',newUrl

						global startHtml

						startHtmlUrl = newUrl

						getImageUrlByHtmlUrl(newUrl)

		else:

			if(tag == 'img'):

				if(attrs[0] == ('id','bigImg')):

						imageUrl = attrs[1][1]

						print '找到一张图片:',imageUrl

						downloadImage(imageUrl)

						#imageUrlList.append(imageUrl)

			if (tag == 'a'):

				if (len(attrs) == 4):

					if (attrs[1] == ('class','next')):

						nextUrl = host + attrs[2][1]

						print '找到一处图片的网页链接:',nextUrl

						global startHtmlUrl

						if (startHtmlUrl != nextUrl):

							getImageUrlByHtmlUrl(nextUrl)

#分析首页得到每一个图片集的链接

indexUrl = 'http://desk.zol.com.cn/meinv/'

m = urllib2.urlopen(indexUrl).read()

parserIndex = MyHtmlParse(True)

parserIndex.feed(m

Python爬虫之路——简单的网页抓图的更多相关文章

Python爬虫之路——简单网页抓图升级版（添加多线程支持）
转载自我的博客:http://www.mylonly.com/archives/1418.html 经过两个晚上的奋斗.将上一篇文章介绍的爬虫略微改进了下(Python爬虫之路--简单网页抓图),主要 ...
python实现的一个简单的网页爬虫
学习了下python,看了一个简单的网页爬虫:http://www.cnblogs.com/fnng/p/3576154.html 自己实现了一个简单的网页爬虫,获取豆瓣的最新电影信息. 爬虫主要是获 ...
小白学 Python 爬虫（8）：网页基础
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
【音乐爬虫】Python爬虫-selenium+browsermob-proxy 解决动态网页 js渲染问题
1.一般的python爬虫很简单,直接请求对应网址,解析返回的数据即可,但是有很多网站的数据的js动态渲染的,你直接请求是得不到对应的数据的这时就需要其它手段来处理了. 2.以一个例子来说明,整个过 ...
python爬虫之路——初识基本页面构造原理
通过chrome浏览器的使用简单介绍网页构成 360浏览器使用右键审查元素,Chrome浏览器使用右键检查,都可查看网页代码. 网页代码有两部分:HTML文件和CSS样式.其中有<script& ...
python爬虫之路——无头浏览器初识及简单例子
from selenium import webdriver url='https://www.jianshu.com/p/a64529b4ccf3' def get_info(url): inclu ...
Python爬虫使用selenium处理动态网页
对于静态网页,使用requests等库可以很方便的得到它的网页源码,然后提取出想要的信息.但是对于动态网页,情况就要复杂很多,这种页面的源码往往只有一个框架,其内容都是由JavaScript渲染出来的 ...
【python爬虫】一个简单的爬取百家号文章的小爬虫
需求用"老龄智能"在百度百家号中搜索文章,爬取文章内容和相关信息. 观察网页红色框框的地方可以选择资讯来源,我这里选择的是百家号,因为百家号聚合了来自多个平台的新闻报道.首先看 ...
python爬虫之路——初识爬虫三大库，requests,lxml,beautiful.
三大库:requests,lxml,beautifulSoup. Request库作用:请求网站获取网页数据. get()的基本使用方法 #导入库 import requests #向网站发送请求,获 ...

随机推荐

【Hello 2018 C】Party Lemonade
[链接] 我是链接,点我呀:) [题意] 在这里输入题意 [题解] 处理出凑够2^j最少需要花费多少钱. 即试着把第i种物品买2^(j-i)个,看看会不会更便宜记录在huafei[0..31]中然 ...
【Uva 12093】Protecting Zonk
[Link]: [Description] n个节点的树; 每个节点都可以选择3种 1.覆盖和它相连的边; c1花费; 2.覆盖和它相连的边以及和它相连的点相连的边; c2花费; 3.不进行操作覆盖 ...
Python和C|C++的混编（二）：利用Cython进行混编
还能够使用Cython来实现混编 1 下载Cython.用python setup.py install进行安装 2 一个实例 ① 创建helloworld文件夹创建helloworld.pyx,内 ...
eclipse-ubuntu14.04图标替换不掉的问题
今天安装14.04的时候,遇到了一个问题.就是eclipse安装好以后,发现需要配置ADT,老是配置失败.后来实在没有办法了,所以就把这个eclipse跟删除了(当时它并没有安装,而是仅仅解压以后双击 ...
php如何读写excel
php如何读写excel 一.总结一句话总结:PHP操作Excel最好的方法是使用PHPExcel类, 可以到官网下载PHPExcel类库 http://phpexcel.codeplex.com ...
深入了解Linux远程桌面
本文转载于:http://www.linux521.com/2009/system/201004/11001.html 已发表在<网管员世界>2010年3月杂志本 ...
httpurlconnection发送文件到服务端并接收
httpurlconnection发送文件到服务端并接收客户端 import java.io.DataInputStream; import java.io.File; import java.io ...
asp.net 前后台数据交互方式（转）
https://blog.csdn.net/luckyrass/article/details/38758007 一.前台直接输出后台传递的数据后台代码: // .aspx.cs public st ...
今天看到可以用sqlalchemy在python上访问Mysql
from sqlalchemy import create_engine, MetaData, and_ 具体的还没有多看.
UML学习之初步总结
UML(Unified Modeling Language)即统一建模语言,是一种开放的方法,用于说明.可视化.构建和编写一个正在开发的.面向对象的.软件密集系统的制品的开放方法.UML展现了一系列最 ...

Python爬虫之路——简单的网页抓图

Python爬虫之路——简单的网页抓图的更多相关文章

随机推荐

热门专题