Python爬虫之路——简单的网页抓图

转载自我自己的博客:http://www.mylonly.com/archives/1401.html

用Python的urllib2库和HTMLParser库写了一个简单的抓图脚本。主要抓的是http://desk.zol.com.cn/meinv/这个链接下的图片，通过得到图集的起始URL地址。得到第一张图片，然后不断的去获取其下一个图片的URL。继而得到全部首页的图集的图片。

整个源代码例如以下。比較简单。写这个仅仅是简单的练手而已

#coding: utf-8 #############################################################

# File Name: girls.py

# Author: mylonly

# mail: mylonly@gmail.com

# Created Time: Mon 09 Jun 2014 09:23:18 PM CST

#########################################################################

#!/usr/bin/python

import urllib2,HTMLParser,re

#根url

host = "http://desk.zol.com.cn"

#本地保存地址

localSavePath = '/data/girls/'

#起始图片html地址

startHtmlUrl = ''

#图片页Html的地址

htmlUrlList = []

#图片Url地址

imageUrlList = []

#依据得到的图片路径URL将图片下载下来保存本地

def downloadImage(url):

	cont = urllib2.urlopen(url).read()

	patter = '[0-9]*\.jpg';

	match = re.search(patter,url);

	if match:

		print '正在下载文件：',match.group()

		filename = localSavePath+match.group()

		f = open(filename,'w+')

		f.write(cont)

		f.close()

	else:

		print 'no match'

#依据首页得到的图片集遍历每一个图片集

def getImageUrlByHtmlUrl(htmlUrl):

	parser = MyHtmlParse(False)

	request = urllib2.Request(htmlUrl)

	try:

		response = urllib2.urlopen(request)

		content = response.read()

		parser.feed(content)

	except urllib2.URLError,e:

		print e.reason

class MyHtmlParse(HTMLParser.HTMLParser):

	def __init__(self,isIndex):

		self.isIndex = isIndex;

		HTMLParser.HTMLParser.__init__(self)

	def handle_starttag(self,tag,attrs):

		if(self.isIndex):

			if(tag == 'a'):

				if(len(attrs) == 4):

					if(attrs[0] ==('class','pic')):

						newUrl = host+attrs[1][1]

						print '找到一处图片的网页链接:',newUrl

						global startHtml

						startHtmlUrl = newUrl

						getImageUrlByHtmlUrl(newUrl)

		else:

			if(tag == 'img'):

				if(attrs[0] == ('id','bigImg')):

						imageUrl = attrs[1][1]

						print '找到一张图片:',imageUrl

						downloadImage(imageUrl)

						#imageUrlList.append(imageUrl)

			if (tag == 'a'):

				if (len(attrs) == 4):

					if (attrs[1] == ('class','next')):

						nextUrl = host + attrs[2][1]

						print '找到一处图片的网页链接:',nextUrl

						global startHtmlUrl

						if (startHtmlUrl != nextUrl):

							getImageUrlByHtmlUrl(nextUrl)

#分析首页得到每一个图片集的链接

indexUrl = 'http://desk.zol.com.cn/meinv/'

m = urllib2.urlopen(indexUrl).read()

parserIndex = MyHtmlParse(True)

parserIndex.feed(m

Python爬虫之路——简单的网页抓图的更多相关文章

Python爬虫之路——简单网页抓图升级版（添加多线程支持）
转载自我的博客:http://www.mylonly.com/archives/1418.html 经过两个晚上的奋斗.将上一篇文章介绍的爬虫略微改进了下(Python爬虫之路--简单网页抓图),主要 ...
python实现的一个简单的网页爬虫
学习了下python,看了一个简单的网页爬虫:http://www.cnblogs.com/fnng/p/3576154.html 自己实现了一个简单的网页爬虫,获取豆瓣的最新电影信息. 爬虫主要是获 ...
小白学 Python 爬虫（8）：网页基础
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
【音乐爬虫】Python爬虫-selenium+browsermob-proxy 解决动态网页 js渲染问题
1.一般的python爬虫很简单,直接请求对应网址,解析返回的数据即可,但是有很多网站的数据的js动态渲染的,你直接请求是得不到对应的数据的这时就需要其它手段来处理了. 2.以一个例子来说明,整个过 ...
python爬虫之路——初识基本页面构造原理
通过chrome浏览器的使用简单介绍网页构成 360浏览器使用右键审查元素,Chrome浏览器使用右键检查,都可查看网页代码. 网页代码有两部分:HTML文件和CSS样式.其中有<script& ...
python爬虫之路——无头浏览器初识及简单例子
from selenium import webdriver url='https://www.jianshu.com/p/a64529b4ccf3' def get_info(url): inclu ...
Python爬虫使用selenium处理动态网页
对于静态网页,使用requests等库可以很方便的得到它的网页源码,然后提取出想要的信息.但是对于动态网页,情况就要复杂很多,这种页面的源码往往只有一个框架,其内容都是由JavaScript渲染出来的 ...
【python爬虫】一个简单的爬取百家号文章的小爬虫
需求用"老龄智能"在百度百家号中搜索文章,爬取文章内容和相关信息. 观察网页红色框框的地方可以选择资讯来源,我这里选择的是百家号,因为百家号聚合了来自多个平台的新闻报道.首先看 ...
python爬虫之路——初识爬虫三大库，requests,lxml,beautiful.
三大库:requests,lxml,beautifulSoup. Request库作用:请求网站获取网页数据. get()的基本使用方法 #导入库 import requests #向网站发送请求,获 ...

随机推荐

POJ 2079 Triangle 旋转卡壳求最大三角形
求点集中面积最大的三角形...显然这个三角形在凸包上... 但是旋转卡壳一般都是一个点卡另一个点...这种要求三角形的情况就要枚举底边的两个点卡另一个点了... 随着底边点的递增, 最大点显然是在以 ...
Linux 交换分区swap
Linux 交换分区swap 一.创建和启用swap交换区如果你的服务器的总是报告内存不足,并且时常因为内存不足而引发服务被强制kill的话,在不增加物理内存的情况下,启用swap交换区作为虚拟内存 ...
【Codeforces Round #456 (Div. 2) C】Perun, Ult!
[链接] 我是链接,点我呀:) [题意] 在这里输入题意 [题解] set1 < pair < int,int > > set1;记录关键点->某个人怪物永远打不死了,第 ...
Java中的继承和接口
本文来自http://blog.csdn.net/liuxian13183/ ,引用必须注明出处! 这是个老话题,继承和接口是实现多态的两种方式,如果对象很多,其中一对一对的有共同点,建议用继承,如果 ...
Visual Studio Code配置GoLang开发环境
Visual Studio Code配置GoLang开发环境在Visual Studio Code配置GoLang开发环境作者:chszs,未经博主允许不得转载.经许可的转载需注明作者和博客主页: ...
MYSQL存储过程中使用变量做表名--转
原文地址:http://blog.csdn.net/business122/article/details/7528859 今天写一个对数据库做快照的存储过程,用到了动态表名,突然发现MYSQL不支持 ...
bind()和trigger()额外数据
$(function(){ $('input').click(function(e,data1,data2,data3,data4){ alert(data1 + '|' + data2 + '|' ...
c#的中英文混合字符串截取
public class StringHelper { public static string GetSubString(string str, int len) ...
HTML5的设计目的是为了在移动设备上支持多媒体
HTML5的设计目的是为了在移动设备上支持多媒体
beego的orm ,用的数据库sqlite3
测试 beego的orm ,用的数据库sqlite3 1 package main import ( "fmt" "github.com/astaxie/beego/or ...

Python爬虫之路——简单的网页抓图

Python爬虫之路——简单的网页抓图的更多相关文章

随机推荐

热门专题