pyspider—爬取下载图片

以第一ppt网站为例：http://www.1ppt.com/

from pyspider.libs.base_handler import *

import urllib2,HTMLParser,re

import urllib2,HTMLParser,re

#根url

host = "http://www.1ppt.com/"

#本地保存地址

localSavePath = '/data/girls/'

#起始图片html地址

startHtmlUrl = ''

#图片页Html的地址

htmlUrlList = []

#图片Url地址

imageUrlList = []

patter = '[0-9]*\.jpg';

#根据得到的图片路径URL将图片下载下来保存本地

def downloadImage(url):

    print url

    cont = urllib2.urlopen(url).read()

    match = re.search(patter,url);

    if match:

        print '正在下载文件：',match.group()

        filename = localSavePath+match.group()

        f = open(filename,'w+')

        f.write(cont)

        f.close()

    else:

        print 'no match'

#根据首页得到的图片集遍历每个图片集

def getImageUrlByHtmlUrl(htmlUrl):

    parser = MyHtmlParse(False)

    request = urllib2.Request(htmlUrl)

    try:

        response = urllib2.urlopen(request)

        content = response.read()

        parser.feed(content)

    except urllib2.URLError,e:

        print e.reason

        return

class MyHtmlParse(HTMLParser.HTMLParser):

    def __init__(self,isIndex):

        self.isIndex = isIndex;

        HTMLParser.HTMLParser.__init__(self)

    def handle_starttag(self,tag,attrs):

        #print tag

        #print attrs

        if(self.isIndex):

            if(tag == 'a'):

                if(len(attrs) == 3):

                    #print attrs[0]

                    if(attrs[1][0] =='title'):

                        newUrl = host + attrs[0][1]

                        #    print '找到一处图片的网页链接:',newUrl

                        global startHtml

                        startHtmlUrl = newUrl

                        getImageUrlByHtmlUrl(newUrl)

        else:

            #print tag

            if(tag == 'img'):

                #    print attrs

                #print attrs[0][0]

                #print attrs[1][0]

                if(attrs[0][0] == 'src' and attrs[1][0] == 'alt' and attrs[0][1] ):

                    imageUrl = attrs[0][1]

                    match = re.search(patter,imageUrl)

                    if match:

                        print '找到一张图片:',imageUrl

                        downloadImage(imageUrl)

                        imageUrlList.append(imageUrl)

                        #if (tag == 'a'):

                        #if (len(attrs) == 4):

                        ##if (attrs[1] == ('class','next')):

                        #nextUrl = host + attrs[2][1]

                        #print '找到一处图片的网页链接:',nextUrl

                        #global startHtmlUrl

                        #if (startHtmlUrl != nextUrl):

                        #getImageUrlByHtmlUrl(nextUrl)

#分析首页得到每个图片集的链接

def parse_url_picture(indexUrl):

    #indexUrl = 'http://desk.zol.com.cn/meinv/'

    #分析首页得到每个图片集的链接

    #indexUrl = 'http://www.1ppt.com'

    m = urllib2.urlopen(indexUrl).read()

    #print m

    parserIndex = MyHtmlParse(True)

    parserIndex.feed(m)

picture_website = r'http://www.1ppt.com/'

class Handler(BaseHandler):

    crawl_config = {

    }

    @every(minutes=24 * 60)

    def on_start(self):

        self.crawl(picture_website, callback=self.index_page)

        return

    @config(age= 10 * 24 * 60 * 60)

    def index_page(self, response):

        for each in response.doc('a[href^="http"]').items():

            print each.attr.href

            parse_url_picture(each.attr.href)

            self.crawl(each.attr.href, callback=self.detail_page)

        return

    @config(priority=2)

    def detail_page(self, response):

        return{

        }

下面脚本是直接运行（不用放到爬虫平台上）：

#coding: utf-8 #############################################################

# File Name: girls.py

# Author: mylonly

# mail: mylonly@gmail.com

# Created Time: Mon 09 Jun 2014 09:23:18 PM CST

#########################################################################

#!/usr/bin/python

import urllib2,HTMLParser,re

#根url

host = "http://1ppt.com"

#本地保存地址

localSavePath = '/data/girls/'

#起始图片html地址

startHtmlUrl = ''

#图片页Html的地址

htmlUrlList = []

#图片Url地址

imageUrlList = []

patter = '[0-9]*\.jpg';

#根据得到的图片路径URL将图片下载下来保存本地

def downloadImage(url):

    print url

    cont = urllib2.urlopen(url).read()

    match = re.search(patter,url);

    if match:

        print '正在下载文件：',match.group()

        filename = localSavePath+match.group()

        f = open(filename,'w+')

        f.write(cont)

        f.close()

    else:

        print 'no match'

#根据首页得到的图片集遍历每个图片集

def getImageUrlByHtmlUrl(htmlUrl):

    parser = MyHtmlParse(False)

    request = urllib2.Request(htmlUrl)

    try:

        response = urllib2.urlopen(request)

        content = response.read()

        parser.feed(content)

    except urllib2.URLError,e:

        print e.reason

class MyHtmlParse(HTMLParser.HTMLParser):

    def __init__(self,isIndex):

        self.isIndex = isIndex;

        HTMLParser.HTMLParser.__init__(self)

    def handle_starttag(self,tag,attrs):

        #print tag

        #print attrs

        if(self.isIndex):

            if(tag == 'a'):

                if(len(attrs) == 3):

                    #print attrs[0]

                    if(attrs[1][0] =='title'):

                        newUrl = host + attrs[0][1]

                    #    print '找到一处图片的网页链接:',newUrl

                        global startHtml

                        startHtmlUrl = newUrl

                        getImageUrlByHtmlUrl(newUrl)

        else:

            #print tag

            if(tag == 'img'):

            #    print attrs

                print attrs[0][0]

                print attrs[1][0]

                if(attrs[0][0] == 'src' and attrs[1][0] == 'alt' and attrs[0][1] ):

                    imageUrl = attrs[0][1]

                    match = re.search(patter,imageUrl)

                    if match:

                        print '找到一张图片:',imageUrl

                        downloadImage(imageUrl)

                        imageUrlList.append(imageUrl)

            #if (tag == 'a'):

                #if (len(attrs) == 4):

                    ##if (attrs[1] == ('class','next')):

                    #nextUrl = host + attrs[2][1]

                    #print '找到一处图片的网页链接:',nextUrl

                    #global startHtmlUrl

                    #if (startHtmlUrl != nextUrl):

                        #getImageUrlByHtmlUrl(nextUrl)

#分析首页得到每个图片集的链接

indexUrl = 'http://www.1ppt.com'

m = urllib2.urlopen(indexUrl).read()

#print m

parserIndex = MyHtmlParse(True)

parserIndex.feed(m)

pyspider—爬取下载图片的更多相关文章

[Python_scrapy图片爬取下载]
welcome to myblog Dome地址爬取某个车站的图片 item.py 中 1.申明item 的fields class PhotoItem(scrapy.Item): # define ...
Scrapy爬取美女图片 (原创)
有半个月没有更新了,最近确实有点忙.先是华为的比赛,接着实验室又有项目,然后又学习了一些新的知识,所以没有更新文章.为了表达我的歉意,我给大家来一波福利... 今天咱们说的是爬虫框架.之前我使用pyt ...
百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...
Scrapy-多层爬取天堂图片网
1.根据图片分类对爬取的图片进行分类开发者选项 --> 找到分类地址爬取每个分类的地址通过回调函数传入下一层 name = 'sky'start_urls = ['http: ...
python3爬取女神图片，破解盗链问题
title: python3爬取女神图片,破解盗链问题 date: 2018-04-22 08:26:00 tags: [python3,美女,图片抓取,爬虫, 盗链] comments: true ...
Scrapy爬取美女图片第三集代理ip(上) (原创)
首先说一声,让大家久等了.本来打算那天进行更新的,可是一细想,也只有我这样的单身狗还在做科研,大家可能没心思看更新的文章,所以就拖到了今天.不过忙了521,522这一天半,我把数据库也添加进来了,修复 ...
Scrapy爬取美女图片第四集突破反爬虫(上)
本周又和大家见面了,首先说一下我最近正在做和将要做的一些事情.(我的新书<Python爬虫开发与项目实战>出版了,大家可以看一下样章) 技术方面的事情:本次端午假期没有休息,正在使用fl ...
Scrapy爬取美女图片续集 (原创)
上一篇咱们讲解了Scrapy的工作机制和如何使用Scrapy爬取美女图片,而今天接着讲解Scrapy爬取美女图片,不过采取了不同的方式和代码实现,对Scrapy的功能进行更深入的运用.(我的新书< ...
python学习(十七) 爬取MM图片
这一篇巩固前几篇文章的学到的技术,利用urllib库爬取美女图片,其中采用了多线程,文件读写,目录匹配,正则表达式解析,字符串拼接等知识,这些都是前文提到的,综合运用一下,写个爬虫示例爬取美女图片.先 ...

随机推荐

三种方案在Windows系统下安装ubuntu双系统
一.虚拟机安装(不推荐) 使用工具:Vmware 如果不是因为迫不得已,比如Mac OS对硬件不兼容,Federa安装频繁出错,各种驱动不全等等,不推荐使用虚拟机安装. 个人感觉这是一种对操作系统的亵 ...
d3.js:数据可视化利器之快速入门
hello,data! 在进入d3.js之前,我们先用一个小例子回顾一下将数据可视化的基本流程. 任务用横向柱状图来直观显示以下数据: var data = [10,15,23,78,57,29,3 ...
观浅谈HTTP中Get与Post的区别
看完解决了一些模糊不清的.错误的理解.
10张Gif动图让你弄懂递归等概念
图像(包括动图)是传递信息的一种高效方式,往往能增强表象.记忆与思维等方面的反应强度.所谓一图胜千言,说的就是这个道理. 今天为大家整理了十张动图GIFS,有助于认识循环.递归.二分检索等概念的具体运 ...
HTTP错误404.2-Not Found ,模块CgiModule,错误代码0x800704ec
目录问题案例解决问题问题案例错误:HTTP 错误 404.2 - Not Found. 由于 Web 服务器上的“ISAPI 和 CGI 限制”列表设置,无法提供您请求的页面. 解决问题网上 ...
js如何转义和反转义html特殊字符
“<”如何反转义为“<”,“>”如何反转义为“>”,下面就介绍如何用js来实现这种类似的操作. //HTML转义 function HTMLEncode(html) { var ...
等待事件对应的p1,p2,p3含义
Oracle 10g v$session视图中不同等待事件对应的p1,p2,p3的含义也不同,我们不可能记住所有等待事件对应的p1,p2,p3的含义. 可以通过查询V$EVENT_NAME知道每个等待 ...
记录：正确率、召回率、F值
因为不理解召回率,所以去查看了一些资料.特此记录一下自己的理解,以便以后查看. 说明正确率=查出来正确的样本数/全部查出来的样本数 (也可以理解为查准率) 召回率=查出来正确的样本数/数据集里全部正 ...
【JXL】导出Excel
基本设置 // File file = new File("d:\\writetest.xlsx");// WritableWorkbook wwb = Workbook.crea ...
iis 反向代理组件 Application Request Route
安装后要重启服务器. 不然 IIS 不会生效.

pyspider—爬取下载图片

pyspider—爬取下载图片的更多相关文章

随机推荐

热门专题