pyspider—爬取下载图片

以第一ppt网站为例：http://www.1ppt.com/

from pyspider.libs.base_handler import *

import urllib2,HTMLParser,re

import urllib2,HTMLParser,re

#根url

host = "http://www.1ppt.com/"

#本地保存地址

localSavePath = '/data/girls/'

#起始图片html地址

startHtmlUrl = ''

#图片页Html的地址

htmlUrlList = []

#图片Url地址

imageUrlList = []

patter = '[0-9]*\.jpg';

#根据得到的图片路径URL将图片下载下来保存本地

def downloadImage(url):

    print url

    cont = urllib2.urlopen(url).read()

    match = re.search(patter,url);

    if match:

        print '正在下载文件：',match.group()

        filename = localSavePath+match.group()

        f = open(filename,'w+')

        f.write(cont)

        f.close()

    else:

        print 'no match'

#根据首页得到的图片集遍历每个图片集

def getImageUrlByHtmlUrl(htmlUrl):

    parser = MyHtmlParse(False)

    request = urllib2.Request(htmlUrl)

    try:

        response = urllib2.urlopen(request)

        content = response.read()

        parser.feed(content)

    except urllib2.URLError,e:

        print e.reason

        return

class MyHtmlParse(HTMLParser.HTMLParser):

    def __init__(self,isIndex):

        self.isIndex = isIndex;

        HTMLParser.HTMLParser.__init__(self)

    def handle_starttag(self,tag,attrs):

        #print tag

        #print attrs

        if(self.isIndex):

            if(tag == 'a'):

                if(len(attrs) == 3):

                    #print attrs[0]

                    if(attrs[1][0] =='title'):

                        newUrl = host + attrs[0][1]

                        #    print '找到一处图片的网页链接:',newUrl

                        global startHtml

                        startHtmlUrl = newUrl

                        getImageUrlByHtmlUrl(newUrl)

        else:

            #print tag

            if(tag == 'img'):

                #    print attrs

                #print attrs[0][0]

                #print attrs[1][0]

                if(attrs[0][0] == 'src' and attrs[1][0] == 'alt' and attrs[0][1] ):

                    imageUrl = attrs[0][1]

                    match = re.search(patter,imageUrl)

                    if match:

                        print '找到一张图片:',imageUrl

                        downloadImage(imageUrl)

                        imageUrlList.append(imageUrl)

                        #if (tag == 'a'):

                        #if (len(attrs) == 4):

                        ##if (attrs[1] == ('class','next')):

                        #nextUrl = host + attrs[2][1]

                        #print '找到一处图片的网页链接:',nextUrl

                        #global startHtmlUrl

                        #if (startHtmlUrl != nextUrl):

                        #getImageUrlByHtmlUrl(nextUrl)

#分析首页得到每个图片集的链接

def parse_url_picture(indexUrl):

    #indexUrl = 'http://desk.zol.com.cn/meinv/'

    #分析首页得到每个图片集的链接

    #indexUrl = 'http://www.1ppt.com'

    m = urllib2.urlopen(indexUrl).read()

    #print m

    parserIndex = MyHtmlParse(True)

    parserIndex.feed(m)

picture_website = r'http://www.1ppt.com/'

class Handler(BaseHandler):

    crawl_config = {

    }

    @every(minutes=24 * 60)

    def on_start(self):

        self.crawl(picture_website, callback=self.index_page)

        return

    @config(age= 10 * 24 * 60 * 60)

    def index_page(self, response):

        for each in response.doc('a[href^="http"]').items():

            print each.attr.href

            parse_url_picture(each.attr.href)

            self.crawl(each.attr.href, callback=self.detail_page)

        return

    @config(priority=2)

    def detail_page(self, response):

        return{

        }

下面脚本是直接运行（不用放到爬虫平台上）：

#coding: utf-8 #############################################################

# File Name: girls.py

# Author: mylonly

# mail: mylonly@gmail.com

# Created Time: Mon 09 Jun 2014 09:23:18 PM CST

#########################################################################

#!/usr/bin/python

import urllib2,HTMLParser,re

#根url

host = "http://1ppt.com"

#本地保存地址

localSavePath = '/data/girls/'

#起始图片html地址

startHtmlUrl = ''

#图片页Html的地址

htmlUrlList = []

#图片Url地址

imageUrlList = []

patter = '[0-9]*\.jpg';

#根据得到的图片路径URL将图片下载下来保存本地

def downloadImage(url):

    print url

    cont = urllib2.urlopen(url).read()

    match = re.search(patter,url);

    if match:

        print '正在下载文件：',match.group()

        filename = localSavePath+match.group()

        f = open(filename,'w+')

        f.write(cont)

        f.close()

    else:

        print 'no match'

#根据首页得到的图片集遍历每个图片集

def getImageUrlByHtmlUrl(htmlUrl):

    parser = MyHtmlParse(False)

    request = urllib2.Request(htmlUrl)

    try:

        response = urllib2.urlopen(request)

        content = response.read()

        parser.feed(content)

    except urllib2.URLError,e:

        print e.reason

class MyHtmlParse(HTMLParser.HTMLParser):

    def __init__(self,isIndex):

        self.isIndex = isIndex;

        HTMLParser.HTMLParser.__init__(self)

    def handle_starttag(self,tag,attrs):

        #print tag

        #print attrs

        if(self.isIndex):

            if(tag == 'a'):

                if(len(attrs) == 3):

                    #print attrs[0]

                    if(attrs[1][0] =='title'):

                        newUrl = host + attrs[0][1]

                    #    print '找到一处图片的网页链接:',newUrl

                        global startHtml

                        startHtmlUrl = newUrl

                        getImageUrlByHtmlUrl(newUrl)

        else:

            #print tag

            if(tag == 'img'):

            #    print attrs

                print attrs[0][0]

                print attrs[1][0]

                if(attrs[0][0] == 'src' and attrs[1][0] == 'alt' and attrs[0][1] ):

                    imageUrl = attrs[0][1]

                    match = re.search(patter,imageUrl)

                    if match:

                        print '找到一张图片:',imageUrl

                        downloadImage(imageUrl)

                        imageUrlList.append(imageUrl)

            #if (tag == 'a'):

                #if (len(attrs) == 4):

                    ##if (attrs[1] == ('class','next')):

                    #nextUrl = host + attrs[2][1]

                    #print '找到一处图片的网页链接:',nextUrl

                    #global startHtmlUrl

                    #if (startHtmlUrl != nextUrl):

                        #getImageUrlByHtmlUrl(nextUrl)

#分析首页得到每个图片集的链接

indexUrl = 'http://www.1ppt.com'

m = urllib2.urlopen(indexUrl).read()

#print m

parserIndex = MyHtmlParse(True)

parserIndex.feed(m)

pyspider—爬取下载图片的更多相关文章

[Python_scrapy图片爬取下载]
welcome to myblog Dome地址爬取某个车站的图片 item.py 中 1.申明item 的fields class PhotoItem(scrapy.Item): # define ...
Scrapy爬取美女图片 (原创)
有半个月没有更新了,最近确实有点忙.先是华为的比赛,接着实验室又有项目,然后又学习了一些新的知识,所以没有更新文章.为了表达我的歉意,我给大家来一波福利... 今天咱们说的是爬虫框架.之前我使用pyt ...
百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...
Scrapy-多层爬取天堂图片网
1.根据图片分类对爬取的图片进行分类开发者选项 --> 找到分类地址爬取每个分类的地址通过回调函数传入下一层 name = 'sky'start_urls = ['http: ...
python3爬取女神图片，破解盗链问题
title: python3爬取女神图片,破解盗链问题 date: 2018-04-22 08:26:00 tags: [python3,美女,图片抓取,爬虫, 盗链] comments: true ...
Scrapy爬取美女图片第三集代理ip(上) (原创)
首先说一声,让大家久等了.本来打算那天进行更新的,可是一细想,也只有我这样的单身狗还在做科研,大家可能没心思看更新的文章,所以就拖到了今天.不过忙了521,522这一天半,我把数据库也添加进来了,修复 ...
Scrapy爬取美女图片第四集突破反爬虫(上)
本周又和大家见面了,首先说一下我最近正在做和将要做的一些事情.(我的新书<Python爬虫开发与项目实战>出版了,大家可以看一下样章) 技术方面的事情:本次端午假期没有休息,正在使用fl ...
Scrapy爬取美女图片续集 (原创)
上一篇咱们讲解了Scrapy的工作机制和如何使用Scrapy爬取美女图片,而今天接着讲解Scrapy爬取美女图片,不过采取了不同的方式和代码实现,对Scrapy的功能进行更深入的运用.(我的新书< ...
python学习(十七) 爬取MM图片
这一篇巩固前几篇文章的学到的技术,利用urllib库爬取美女图片,其中采用了多线程,文件读写,目录匹配,正则表达式解析,字符串拼接等知识,这些都是前文提到的,综合运用一下,写个爬虫示例爬取美女图片.先 ...

随机推荐

Django 框架之 Models
1. 数据库配置 Django默认支持sqlite, mysql, oracle, postgresql 数据库: Django默认使用sqlite数据库,引擎名称:django.db.backend ...
手游包压缩技术引领手游行业实现app页游化
近些年,掌上游戏时代已经成为全民风尚,但身为游戏开发商考虑过手游安装包大小与用户转化率之间的关系吗? 随着手机游戏市场发展愈发壮大,行业发展愈加成熟,手游厂商愈来愈多,手游产业也进入了优胜劣汰的环节, ...
你应该知道的vim插件之surround.vim
写代码的时候你会发现这个插件是多么有用! 强烈推荐! 0×01.change 123456 cs"' cs"<q> cs)] cst<p> csw' csW ...
十個必用的 Vim Plugin
◎ The NERD Tree 操作 Vim 時,通常都在 Terminal 底下作用,無法像一般的 GUI 應用程式可以以樹狀目錄來瀏覽檔案. The NERD Tree 是一將檔案目錄 ...
Mybatis框架学习总结-Mybatis框架搭建和使用
Mybatis介绍 Mybatis是一个支持普通SQL查询,存储过程,和高级映射的优秀持久层框架.Mybatis消除了几乎所有的JDBC代码和参数的手工设置以及对结果集的检索封装.Mybatis可以使 ...
过程记录：搭建wordpress站点
过程记录:搭建wordpress站点前提:现在aws中搭建好LNAMP环境和网络mysql数据库,即为下载的wdcp和aws的rds 1.获取WordPress安装包(中文版) https://cn ...
（转）extern关键字两种场景的使用
第一种场景 -- extern extern关键字的作用是声明变量和函数为外部链接,即该变量或函数名在其它文件中可见.用其声明的变量或函数应该在别的文件或同一文件的其它地方定义. 例如语句:exter ...
支持向量机SVM、优化问题、核函数
1.介绍它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解. 2.求解过程 1.数据分类—SVM引入 ...
java jdom 解析CDATA内容
package com; import java.io.IOException; import java.io.StringReader; import java.util.List; import ...
GoDaddy用支付宝付款时出现我们无法处理这笔交易，请查看您的付款信息并重试。
一.GoDaddy操作流程在GoDaddy上购买及注册域名的操作步骤,请参考https://www.jianshu.com/p/05289a4bc8b2进行操作. 二.我遇到的问题今天用GoDad ...

pyspider—爬取下载图片

pyspider—爬取下载图片的更多相关文章

随机推荐

热门专题