Scrapy爬取某装修网站部分装修效果图

爬取图片资源

spider文件

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

import re

import time

from ..items import ZhuangxiuItem

class ZhuangxiuspiderSpider(CrawlSpider):

    name = 'zhuangxiuSpider'

    allowed_domains = ['www.zhuangyi.com']

    start_urls = ['http://www.zhuangyi.com/xiaoguotu/keting/p1/']

    rules = (

        # 提取详情页信息 callback 回调函数, 将相应交给这个函数来处理

        # 第二步:分类主页的下一页

        # Rule(LinkExtractor(allow=r'(.*?)/p\d+'), follow=True),

        # 第三步: 详情页面

        Rule(LinkExtractor(allow=r'(.*?)\d+.html'), follow=True, callback='parse_item'),

    )

    def parse_item(self, response):

        img_url_list = re.findall(r'http://pic.zhuangyi.com/Member/\d/\d+/./\d+.jpg', response.text)

        item = ZhuangxiuItem()

        item['image_urls'] = img_url_list

        item['title'] = time.time()

        yield item

items.py 中

import scrapy

class ZhuangxiuItem(scrapy.Item):

    # define the fields for your item here like:

    title = scrapy.Field()

    image_urls = scrapy.Field()

settings

DEFAULT_REQUEST_HEADERS = {

  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

  'Accept-Language': 'en',

  'Referer': 'http://www.zhuangyi.com/'

}

IMAGES_STORE = 'img'

ITEM_PIPELINES = {

   'scrapy.pipelines.images.ImagesPipeline': 300,

}

Scrapy爬取某装修网站部分装修效果图的更多相关文章

scrapy爬取西刺网站ip
# scrapy爬取西刺网站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem class Xicispi ...
Python——Scrapy爬取链家网站所有房源信息
用scrapy爬取链家全国以上房源分类的信息: 路径: items.py # -*- coding: utf-8 -*- # Define here the models for your scrap ...
Python网络爬虫 | Scrapy爬取妹子图网站全站照片
根据现有的知识,写了一个下载妹子图(meizitu.com)Scrapy脚本,把全站两万多张照片下载到了本地. 网站的分析网页的网址分析打开网站,发现网页的网址都是以 http://www.mei ...
44.scrapy爬取链家网站二手房信息-2
全面采集二手房数据: 网站二手房总数据量为27650条,但有的参数字段会出现一些问题,因为只给返回100页数据,具体查看就需要去细分请求url参数去请求网站数据.我这里大概的获取了一下筛选条件参数,一 ...
43.scrapy爬取链家网站二手房信息-1
首先分析:目的:采集链家网站二手房数据1.先分析一下二手房主界面信息,显示情况如下: url = https://gz.lianjia.com/ershoufang/pg1/显示总数据量为27589套 ...
第5章 scrapy爬取知名问答网站
第五章感觉是第四章的练习项目,无非就是多了一个模拟登录. 不分小节记录了,直接上知识点,可能比较乱. 1.常见的httpcode: 2.怎么找post参数? 先找到登录的页面,打开firebug,输入 ...
Scrapy实战篇（七）之爬取爱基金网站基金业绩数据
本篇我们以scrapy+selelum的方式来爬取爱基金网站(http://fund.10jqka.com.cn/datacenter/jz/)的基金业绩数据. 思路:我们以http://fund.1 ...
Python开发爬虫之BeautifulSoup解析网页篇：爬取安居客网站上北京二手房数据
目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
用scrapy爬取京东的数据
本文目的是使用scrapy爬取京东上所有的手机数据,并将数据保存到MongoDB中. 一.项目介绍主要目标 1.使用scrapy爬取京东上所有的手机数据 2.将爬取的数据存储到MongoDB 环境 ...

随机推荐

【资料】哈代&拉马努金相关，悼文，哈佛演讲，及各种杂七杂八资料整理
悼文和哈佛演讲,因为有一堆公式所以实在懒得放lofter了. 信件和其他资料翻译在这里放个备份,基本上来自<Ramanujan:Letters and commentary>和<Ra ...
Jenkins - 基于 Docker 的 Jenkins 安装
概述安装 Jenkins 基于 Docker 这个有点水一发的性质... 场景学习 Jenkins 第一步, 当然是安装但是安装的方法很多 Jenkins 是基于 Java 的所以是个 ...
【资源分享】Gmod自由移动镜头脚本
*----------------------------------------------[下载区]----------------------------------------------* ...
robots.txt 让搜索引擎不再收录网站
有没有担心过自己的隐私会在强大的搜索引擎面前无所遁形?想象一下,如果要向世界上所有的人公开你的私人日记,你能接受吗?的确是很矛盾的问题,站长们大都忧虑“如何让搜索引擎收录的我的网站?”,而我们还是要研 ...
c#中的栈（stack）与队列（queue）
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.T ...
git merge 将多个commit合并为一条之--squash 选项
转自: https://blog.csdn.net/themagickeyjianan/article/details/80333645 改进版本:合并多个提交为一条(git merge --squa ...
项目git的步骤，将项目托管到码云
项目git的步骤 1.创建.gitignore文件,进行文件过滤.写着不需要上传到git仓库的文件夹名字 2.readme.md 3.拷贝LICENSE,开源协议 4.创建本地仓储 * 使用git i ...
[Vue源码]一起来学Vue双向绑定原理-数据劫持和发布订阅
有一段时间没有更新技术博文了,因为这段时间埋下头来看Vue源码了.本文我们一起通过学习双向绑定原理来分析Vue源码.预计接下来会围绕Vue源码来整理一些文章,如下. 一起来学Vue双向绑定原理-数据劫 ...
c语言thread用法记录。
https://blog.csdn.net/hitwengqi/article/details/8015646 先是c++11之前的 1.最基础,进程同时创建5个线程,各自调用同一个函数 #inclu ...
【visio】数据可视化 - 数据展示
本章讲解如何将形状数据展示成数据图像,也就是将添加的属性,展示在图形上 1.数据图形控制面板选中图形>右键>数据>编辑数据图形 2.新建数据图形数据字段:也就是图形的属性显示为 ...

Scrapy爬取某装修网站部分装修效果图

Scrapy爬取某装修网站部分装修效果图的更多相关文章

随机推荐

热门专题