最近在学习Scrapy的时候发现一个很有意思的网站,可以托管Spider,也可以设置定时抓取的任务,相当方便。于是研究了一下,把其中比较有意思的功能分享一下:
  • 抓取图片并显示在item里:

下面来正式进入本文的主题,抓取链家成交房产的信息并显示房子图片

1. 创建一个scrapy project:

scrapy startproject lianjia_shub

这时会在当前文件夹下创建如下文件夹:

│  scrapy.cfg

│

└─lianjia_shub

    │  items.py

    │  pipelines.py

    │  settings.py

    │  __init__.py

    │

    └─spiders

            __init__.py

2.  定义item:

import scrapy

class LianjiaShubItem(scrapy.Item):

    id = Field()

    title = Field()

    price = Field()

    addr = Field()

    link = Field()

    # 这里需要注意image这个字段

    # image字段用来存储抓取到的<img>,这样就可以在ScrapingHub的Item Browser里查看图片了

    # 而且这个名字必须是image,不然是不会显示图片的

    image = Field()

3. 创建spider:

cmd里运行以下命令:

scrapy genspider lianjia http://bj.lianjia.com/chengjiao

定义spider:

# -*- coding: utf-8 -*-

import scrapy

from scrapy.spiders.init import InitSpider

from lianjia_shub.items import LianjiaShubItem

class LianjiaSpider(InitSpider):

    name = "lianjia"

    allowed_domains = ["http://bj.lianjia.com/chengjiao/"]

    start_urls = []

    def init_request(self):

        return scrapy.Request('http://bj.lianjia.com/chengjiao/pg1/', callback=self.parse_detail_links)

    def parse_detail_links(self, response):

        house_lis = response.css('.clinch-list li')

        for house_li in house_lis:

            link = house_li.css('.info-panel h2 a::attr("href")').extract_first().encode('utf-8')

            self.start_urls.append(link)

        return self.initialized()

    def parse(self, response):

        house = LianjiaShubItem()

        house['link'] = response.url

        house['id'] = response.url.split('/')[-1].split('.')[0]

        image_url = response.css('.pic-panel img::attr(src)').extract_first()

        # image是一个list。在Scrapinghub中显示的时候会把image里所有的图片显示出来。

        house['image'] = [image_url, image_url]

        house['title'] = response.css('.title-box h1::text').extract_first()

        house['addr'] = response.css('.info-item01 a::text').extract_first()

        house['price'] = response.css('.love-money::text').extract_first()

        return house

4. 下面我们就需要到Scrapinghub(http://scrapinghub.com/platform/)上注册一个账户。

5. 安装Scrapinghub客户端命令Shub:

pip install shub

6.  在Scrapinghub上创建一个project,并找到对应的api key:

api key: 点击账户 -> Account Settings -> API Key

7. 使用api key和project id登录shub:

shub login

手动输入api key之后会创建一个scrapinghub的配置文件scrapinghub.yml:


projects:

  default: lianjia_shub

8. 把spider部署到Scrapinghub:

shub deploy <projectid>

Project ID可以在链接中找到: 
https://dash.scrapinghub.com/p/<projectid>/jobs/

9. 在Scrapinghub上运行spider:

Scrapinghub上的job对应于我们定义的spider:

https://dash.scrapinghub.com/p/<projectid>/spider/lianjia/
点击页面右上角的Run Spider:

在弹出的对话框中选择Spider的优先级后运行。(如果不想等太长时间的话可以设置成 Highest):

10.  执行结束后可以点击items查看抓取到的信息:


What's Next:

1. 根据需要更改spider的配置:

Spiders -> Settings -> Project Settings

2. 设置定时抓取:

Periodic Jobs -> Add periodic job

Scrapinghub执行spider抓取并显示图片的更多相关文章

  1. 使用wget工具抓取网页和图片 成功尝试

    使用wget工具抓取网页和图片 发表于1年前(2014-12-17 11:29)   阅读(2471) | 评论(14) 85人收藏此文章, 我要收藏 赞7 wget 网页抓取 图片抓取 目录[-] ...

  2. 使用wget工具抓取网页和图片 及 相关工具几个

    想保存一些网页,最后找到这 wget 的 shell脚本,虽然不是太理想,亲测可用呢. 使用wget工具抓取网页和图片   来源 https://my.oschina.net/freestyletim ...

  3. Nodejs全站开发学习系列 & 深入浅出Node学习笔记 & Spider抓取

    https://course.tianmaying.com/node 这个系列的文章看起来很不错,值得学习一下. /Users/baidu/Documents/Data/Interview/Web-S ...

  4. python学习-抓取知乎图片

    #!/bin/usr/env python3 __author__ = 'nxz' """ 抓取知乎图片webdriver Chromedriver驱动需要安装,并指定d ...

  5. PHP批量抓取远程网页图片并存到本地实现方法和源码

    做为一个仿站工作者,当遇到网站有版权时甚至加密的时候,WEBZIP也熄火,怎么扣取网页上的图片和背景图片呢.有时候,可能会想到用火狐,这款浏览器好像一个强大的BUG,文章有版权,屏蔽右键,火狐丝毫也不 ...

  6. 【Python爬虫程序】抓取MM131美女图片,并将这些图片下载到本地指定文件夹。

    一.项目名称 抓取MM131美女写真图片,并将这些图片下载到本地指定文件夹. 共有6种类型的美女图片: 性感美女 清纯美眉 美女校花 性感车模 旗袍美女 明星写真 抓取后的效果图如下,每个图集是一个独 ...

  7. 抓取Bing每日图片作为网站首页背景

    把Bing搜索的背景图片设置为自己网站的背景,实现背景及资讯的每日更新 效果图如下: 理一下思路,首先我们要抓取Bing的每日图片及最新资讯,然后保存图片及信息到本地,最后显示图片及资讯到网站首页. ...

  8. Python Spider 抓取猫眼电影TOP100

    """ 抓取猫眼电影TOP100 """ import re import time import requests from bs4 im ...

  9. Python Spider 抓取今日头条街拍美图

    """ 抓取今日头条街拍美图 """ import os import time import requests from hashlib ...

随机推荐

  1. iframe的操作

    获取iframe的window,获取Iframe的document,获取父页面的window,某个环境是否iframe,动态创建iframe 这是demo.html,这个页用iframe嵌入了ifra ...

  2. nginx添加第三方模块

    原已经安装好的nginx,现在需要添加一个未被编译安装的模块: nginx -V 可以查看原来编译时都带了哪些参数,看看nginx是哪个版本,去下载一个nginx的源码,解压 原来的参数:--pref ...

  3. awk多个数组的使用

    #!/bin/bash awk 'BEGIN{printf "%-60s %-10s %-10s %-10s\n","url","count" ...

  4. 遍历ArrayList与LinkedList,使用FOR与迭代器的区别

    网上结论: 如果是链表结构的集合,如LinkedList,则使用迭代器遍历,速度会更快(顺序获取). 如果是数组结构的,如ArrayList,则使用for循环会更快(随机获取) 测试代码: packa ...

  5. ng-bind-html 的使用

    AngualrJS 提供了指令ng-bind-html 用于绑定包含HTML标签的文档,使用方式: <ANY ng-bind-html=""> ... </ANY ...

  6. BZOJ 1264 基因匹配Match(LCS转化LIS)

    题目链接:http://61.187.179.132/JudgeOnline/problem.php?id=1264 题意:给出两个数列,每个数列的长度为5n,其中1-n每个数字各出现5次.求两个数列 ...

  7. SQL省市区三级表结构

    -- 表的结构 areaDROP TABLE  area;CREATE TABLE  area (   id int NOT NULL ,  areaID int NOT NULL,  area va ...

  8. web字体格式及几种在线格式转换工具介绍

    原文地址:http://blog.csdn.net/xiaolongtotop/article/details/8316554 目前,文字信息仍是网站最主要的内容,随着CSS3技术的不断成熟,Web字 ...

  9. Node.js-require的使用方法

    require最常用的方法 require('http') 内置模块 require('./server')  “./”表示当前路径,后面跟的是相对路径 require("../lib/se ...

  10. python标准库 platform模块

    # -*- coding: utf-8 -*- # python:2.x __author__ = 'Administrator' #platform #作用:检查底层平台硬件,操作系统和解释器版本信 ...