序

最近在学习Scrapy的时候发现一个很有意思的网站，可以托管Spider，也可以设置定时抓取的任务，相当方便。于是研究了一下，把其中比较有意思的功能分享一下：

抓取图片并显示在item里：

下面来正式进入本文的主题，抓取链家成交房产的信息并显示房子图片：

1. 创建一个scrapy project:

scrapy startproject lianjia_shub

这时会在当前文件夹下创建如下文件夹：

│  scrapy.cfg

│

└─lianjia_shub

    │  items.py

    │  pipelines.py

    │  settings.py

    │  __init__.py

    │

    └─spiders

            __init__.py

2. 定义item:

import scrapy

class LianjiaShubItem(scrapy.Item):

    id = Field()

    title = Field()

    price = Field()

    addr = Field()

    link = Field()

    # 这里需要注意image这个字段

    # image字段用来存储抓取到的<img>，这样就可以在ScrapingHub的Item Browser里查看图片了

    # 而且这个名字必须是image，不然是不会显示图片的

    image = Field()

3. 创建spider:

cmd里运行以下命令：

scrapy genspider lianjia http://bj.lianjia.com/chengjiao

定义spider：

# -*- coding: utf-8 -*-

import scrapy

from scrapy.spiders.init import InitSpider

from lianjia_shub.items import LianjiaShubItem

class LianjiaSpider(InitSpider):

    name = "lianjia"

    allowed_domains = ["http://bj.lianjia.com/chengjiao/"]

    start_urls = []

    def init_request(self):

        return scrapy.Request('http://bj.lianjia.com/chengjiao/pg1/', callback=self.parse_detail_links)

    def parse_detail_links(self, response):

        house_lis = response.css('.clinch-list li')

        for house_li in house_lis:

            link = house_li.css('.info-panel h2 a::attr("href")').extract_first().encode('utf-8')

            self.start_urls.append(link)

        return self.initialized()

    def parse(self, response):

        house = LianjiaShubItem()

        house['link'] = response.url

        house['id'] = response.url.split('/')[-1].split('.')[0]

        image_url = response.css('.pic-panel img::attr(src)').extract_first()

        # image是一个list。在Scrapinghub中显示的时候会把image里所有的图片显示出来。

        house['image'] = [image_url, image_url]

        house['title'] = response.css('.title-box h1::text').extract_first()

        house['addr'] = response.css('.info-item01 a::text').extract_first()

        house['price'] = response.css('.love-money::text').extract_first()

        return house

4. 下面我们就需要到Scrapinghub(http://scrapinghub.com/platform/)上注册一个账户。

5. 安装Scrapinghub客户端命令Shub:

pip install shub

6. 在Scrapinghub上创建一个project，并找到对应的api key:

api key: 点击账户 -> Account Settings -> API Key

7. 使用api key和project id登录shub:

shub login

手动输入api key之后会创建一个scrapinghub的配置文件scrapinghub.yml:


projects:

  default: lianjia_shub

8. 把spider部署到Scrapinghub:

shub deploy <projectid>

Project ID可以在链接中找到：

https://dash.scrapinghub.com/p/<projectid>/jobs/

9. 在Scrapinghub上运行spider：

Scrapinghub上的job对应于我们定义的spider：

https://dash.scrapinghub.com/p/<projectid>/spider/lianjia/

点击页面右上角的Run Spider:

在弹出的对话框中选择Spider的优先级后运行。（如果不想等太长时间的话可以设置成 Highest）:

10. 执行结束后可以点击items查看抓取到的信息：

What's Next:

1. 根据需要更改spider的配置：

Spiders -> Settings -> Project Settings

2. 设置定时抓取：

Periodic Jobs -> Add periodic job

Scrapinghub执行spider抓取并显示图片的更多相关文章

使用wget工具抓取网页和图片成功尝试
使用wget工具抓取网页和图片发表于1年前(2014-12-17 11:29) 阅读(2471) | 评论(14) 85人收藏此文章, 我要收藏赞7 wget 网页抓取图片抓取目录[-] ...
使用wget工具抓取网页和图片及相关工具几个
想保存一些网页,最后找到这 wget 的 shell脚本,虽然不是太理想,亲测可用呢. 使用wget工具抓取网页和图片来源 https://my.oschina.net/freestyletim ...
Nodejs全站开发学习系列 & 深入浅出Node学习笔记 & Spider抓取
https://course.tianmaying.com/node 这个系列的文章看起来很不错,值得学习一下. /Users/baidu/Documents/Data/Interview/Web-S ...
python学习-抓取知乎图片
#!/bin/usr/env python3 __author__ = 'nxz' """ 抓取知乎图片webdriver Chromedriver驱动需要安装,并指定d ...
PHP批量抓取远程网页图片并存到本地实现方法和源码
做为一个仿站工作者,当遇到网站有版权时甚至加密的时候,WEBZIP也熄火,怎么扣取网页上的图片和背景图片呢.有时候,可能会想到用火狐,这款浏览器好像一个强大的BUG,文章有版权,屏蔽右键,火狐丝毫也不 ...
【Python爬虫程序】抓取MM131美女图片，并将这些图片下载到本地指定文件夹。
一.项目名称抓取MM131美女写真图片,并将这些图片下载到本地指定文件夹. 共有6种类型的美女图片: 性感美女清纯美眉美女校花性感车模旗袍美女明星写真抓取后的效果图如下,每个图集是一个独 ...
抓取Bing每日图片作为网站首页背景
把Bing搜索的背景图片设置为自己网站的背景,实现背景及资讯的每日更新效果图如下: 理一下思路,首先我们要抓取Bing的每日图片及最新资讯,然后保存图片及信息到本地,最后显示图片及资讯到网站首页. ...
Python Spider 抓取猫眼电影TOP100
""" 抓取猫眼电影TOP100 """ import re import time import requests from bs4 im ...
Python Spider 抓取今日头条街拍美图
""" 抓取今日头条街拍美图 """ import os import time import requests from hashlib ...

随机推荐

clearInterval()与setInterval()的应用
1.setInterval()按照一定的周期调用函数2.clearInterval()取消setInterval()的周期调用例如:图片轮播中的clearInterval()与setInterval ...
163k地方门户网站系统js小Bug
163k地方门户网站系统后台在Firefox下无法通过选择区域来获取相对应的地段,IE浏览器下无些问题． Firebug提示错误为: ReferenceError: requestdataquyu i ...
Windows软件使用Q&A集锦【持续更新】
以下不注明原创的均为转载,感谢原作者,希望大家电脑用的都舒心 Q: QQ电脑管家的默认程序的程序推荐如何关闭?我右键点击文件打开方式,选择默认程序的时候,qq管家总弹出来,还给我推荐程序.如何关闭? ...
svn: “sqlite: attempt to write a readonly database”
原因很可能是在svn与本地同步的时候上锁了,可能没注意在svn执行与仓库同步的时候被中断,所以锁文件没有解锁,但是这样的错误,应该不是标题上所说的错误啊??搞不懂了,以前这样的错误,cleanup都有 ...
算法的稳定性（Stability of Sorting Algorithms）
如果具有同样关键字的纪录的在排序前和排序后相对位置保持不变.一些算法本身就是稳定的,如插入排序,归并排序,冒泡排序等,不稳定的算法有堆排序,快速排序等. 然而,一个本身不稳定的算法通过一点修正也能变成 ...
最小费用最大流模板 poj 2159 模板水题
Going Home Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 15944 Accepted: 8167 Descr ...
Oracle判断语句集合（转载）
SELECT decode(sign(to_date('2008-05-01', 'yyyy-MM-dd') - to_date('2008-03-01', 'yy ...
Jndi and c3p0 in Tomcat
Tomcat 中Jndi是使用Tomcat自带的连接池抛弃Tomcat自带的连接池.使用c3p0 . 环境:Tomcat 5.5.20下面配置只适合Tomcat 5.5.X 下面来看Jndi 与 c3 ...
redmine fastcgi常常崩溃的解决方式
最终找到了解决方法,在以下的文件里加入两行就可以: /home/redmine/redmine-2.5.1/public/dispatch.fcgi require 'rubygems' requir ...
Myeclipse安装破解

Scrapinghub执行spider抓取并显示图片

序

下面来正式进入本文的主题，抓取链家成交房产的信息并显示房子图片：

What's Next:

Scrapinghub执行spider抓取并显示图片的更多相关文章

随机推荐

热门专题