Scrapinghub执行spider抓取并显示图片
序
- 抓取图片并显示在item里:

下面来正式进入本文的主题,抓取链家成交房产的信息并显示房子图片:
1. 创建一个scrapy project:
scrapy startproject lianjia_shub
这时会在当前文件夹下创建如下文件夹:
│ scrapy.cfg │ └─lianjia_shub │ items.py │ pipelines.py │ settings.py │ __init__.py │ └─spiders __init__.py
2. 定义item:
import scrapy class LianjiaShubItem(scrapy.Item): id = Field() title = Field() price = Field() addr = Field() link = Field() # 这里需要注意image这个字段 # image字段用来存储抓取到的<img>,这样就可以在ScrapingHub的Item Browser里查看图片了 # 而且这个名字必须是image,不然是不会显示图片的 image = Field()
3. 创建spider:
cmd里运行以下命令:
scrapy genspider lianjia http://bj.lianjia.com/chengjiao
定义spider:
# -*- coding: utf-8 -*-
import scrapy
from scrapy.spiders.init import InitSpider
from lianjia_shub.items import LianjiaShubItem
class LianjiaSpider(InitSpider):
name = "lianjia"
allowed_domains = ["http://bj.lianjia.com/chengjiao/"]
start_urls = []
def init_request(self):
return scrapy.Request('http://bj.lianjia.com/chengjiao/pg1/', callback=self.parse_detail_links)
def parse_detail_links(self, response):
house_lis = response.css('.clinch-list li')
for house_li in house_lis:
link = house_li.css('.info-panel h2 a::attr("href")').extract_first().encode('utf-8')
self.start_urls.append(link)
return self.initialized()
def parse(self, response):
house = LianjiaShubItem()
house['link'] = response.url
house['id'] = response.url.split('/')[-1].split('.')[0]
image_url = response.css('.pic-panel img::attr(src)').extract_first()
# image是一个list。在Scrapinghub中显示的时候会把image里所有的图片显示出来。
house['image'] = [image_url, image_url]
house['title'] = response.css('.title-box h1::text').extract_first()
house['addr'] = response.css('.info-item01 a::text').extract_first()
house['price'] = response.css('.love-money::text').extract_first()
return house
4. 下面我们就需要到Scrapinghub(http://scrapinghub.com/platform/)上注册一个账户。
5. 安装Scrapinghub客户端命令Shub:
pip install shub
6. 在Scrapinghub上创建一个project,并找到对应的api key:
api key: 点击账户 -> Account Settings -> API Key
7. 使用api key和project id登录shub:
shub login
手动输入api key之后会创建一个scrapinghub的配置文件scrapinghub.yml:
projects: default: lianjia_shub
8. 把spider部署到Scrapinghub:
shub deploy <projectid>
9. 在Scrapinghub上运行spider:
Scrapinghub上的job对应于我们定义的spider:
https://dash.scrapinghub.com/p/<projectid>/spider/lianjia/
在弹出的对话框中选择Spider的优先级后运行。(如果不想等太长时间的话可以设置成 Highest):

10. 执行结束后可以点击items查看抓取到的信息:

What's Next:
1. 根据需要更改spider的配置:
Spiders -> Settings -> Project Settings
2. 设置定时抓取:
Periodic Jobs -> Add periodic job
Scrapinghub执行spider抓取并显示图片的更多相关文章
- 使用wget工具抓取网页和图片 成功尝试
使用wget工具抓取网页和图片 发表于1年前(2014-12-17 11:29) 阅读(2471) | 评论(14) 85人收藏此文章, 我要收藏 赞7 wget 网页抓取 图片抓取 目录[-] ...
- 使用wget工具抓取网页和图片 及 相关工具几个
想保存一些网页,最后找到这 wget 的 shell脚本,虽然不是太理想,亲测可用呢. 使用wget工具抓取网页和图片 来源 https://my.oschina.net/freestyletim ...
- Nodejs全站开发学习系列 & 深入浅出Node学习笔记 & Spider抓取
https://course.tianmaying.com/node 这个系列的文章看起来很不错,值得学习一下. /Users/baidu/Documents/Data/Interview/Web-S ...
- python学习-抓取知乎图片
#!/bin/usr/env python3 __author__ = 'nxz' """ 抓取知乎图片webdriver Chromedriver驱动需要安装,并指定d ...
- PHP批量抓取远程网页图片并存到本地实现方法和源码
做为一个仿站工作者,当遇到网站有版权时甚至加密的时候,WEBZIP也熄火,怎么扣取网页上的图片和背景图片呢.有时候,可能会想到用火狐,这款浏览器好像一个强大的BUG,文章有版权,屏蔽右键,火狐丝毫也不 ...
- 【Python爬虫程序】抓取MM131美女图片,并将这些图片下载到本地指定文件夹。
一.项目名称 抓取MM131美女写真图片,并将这些图片下载到本地指定文件夹. 共有6种类型的美女图片: 性感美女 清纯美眉 美女校花 性感车模 旗袍美女 明星写真 抓取后的效果图如下,每个图集是一个独 ...
- 抓取Bing每日图片作为网站首页背景
把Bing搜索的背景图片设置为自己网站的背景,实现背景及资讯的每日更新 效果图如下: 理一下思路,首先我们要抓取Bing的每日图片及最新资讯,然后保存图片及信息到本地,最后显示图片及资讯到网站首页. ...
- Python Spider 抓取猫眼电影TOP100
""" 抓取猫眼电影TOP100 """ import re import time import requests from bs4 im ...
- Python Spider 抓取今日头条街拍美图
""" 抓取今日头条街拍美图 """ import os import time import requests from hashlib ...
随机推荐
- iframe的操作
获取iframe的window,获取Iframe的document,获取父页面的window,某个环境是否iframe,动态创建iframe 这是demo.html,这个页用iframe嵌入了ifra ...
- nginx添加第三方模块
原已经安装好的nginx,现在需要添加一个未被编译安装的模块: nginx -V 可以查看原来编译时都带了哪些参数,看看nginx是哪个版本,去下载一个nginx的源码,解压 原来的参数:--pref ...
- awk多个数组的使用
#!/bin/bash awk 'BEGIN{printf "%-60s %-10s %-10s %-10s\n","url","count" ...
- 遍历ArrayList与LinkedList,使用FOR与迭代器的区别
网上结论: 如果是链表结构的集合,如LinkedList,则使用迭代器遍历,速度会更快(顺序获取). 如果是数组结构的,如ArrayList,则使用for循环会更快(随机获取) 测试代码: packa ...
- ng-bind-html 的使用
AngualrJS 提供了指令ng-bind-html 用于绑定包含HTML标签的文档,使用方式: <ANY ng-bind-html=""> ... </ANY ...
- BZOJ 1264 基因匹配Match(LCS转化LIS)
题目链接:http://61.187.179.132/JudgeOnline/problem.php?id=1264 题意:给出两个数列,每个数列的长度为5n,其中1-n每个数字各出现5次.求两个数列 ...
- SQL省市区三级表结构
-- 表的结构 areaDROP TABLE area;CREATE TABLE area ( id int NOT NULL , areaID int NOT NULL, area va ...
- web字体格式及几种在线格式转换工具介绍
原文地址:http://blog.csdn.net/xiaolongtotop/article/details/8316554 目前,文字信息仍是网站最主要的内容,随着CSS3技术的不断成熟,Web字 ...
- Node.js-require的使用方法
require最常用的方法 require('http') 内置模块 require('./server') “./”表示当前路径,后面跟的是相对路径 require("../lib/se ...
- python标准库 platform模块
# -*- coding: utf-8 -*- # python:2.x __author__ = 'Administrator' #platform #作用:检查底层平台硬件,操作系统和解释器版本信 ...