系列文章列表:

scrapy爬虫学习系列一:scrapy爬虫环境的准备:       http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_007_scrapy01.html

scrapy爬虫学习系列二:scrapy简单爬虫样例学习:  http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_007_scrapy02.html

scrapy爬虫学习系列三:scrapy部署到scrapyhub上:   http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_004_scrapyhub.html

scrapy爬虫学习系列四:portia的学习入门:      http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_010_scrapy04.html

scrapy爬虫学习系列五:图片的抓取和下载:                 http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_011_scrapy05.html

scrapy爬虫学习系列六:官方文档的学习:                     https://github.com/zhaojiedi1992/My_Study_Scrapy

注意: 我自己新建的一个QQ群(新建的),欢迎大家加入一起学习一起进步 ,群号646187336

官方的一个说明步骤:https://helpdesk.scrapinghub.com/support/solutions/articles/22000201935-deploying-a-project-from-a-github-repository

这里有个scrapyhub的帮助论坛吧:https://helpdesk.scrapinghub.com/support/solutions

1 scrapyhub简介

scrapyhub就是提供一个云平台,让你的爬虫程序可以开发和运行在云平台上。

我这里提供一个样例的使用过程。

2 github相关方面的准备工作

2.1注册一个github账号

注册页面:https://github.com/join?source=header-home

注册过程主要有3步骤,我这里提供3个截图。

2.2 创建一个github项目

2.2.1 我们从github找到scrapy官方的demo程序,地址https://github.com/scrapy/quotesbot,我们打开这个地址,点击页面上面的右上角的fork按钮,创建一个复制。

2.2.2 如果提示需要邮件确认的话,请登录你的邮箱点击链接即可。

2.2.3 重复2.2.1步骤,就可以fork一个官方的scrapy deom了。(具体详细的代码,可以自己去瞧瞧)

3 使用github账号登录scrapyhub网址

3.1 登录scrapyhub网址

打开scrapyhub的官方网址 https://scrapinghub.com/scrapy-cloud/, 点击右上角的login按钮,选择github登录方式,接下来就是下一步下一步啦。最后就是如下图的界面了。

3.2 创建项目

3.3设置下工程参数

3.4设置工程参数

3.5设置工程参数

3.6 设置工程参数

3.7 设置工程参数

3.8设置工程参数

3.9 设置工程参数

3.10 设置工程参数

3.11添加调度计划

3.12 设置调度计划

3.13 查看job执行情况

注意: 我们使用的分钟级任务,大概需要等1分钟才有结果。当然你点击右上角的run去手工运行下。

3.14 数据查看和导出

4. 数据导出的api接口

官方的api地址:https://doc.scrapinghub.com/scrapy-cloud.html#scrapycloud

我们这里导出一个job的某次执行结果吧。

导出的url格式items/:project_id[/:spider_id][/:job_id][/:item_no][/:field_name]

如果我们想导出3.14图(页面的url是https://app.scrapinghub.com/p/216687/1/1/items)中的结果,以json格式的形成导出:

可以看出spider_id 就是216687,job_id 就是1 ,item_no 就是1 ,key 我们可以从这个网址查看https://app.scrapinghub.com/account/apikey

所有我们可以访问https://storage.scrapinghub.com/items/216687/1/1?apikey=3299bbee8aa44e0690c62d2a7ec1db50&format=json

scrapy爬虫学习系列三:scrapy部署到scrapyhub上的更多相关文章

  1. scrapy爬虫学习系列五:图片的抓取和下载

    系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备:      http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...

  2. scrapy爬虫学习系列四:portia的学习入门

    系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备:      http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...

  3. scrapy爬虫学习系列二:scrapy简单爬虫样例学习

    系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备:      http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...

  4. scrapy爬虫学习系列一:scrapy爬虫环境的准备

    系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备:      http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...

  5. scrapy爬虫学习系列七:scrapy常见问题解决方案

    1 常见错误 1.1 错误: ImportError: No module named win32api 官方参考:https://doc.scrapy.org/en/latest/faq.html# ...

  6. Scrapy爬虫入门系列3 将抓取到的数据存入数据库与验证数据有效性

    抓取到的item 会被发送到Item Pipeline进行处理 Item Pipeline常用于 cleansing HTML data validating scraped data (checki ...

  7. 爬虫学习之基于Scrapy的爬虫自动登录

    ###概述 在前面两篇(爬虫学习之基于Scrapy的网络爬虫和爬虫学习之简单的网络爬虫)文章中我们通过两个实际的案例,采用不同的方式进行了内容提取.我们对网络爬虫有了一个比较初级的认识,只要发起请求获 ...

  8. 《Python爬虫学习系列教程》学习笔记

    http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己 ...

  9. [转]《Python爬虫学习系列教程》

    <Python爬虫学习系列教程>学习笔记 http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多. ...

随机推荐

  1. ARTS Challenge- Week 1 (2019.03.25~2019.03.31)

    1.Algorithm - at least one leetcode problem per week(Medium+) 986. Interval List Intersections https ...

  2. On the Optimal Approach of Survivable Virtual Network Embedding in Virtualized SDN

    Introduction and related work 云数据中心对于虚拟技术是理想的创新地方. 可生存性虚拟网络映射(surviavable virtual network embedding ...

  3. CSS、常用标签属性

    div的样式:[width:宽度 :100像素.height:高度100px.background:背景颜色红色] 内嵌的形式:用<style type="text/css>&l ...

  4. CSS矩形、三角形等

    1.圆形 CSS代码如下:宽高一样,border-radius设为宽高的一半 #circle { width: 100px; height: 100px; background: red; -moz- ...

  5. go语言的for循环

    for循环是一个循环控制结构,可以执行指定次数的循环. 三种循环方式 第一种,常见的 for 循环,支持初始化语句 for init; condition; post { } init: 一般为赋值表 ...

  6. 4.23 Linux(3)

    2019-4-23 19:03:53 买的服务器第三天感觉超爽!! 发现学习Linux超爽,有种操作的快感!!!!!是Windows比不了的!! 阿里巴巴镜像源 : https://opsx.alib ...

  7. 通过cmd命令,杀掉占用端口号的进程

    错误问题:[Error running public: Unable to open debugger port (127.0.0.1:53110): java.net.BindException & ...

  8. mysql数据库连接异常问题(总结)

    mysql数据库连接异常问题(总结) 1.1 前言   最近项目由1个数据源增加至了3个数据源(连接池使用C3P0),结果各种奇葩的数据库连接问题接踵而至,为防止将来再次遇到同样的问题不犯同样错误,现 ...

  9. 用for; while...do; do...while; 写出九九乘法表

    <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

  10. Python公众号开发(二)—颜值检测

    上篇文章,我们把自己的程序接入了微信公众号,并且能把用户发送的文本及图片文件原样返回.今天我们把用户的图片通过腾讯的AI平台分析后再返回给用户. 为了防止我的文章被到处转载,贴一下我的公众号[智能制造 ...