部署portia环境官方文档给出的方法太过简单,对于初学者来说是很难根据那一两行字成功部署portia环境的。对于部署portia这只可爱的爬虫的过程还是有很多坑的,主要写一篇portia2.0版本的尝鲜版的环境部署手册。给一个忠告,网上那些过时的部署手册,大家最好别看,容易误导你,也浪费你的时间,portia处于活跃的开发阶段,部署步骤也会略有改动,时间久远的帖子只能浪费小主的时间。

言归正传,想要跟portia这只蜘蛛亲密接触,主要分以下几个步骤:

  1. 部署环境的准备
  2. 启动portia蜘蛛服务
  3. 浏览器访问http://127.0.0.1:9001
  4. 可以跟portia亲密接触,爬取数据

1.部署环境准备

  •   系统:portia最好用ubuntu开发,windows上的坑比ubuntu上的坑更多。使用windows的同学可以下载vmware虚拟机或者virtualbox虚拟机软件两款软件的任意一款创建ubuntu虚拟机。强烈建议ubuntu使用16.04版本的,截止目前ubuntu最新版本是17.04,但是小主在17.04上部署没有成功过,所以慎入!
  •        docker:小主采用官网上推荐的安装方式docker部署,所以需要在ubuntu中部署docker,等待docker安装完成。 
    sudo apt-get install docker.io
  •   安装pip
    sudo apt-get install python-pip
  •   安装docker-compose
    pip install docker-compose

      

  •   docker加速(可选)

     对于docker镜像加速,docker默认的镜像点是在hub.docker.com的,主要是因为国内网络长城的原因,docker拉去镜像的时候非常的慢,如果你有耐心这一步可以不做,如果你想快一些这里需要加一些加速点,个人使用的是阿里云的加速点,方便快速,稳定。

     我在这里简要说一下ubuntu平台下的添加加速点的方法:

     首先,确保你的docker的版本不低于1.10,建议直接用此方法进行配置,如果不然,请点击这里上官网进行选择合适情况自行配置。

     其次,使用配置文件/etc/docker/daemon.json(没有时新建该文件)

{
“registry-mirrors”:["<你的加速器地址(不知道的请点我,注册获取即可)>"]
}

      最后,重启Docker Daemon即可。

sudo systemctl daemon-reload
sudo systemctl docker restart

 至此,恭喜你部署环境已经准备完毕,接下来我们进入第二步,启动portia服务。

2.启动portia蜘蛛服务

 首先,你需要准备一个本地的工作目录,用来存放你的用portia蜘蛛创建的工程。此处给你一个例子,具体路径大家自定义即可。

mkdir -p /home/<USERNAME>/Projects/portia_projects

 随后,开启portia蜘蛛服务命令

docker run -i -t --rm -v /home/<USERNAME>/Projects/portia_projects:/app/data/projects:rw -p : scrapinghub/portia

   如果顺利的话,portia将会在端口9001上运行,项目将会存放在/home/<USERNAME>/Projects/portia_projects文件夹中。

3.启动portia

  来到这一步,你马上就可以看到portia了,用浏览器访问http://127.0.0.1:9001你就可以使用portia了。恭喜恭喜!!!

  

4.用portia爬取数据

      用portia爬取数据是非常有趣的事情,这里我不具体谈了,我提供两个视频教程网站供大家参考。(这是youtube上的视频,你需要翻越长城才能看哦)

   https://helpdesk.scrapinghub.com/support/solutions/articles/22000201027-learn-portia-video-tutorials-

 https://helpdesk.scrapinghub.com/support/solutions/articles/22000200442-using-portia-the-complete-beginner-s-guide

希望对大家有所帮助,万分感谢!这是我的博客地址,以后小主陆陆续续会将自己对于portia的学习分享出来,供大家参考!

  

Ubuntu部署可视化爬虫Portia2.0环境的更多相关文章

  1. Ubuntu部署可视化爬虫Portia2.0环境以及入门

    http://www.cnblogs.com/kfpa/p/Portia.html http://brucedone.com/archives/986

  2. ubuntu部署Java、Python开发环境

    要部署Java开发环境首先就要安装JDK. 一.安装JDK8 1. 下载 jdk-8u172-linux-x64.tar.gz 到 /usr/java8/ 目录下: 2. tar  -zxvf  jd ...

  3. Ubuntu 手机 app开发学习0

    # 相关网址 http://developer.ubuntu.com/zh-cn/apps/sdk/ 0. 环境搭建 首选需要一个Ubuntu 14.04操作系统.没啥好讲的,直接安装了一个虚拟机. ...

  4. 可视化爬虫Portia安装和部署踩过的坑

    背景 Scrapy爬虫的确是好使好用,去过scrapinghub的官网浏览一下,更是赞叹可视化爬虫的犀利.scrapinghub有一系列的产品,开源了大部分项目,Portia负责可视化爬虫的编辑,Sp ...

  5. Linux下部署docker记录(0)-基础环境安装

    以下是centos系统安装docker的操作记录 1)第一种方法:采用系统自带的docker安装,但是这一般都不是最新版的docker安装epel源[root@docker-server ~]# wg ...

  6. Ubuntu 下使用 Nginx 部署 .NET Core 2.0 网站

    前言 本文介绍如何在 Ubuntu 16.04 服务器上安装 .NET Core 2.0 SDK.创建项目与发布,并使用 Nginx 部署 .NET Core 2.0 Web 项目. 安装 .NET ...

  7. CentOS7+ApacheServer2.4+MariaDB10.0+PHP7.0+禅道项目管理软件8.0环境部署

    CentOS7+ApacheServer2.4+MariaDB10.0+PHP7.0+禅道项目管理软件8.0环境部署 by:授客 QQ:1033553122 目录 一. 二. 三. 四. 五. 六. ...

  8. Scrapyd+Gerapy部署Scrapy爬虫进行可视化管理

    Scrapy是一个流行的爬虫框架,利用Scrapyd,可以将其部署在远程服务端运行,并通过命令对爬虫进行管理,而Gerapy为我们提供了精美的UI,可以在web页面上直接点击操作,管理部署在scrap ...

  9. Ubuntu部署python3.5的开发和运行环境

    Ubuntu部署python3.5的开发和运行环境 1 概述 由于最近项目全部由python2.x转向 python3.x(使用目前最新的 python3.5.1) ,之前的云主机的的默认python ...

随机推荐

  1. HTML5 开发APP

    近期在做app,现在项目进行了一段时间,我打算把自己的经验写出来,给自己总结一下也给会用小伙伴看一下.本人前端一枚.我们所以能选的技术就是CSS,HTML,JS了,经过准备我决定用HBuilder 准 ...

  2. net 将手机号码中间的数字替换成星号

    Regex.Replace(link.user_tel, "(\\d{3})(\\d{5})(\\d{3})", "$1*****$3")

  3. Python初识(PyMysql实例)

    为什么学习python呢,好吧,其实我也不知道,反正就是想学习了. 资料什么的全都low了,传值博客免费的就够.不要问我为什么,我基本上都是找的免费的视频.然后传值博客的最多,我真的不是打广告. py ...

  4. 高效搭建lnmp环境

    1:安装nginx       sudo apt-get install nginx       检测 nginx   : sudo nginx -t  出现如下表示成功        2:安装配置m ...

  5. equals()与 == 比较,hashCode方法

    1.Object类    Object类是java中一切类的父类,java中所有的类都直接或间接    继承自Object类        Object中定义的方法不多,原因在于,java的类多种多样 ...

  6. [STL] SET实用用法

    背景 今天考试深受平衡树之害,可以参见上一篇博客,想到了set却苦于实用的不熟练.同时QTY询问set的具体用法,所以写这篇博客,同时留作自用. 分类 参看了一下网上其他set博客,上来都是长篇大论概 ...

  7. [BZOJ 1054][HAOI 2008]移动玩具 状态压缩

    考试的时候一看是河南省选题,觉得会很难,有点不敢想正解.感觉是个状压.但是一看是十年前的题,那怂什么! 直接把十六个数的状态压进去,因为个数是不变的,所以状态枚举的时候只要找数目一样的转移即可.而且只 ...

  8. 【NO.3-2】Jmeter - 在Linux配置HOSTS的方法

    在Linux配置HOSTS 咱平时在Windows系统做web测试的时候需要修改HOSTS文件.Linux也一样. /*在Linux执行性能测试的时候,很容易忘记配置HOSTS,那么你发送的请求的响应 ...

  9. ORACLE 程序包

    程序包由PL/SQL程序元素(变量,类型)和匿名PL/SQL(游标),命名PL/SQL 块(存储过程和函数)组成. 程序包可以被整体加载到内存中,这样可以大大加快程序包中任何一个组成部分的访问速度. ...

  10. 关于CGI:Tomcat、PHP、Perl、Python和FastCGI之间的关系

    如前文所述,Web服务器是一个很简单的东西,并不负责动态网页的构建,只能转发静态网页.同时Apache也说,他能支持perl,生成动态网页.这个支持perl,其实是apache越位了,做了一件额外的事 ...