Ubuntu部署可视化爬虫Portia2.0环境
部署portia环境官方文档给出的方法太过简单,对于初学者来说是很难根据那一两行字成功部署portia环境的。对于部署portia这只可爱的爬虫的过程还是有很多坑的,主要写一篇portia2.0版本的尝鲜版的环境部署手册。给一个忠告,网上那些过时的部署手册,大家最好别看,容易误导你,也浪费你的时间,portia处于活跃的开发阶段,部署步骤也会略有改动,时间久远的帖子只能浪费小主的时间。
言归正传,想要跟portia这只蜘蛛亲密接触,主要分以下几个步骤:
- 部署环境的准备
- 启动portia蜘蛛服务
- 浏览器访问http://127.0.0.1:9001
- 可以跟portia亲密接触,爬取数据
1.部署环境准备
- 系统:portia最好用ubuntu开发,windows上的坑比ubuntu上的坑更多。使用windows的同学可以下载vmware虚拟机或者virtualbox虚拟机软件两款软件的任意一款创建ubuntu虚拟机。强烈建议ubuntu使用16.04版本的,截止目前ubuntu最新版本是17.04,但是小主在17.04上部署没有成功过,所以慎入!
- docker:小主采用官网上推荐的安装方式docker部署,所以需要在ubuntu中部署docker,等待docker安装完成。
sudo apt-get install docker.io
- 安装pip
sudo apt-get install python-pip
- 安装docker-compose
pip install docker-compose
- docker加速(可选)
对于docker镜像加速,docker默认的镜像点是在hub.docker.com的,主要是因为国内网络长城的原因,docker拉去镜像的时候非常的慢,如果你有耐心这一步可以不做,如果你想快一些这里需要加一些加速点,个人使用的是阿里云的加速点,方便快速,稳定。
我在这里简要说一下ubuntu平台下的添加加速点的方法:
首先,确保你的docker的版本不低于1.10,建议直接用此方法进行配置,如果不然,请点击这里上官网进行选择合适情况自行配置。
其次,使用配置文件/etc/docker/daemon.json(没有时新建该文件)
{
“registry-mirrors”:["<你的加速器地址(不知道的请点我,注册获取即可)>"]
}
最后,重启Docker Daemon即可。
sudo systemctl daemon-reload
sudo systemctl docker restart
至此,恭喜你部署环境已经准备完毕,接下来我们进入第二步,启动portia服务。
2.启动portia蜘蛛服务
首先,你需要准备一个本地的工作目录,用来存放你的用portia蜘蛛创建的工程。此处给你一个例子,具体路径大家自定义即可。
mkdir -p /home/<USERNAME>/Projects/portia_projects
随后,开启portia蜘蛛服务命令
docker run -i -t --rm -v /home/<USERNAME>/Projects/portia_projects:/app/data/projects:rw -p : scrapinghub/portia
如果顺利的话,portia将会在端口9001上运行,项目将会存放在/home/<USERNAME>/Projects/portia_projects文件夹中。
3.启动portia
来到这一步,你马上就可以看到portia了,用浏览器访问http://127.0.0.1:9001你就可以使用portia了。恭喜恭喜!!!

4.用portia爬取数据
用portia爬取数据是非常有趣的事情,这里我不具体谈了,我提供两个视频教程网站供大家参考。(这是youtube上的视频,你需要翻越长城才能看哦)
希望对大家有所帮助,万分感谢!这是我的博客地址,以后小主陆陆续续会将自己对于portia的学习分享出来,供大家参考!
Ubuntu部署可视化爬虫Portia2.0环境的更多相关文章
- Ubuntu部署可视化爬虫Portia2.0环境以及入门
http://www.cnblogs.com/kfpa/p/Portia.html http://brucedone.com/archives/986
- ubuntu部署Java、Python开发环境
要部署Java开发环境首先就要安装JDK. 一.安装JDK8 1. 下载 jdk-8u172-linux-x64.tar.gz 到 /usr/java8/ 目录下: 2. tar -zxvf jd ...
- Ubuntu 手机 app开发学习0
# 相关网址 http://developer.ubuntu.com/zh-cn/apps/sdk/ 0. 环境搭建 首选需要一个Ubuntu 14.04操作系统.没啥好讲的,直接安装了一个虚拟机. ...
- 可视化爬虫Portia安装和部署踩过的坑
背景 Scrapy爬虫的确是好使好用,去过scrapinghub的官网浏览一下,更是赞叹可视化爬虫的犀利.scrapinghub有一系列的产品,开源了大部分项目,Portia负责可视化爬虫的编辑,Sp ...
- Linux下部署docker记录(0)-基础环境安装
以下是centos系统安装docker的操作记录 1)第一种方法:采用系统自带的docker安装,但是这一般都不是最新版的docker安装epel源[root@docker-server ~]# wg ...
- Ubuntu 下使用 Nginx 部署 .NET Core 2.0 网站
前言 本文介绍如何在 Ubuntu 16.04 服务器上安装 .NET Core 2.0 SDK.创建项目与发布,并使用 Nginx 部署 .NET Core 2.0 Web 项目. 安装 .NET ...
- CentOS7+ApacheServer2.4+MariaDB10.0+PHP7.0+禅道项目管理软件8.0环境部署
CentOS7+ApacheServer2.4+MariaDB10.0+PHP7.0+禅道项目管理软件8.0环境部署 by:授客 QQ:1033553122 目录 一. 二. 三. 四. 五. 六. ...
- Scrapyd+Gerapy部署Scrapy爬虫进行可视化管理
Scrapy是一个流行的爬虫框架,利用Scrapyd,可以将其部署在远程服务端运行,并通过命令对爬虫进行管理,而Gerapy为我们提供了精美的UI,可以在web页面上直接点击操作,管理部署在scrap ...
- Ubuntu部署python3.5的开发和运行环境
Ubuntu部署python3.5的开发和运行环境 1 概述 由于最近项目全部由python2.x转向 python3.x(使用目前最新的 python3.5.1) ,之前的云主机的的默认python ...
随机推荐
- C语言指针2(空指针,野指针)
//最近,有朋友开玩笑问 int *p *是指针还是p是指针还是*p是指针,当然了,知道的都知道p是指针 //野指针----->>>指没有指向一个地址的指针(指针指向地址请参考上一 ...
- Hibernate的事务处理机制和flush方法的用法
关于在使用hibernate在提交事务时常遇到的异常: an assertion failure occured (this may indicate a bug in Hibernate, but ...
- opnet点对点通信模型 分类: opnet 2014-05-26 22:15 246人阅读 评论(3) 收藏
网络包含两个节点,一个发送节点,一个接收节点.发送节点按照某种随机的规律产生数据包(包大小和包间隔可自己定义),然后发送给接收节点.传输过程中会有一些随机的差错(误包率也可自己定义).接收节点收到正确 ...
- JavaScript中的call()、apply()与bind():
关于call()与apply(): 在JavaScript中,每个函数都有call与apply(),这两个函数都是用来改变函数体内this的指向,并调用相关的参数. 看一个例子: 定义一个animal ...
- Android常用布局、文件存储与权限、XML
常用的布局 LinearLayout Android 2.2开始fill_parent改名为match_parent ,从API Level为8开始我们可以直接用match_parent来代替fill ...
- JavaScript字符串处理
字符串处理 1.连接字符串: 1)连接符+: 2)连接赋值+=: 3)连接函concat() 2.查找子串位置indexOf() 1)在指定字符串中是否存在给定的字符串(第一次出现) 2)用法str. ...
- (5)UIView常见属性
此时打印的所有子控件会把使用自动布局的控件也打印出来,不准确,所以得去掉这两个选项,再进行打印 使用实例如下: viewWithTag的注意点,当有多个相同的Tag值时,它是先找到第一个Tag值,而不 ...
- 【有意思的BUG】后端多处数据校验 前端数据校验
软件(尚处在开发阶段的软件)会犯许多低级的错误,这些错误以你在生活中的经验而言简直莫名其妙.往往你认为这个小功能怎么可能有BUG呢,是的,你猜对了!! 拿1个简单的结构举例:后端页面[1]+后端页面[ ...
- python web环境相关
一. apache配置与支持cgi 1. 配置文件 Apache是一个后台运行的程序,没有界面.所有的配置,都包含在配置文件里.主配置文件是: ~\Apache\conf\httpd.conf 如果要 ...
- WebSphere服务器已启动但是初始化失败问题
--WebSphere服务器已启动但是初始化失败问题 -----------------------------------------------2014/03/06 经常有开发同事反映,环境用着用 ...