Ubuntu部署可视化爬虫Portia2.0环境

　　部署portia环境官方文档给出的方法太过简单，对于初学者来说是很难根据那一两行字成功部署portia环境的。对于部署portia这只可爱的爬虫的过程还是有很多坑的，主要写一篇portia2.0版本的尝鲜版的环境部署手册。给一个忠告，网上那些过时的部署手册，大家最好别看，容易误导你，也浪费你的时间，portia处于活跃的开发阶段，部署步骤也会略有改动，时间久远的帖子只能浪费小主的时间。

言归正传，想要跟portia这只蜘蛛亲密接触，主要分以下几个步骤：

部署环境的准备
启动portia蜘蛛服务
浏览器访问http://127.0.0.1:9001
可以跟portia亲密接触，爬取数据

1.部署环境准备

　　系统：portia最好用ubuntu开发，windows上的坑比ubuntu上的坑更多。使用windows的同学可以下载vmware虚拟机或者virtualbox虚拟机软件两款软件的任意一款创建ubuntu虚拟机。强烈建议ubuntu使用16.04版本的，截止目前ubuntu最新版本是17.04，但是小主在17.04上部署没有成功过，所以慎入！
docker：小主采用官网上推荐的安装方式docker部署，所以需要在ubuntu中部署docker，等待docker安装完成。　
```
sudo apt-get install docker.io
```
　　安装pip
```
sudo apt-get install python-pip
```
　　安装docker-compose
```
pip install docker-compose
```
　　
　　docker加速（可选）

　　　　　对于docker镜像加速，docker默认的镜像点是在hub.docker.com的，主要是因为国内网络长城的原因，docker拉去镜像的时候非常的慢，如果你有耐心这一步可以不做，如果你想快一些这里需要加一些加速点，个人使用的是阿里云的加速点，方便快速，稳定。

　　　　　我在这里简要说一下ubuntu平台下的添加加速点的方法：

　　　　　首先，确保你的docker的版本不低于1.10，建议直接用此方法进行配置，如果不然，请点击这里上官网进行选择合适情况自行配置。

　　　　　其次，使用配置文件/etc/docker/daemon.json(没有时新建该文件）

{

  “registry-mirrors”:["<你的加速器地址（不知道的请点我，注册获取即可）>"]

}

　　　　 最后，重启Docker Daemon即可。

sudo systemctl daemon-reload

sudo systemctl docker restart

至此，恭喜你部署环境已经准备完毕，接下来我们进入第二步，启动portia服务。

2.启动portia蜘蛛服务

　首先，你需要准备一个本地的工作目录，用来存放你的用portia蜘蛛创建的工程。此处给你一个例子，具体路径大家自定义即可。

mkdir -p /home/<USERNAME>/Projects/portia_projects

　随后，开启portia蜘蛛服务命令

docker run -i -t --rm -v /home/<USERNAME>/Projects/portia_projects:/app/data/projects:rw -p : scrapinghub/portia

如果顺利的话，portia将会在端口9001上运行，项目将会存放在/home/<USERNAME>/Projects/portia_projects文件夹中。

3.启动portia

　　来到这一步，你马上就可以看到portia了，用浏览器访问http://127.0.0.1:9001你就可以使用portia了。恭喜恭喜！！！

4.用portia爬取数据

用portia爬取数据是非常有趣的事情，这里我不具体谈了，我提供两个视频教程网站供大家参考。（这是youtube上的视频，你需要翻越长城才能看哦）

　 https://helpdesk.scrapinghub.com/support/solutions/articles/22000201027-learn-portia-video-tutorials-

　https://helpdesk.scrapinghub.com/support/solutions/articles/22000200442-using-portia-the-complete-beginner-s-guide

希望对大家有所帮助，万分感谢！这是我的博客地址，以后小主陆陆续续会将自己对于portia的学习分享出来，供大家参考！