背景

最近有时间想学习下python3+scrapy,于是决定写一个小程序来练练手。

开发环境:MacOS High Sierra(10.13.1)+python3+scrapy。

开发工具:PyCharm。

开发过程很简单按照网上的例子可以很好的开发完成。具体为采集新闻网站新闻。

部署

生产环镜:CentOS7.4+Python3.6

由于是在Python3上开发的,所以在部署的过程中遇到很多问题,本文就不在记录那些坑了。

直接记录我的方案:在虚拟环境中运行scrapy。

1、首先安装Python3、pip3。这个是基础。可以直接从官网上下载安装。

# python -V    # 查看python 版本
# cd /home/centos/Downloads # 进入存放目录
# wget https://www.python.org/ftp/python/3.6.1/Python-3.6.1.tar.xz # 获取新版的 python
# tar xvf Python-3.6.1.tar.xz # 解压文件
# cd ./Python-3.6.1 # 进入解压后的文件目录
# mkdir /usr/local/python3 # 创建编译安装目录
# ./configure --prefix=/usr/local/python3 # 配置编译安装目录
# make && make install # 编译安装

2、安装Python3虚拟环境(虚拟环境可以与真实环镜完全分离开,不受python2相关影响。

python虚拟环境说明

#定位到python程序目录
cd /data/application/python3
#安装虚拟环境包
pip3 install virtualenv
#创建python3虚拟环境(虚拟环境为目录:python3env)
virtualenv -p python3 --no-site-packages python3env
#进入指定环镜
source python3env/bin/activate
#退出环镜
deactivate

3、虚拟环境安装相关包

# 安装Twisted
wget https://pypi.python.org/packages/a2/37/298f9547606c45d75aa9792369302cc63aa4bbcf7b5f607560180dd099d2/Twisted-17.9.0.tar.bz2#md5=6dbedb918f0c7288a4c670f59393ecf8
tar -xjvf Twisted-17.9.0.tar.bz2
cd Twisted-17.9.0
python3 setup.py install
# 安装scrapy
pip3 install scrapy
#其他的包就自行安装吧....

4、启动程序

#定位目录
cd /data/application/python3
#进入python3虚拟环境
source python3env/bin/activate
#定位程序目录
cd news_spiders/news/spiders/
#执行scrapy,采集数据 sina为我开发的蜘蛛的名称,使用时换成自己的蜘蛛名称
scrapy crawl sina
#退出环镜
deactivate

升级:每次想执行一次脚本比较麻烦还需要切换虚拟环境,于下我写了以下脚本。每次直接执行脚本即可。

脚本:/data/application/python3/news_spiders/run.sh

source ../python3env/bin/activate
scrapy crawl $1
deactivate

于是每次执行的脚本就简单了许多:

cd /data/application/python3/news_spiders/
#sina为蜘蛛的名称
./run.sh sina

5、定时执行

简单点采用Linux定时任务Crontab来执行脚本。

Linux定时任务Crontab命令详解

#编辑cron文件,我使用root用户。
vim /var/spool/cron/root

/var/spool/cron/root文件内容如下:

MAILTO=""
10 * * * * cd /data/application/python3/news_spiders/ && ./run.sh sina
40 * * * * cd /data/application/python3/news_spiders/ && ./run.sh baidu

注:直接执行/data/application/python3/news_spiders/run.sh sina会报错,会提示找不到crawl。因为我的scrapy.cfg文件在news_spiders目录下。所以需要定位到news_spiders目录。

python3 scrapy+Crontab部署过程的更多相关文章

  1. 1.Python3.6环境部署

    标题:Python3.6环境部署文档 作者:刘耀 内容 Linux部署Python3.6环境 Mac部署Python3.6环境 Window10部署Python3.6环境 Pycharm安装 1. L ...

  2. Python3 Scrapy 安装方法

    Python3 Scrapy 安装方法 (一脸辛酸泪) 写在前面 最近在学习爬虫,在熟悉了Python语言和BeautifulSoup4后打算下个爬虫框架试试. 没想到啊,这坑太深了... 看了看相关 ...

  3. python3.6环境部署文档

    python3.6环境部署文档   内容 Linux部署Python3.6环境 Mac部署Python3.6环境 Window10部署Python3.6环境 Pycharm安装 1. Linux部署P ...

  4. django+uWSGI+nginx的工作原理流程与部署过程

    django+uWSGI+nginx的工作原理流程与部署过程 一.前言 知识的分享,不应该只是展示出来,还应该解释这样做是为什么... 献给和我一样懵懂中不断汲取知识,进步的人们. 授人与鱼,不如授人 ...

  5. hudson部署过程

    hudson部署过程: java安装 http://developer.51cto.com/art/201504/470683.htm tomcat安装 http://blog.csdn.net/hu ...

  6. SCCM 2012 R2安装部署过程和问题(三)

    上篇 SCCM 2012 R2安装部署过程和问题(二) 个人认为对于使用SCCM 2012的最重要的经验是耐心. SCCM采用分布式部署的架构,不同的站点角色可以部署在不同的服务器上,站点角色之间的通 ...

  7. SCCM 2012 R2安装部署过程和问题(二)

    上篇:SCCM 2012 R2安装部署过程和问题(一) 在上篇我们已经完成了SCCM 2012 R2安装前的准备,其中有许多细节,关于数据库的准备和权限的设置是需要特别注意的.那么接下来我们开始安装S ...

  8. SCCM 2012 R2安装部署过程和问题(一)

    在进行Windows Server 2012 R2虚拟化测试前,由于需要安装,部署和管理很多的服务器,自然会想到该如何提高效率和有效的管理.在Windows Server 2008的时代微软已经提供称 ...

  9. BeX5平台简明部署过程

    http://wex5.com/cn/concise-deployment/ BeX5平台简明部署过程 该文章主要介绍BeX5平台开发完成后,资源部署至正式环境的过程. 一. 获取BeX5企业快速开发 ...

随机推荐

  1. 本地文件与服务器文件同步shell脚本。

    #!/bin/sh read -t 30 -p "请输入项目名:" name echo -e "\n" echo "项目名为:$name" ...

  2. C++ 多态与虚函数

    1.多态的概念 由虚函数实现的动态多态性就是:同一类族中不同类的对象,对同一函数调用作出不同的响应. 先看下面这个简单的例子: #include<iostream> using std:: ...

  3. 原生JS实现图片放大镜插件

      前  言 我们大家经常逛各种电商类的网站,商品的细节就需要用到放大镜,这个大家一定不陌生,今天我们就做一个图片放大镜的插件,来看看图片是如何被放大的…… 先看一下我们要是实现的最终效果是怎么样的  ...

  4. Day1作业要求

    Day1作业 作业需求 博客 模拟登录 三级菜单 博客地址 杨振伟Day1博客地址 模拟登录 1.程序说明 实现功能如下 用户输入密码,密码验证后登录成功 用户登录成功后提示登录信息 用户输入3次错误 ...

  5. jquery.editable-select 可编辑下拉框之获取select值和input值

    使用jquery.editable-select可以实现可编辑下拉框的功能,但需要先导入jquery.js,jquery.editable-select.css,jquery.editable-sel ...

  6. [Bayesian] “我是bayesian我怕谁”系列 - Boltzmann Distribution

    使用Boltzmann distribution还是Gibbs distribution作为题目纠结了一阵子,选择前者可能只是因为听起来“高大上”一些.本章将会聊一些关于信息.能量这方面的东西,体会“ ...

  7. Azkaban安装部署

    在root的用户下搭建的 • Azkaban安装部署(可参照:http://azkaban.github.io/azkaban/docs/latest/) 1):前提 安装JDK,安装Hadoop,H ...

  8. Android 开发笔记___Activity的生命周期

    一个activity就是一个页面,入口函数是oncreate(). onCreate:创建页面,把页面上各个元素加载到内存 onStart:开始页面,把页面显示在屏幕 onResume:恢复页面,让页 ...

  9. BZOJ-2330-[SCOI2011]糖果(差分约束)

    Description 幼儿园里有N个小朋友,lxhgww老师现在想要给这些小朋友们分配糖果,要求每个小朋友都要分到糖果.但是小朋友们也有嫉妒心,总是会提出一些要求,比如小明不希望小红分到的糖果比他的 ...

  10. curl模拟带验证码的登录

    首先说明,不是用php自动识别验证码,而是有验证码的情况下,让你通过curl 带着cookies去请求远程资源,从而通过合法的身份验证.主要用来抓取需要登录后才能访问的资源. 思路就是获取到验证码之后 ...