最近使用scrapy做数据挖掘,使用scrapy定时抓取数据并存入MongoDB,本文记录环境搭建过程以作备忘

OS:ubuntu 14.04  python:2.7.6 scrapy:1.0.5 DB:MongoDB 3

  ubuntu14.04内置python2.7,因此python及pip安装不再赘述。

  一.安装scrapy

  pip install Scrapy  由于scrapy相关依赖较多,因此在安装过程中可能遇到如下问题:

1.ImportError: No module named w3lib.http

    解决:pip install w3lib

  2.ImportError: No module named twisted

    解决:pip install twisted
  3.ImportError: No module named lxml.html
    解决:pip install lxml
  4.error: libxml/xmlversion.h: No such file or directory
    解决:apt-get install libxml2-dev libxslt-dev  
       apt-get install python-lxml
  5.ImportError: No module named cssselect
    解决:pip install cssselect
  6.ImportError: No module named OpenSSL
    解决:pip install pyOpenSSL 
  以上基本涵盖安装过程中可能出现的依赖问题,如有遗漏待发现后补充
  
  使用scrapy --version 如显示出版本信息则安装成功

  二:MongoDB安装及权限设置

    1.MongoDB安装

    要将爬虫爬取的对象存入MongoDB首先安装MongoDB,,可以直接使用apt-get安装,详情见http://docs.mongoing.com/manual-zh/tutorial/install-mongodb-on-ubuntu.html,也可以从MongoDB官网下载安装包。我使用的方式是从官网直接下载最新安装包。

  下载完后解压,是一个.gz文件,直接用tar命令解压即可,注意不要使用gunzip命令。接着将解压之后的包移到制定目录下(例如放到/usr/local/mongodb文件夹下),配置环境变量export PATH=<mongodb-install-directory>/bin:$PATH

    注意:MongoDB的数据存储在/data/db目录下,这个目录需要手动创建(EX. /usr/local/mongodb/data/db)

  接着进入bin目录下执行./mongod,即可启动MongoDB了,在浏览器中输入localhost:27017或localhost:28017,如果有内容则说明启动成功。接着执行./mongo命令,就进入了mongo shell控制台,然后就可以操作mongo了。

    2.权限管理

    mongo默认没有设置权限,所以只要可以接入的用户都可以访问并且执行任何操作,因此要设置权限。一个需要注意的地方是mongo3和mongo2的权限设置颇有不同,相互之间不能照搬。这里仅说明mongo3的设置方法。

    1)首先使用不验证方式(不要加 --auth)启动mongo: ./mongod

2)进入mongo shell 控制台,先执行show dbs,可以发现只有一个local数据库,这时要创建一个admin数据库:

       use admin

       db.createUser(

          {user: "root",

            pwd: "1234",

   roles: [ { role: "userAdminAnyDatabase", db: "admin" } ]

          })

      注意:roles中的db是必须设置的

    3)执行show users,如果看到有了刚才新建的用户则说明创建用户成功

    4)关闭mongo:use admin  db.shutdownserver()

5)使用验证模式启动mongo: ./mongod --auth

6)再次进入mongo shell 控制台,切换到admin数据库,此时需要授权才能执行其它操作:db.auth("root","1234")完成授权,若显示1则授权成功,由于此用户root只有管理用户的权限,因此如果用该用户执行查询操作(如show collections)会显示拒绝执行

    7)接着创建一个新用户,创建用户只能在其相应的数据库中建立。例如要建立一个在数据库pms中拥有读写权限的用户:

       use pms

       db.createUser(

          {   user: "zhangsan",

            pwd: "1234",

            roles: [ { role: "readWrite", db: "pms" } ]

           })

       然后可以切换到admin数据库查看所有用户,可以发现已经有新建的这个用户了  

    8)然后切回pms数据库验证一下,use pms ,然后授权db.auth("zhangsan","1234"),执行show collectionsm,可以发现pms库中的所有collections就展示出来了

    以上就是mongo的用户权限管理。详情参考官方文档http://docs.mongoing.com/manual-zh/core/authentication-mechanisms.html

    3.设置守护进程

     通过./mongod开启了mongo后会发现一旦关闭窗口mongo的进程就被杀死了,所以要设置mongo为守护进程

     只要执行sudo ./mongod --fork --logpath ./mongodb.log 即可,注意:一旦设置了--fork 则必须同时设置日志路径(--logpath)

  三:写爬虫
    接下来根据自身要求写爬虫。详情参考官方文档即可http://doc.scrapy.org/en/0.14/intro/tutorial.html,在此不再赘述。
    至于爬虫与MongoDB对接只需更改pipline.py即可。详情参考官方文档http://doc.scrapy.org/en/1.0/topics/item-pipeline.html
    需要注意的是pymongo的版本问题,不知是否由于MongoDB2与MongoDB3差别不小所以对应的pymongo版本也不尽相同,因此注意安装的pymongo版本尽量与数据库版本相匹配。
    由于我写的爬虫都是单一爬虫,每个爬虫固定爬取一个站点,因此写了一个shell脚本一次执行所有爬虫,同时也方便之后执行的定时任务,注意脚本要放在用scrapy startproject建立的项目的首层文件夹下(如果已经通过脚本设置了路径就不需要了)
    
  四:设置定时任务
    之后将爬虫设置为定时任务,定于每天早上8:00定时抓取。

    使用linux的crontab功能做定时任务,执行crontab -e进入编辑模式,在最下方加上0 8 * * * 你要执行的命令 即可(表示每天8点定时执行你设定的命令)

    如果要将执行结果写入某文件可以如此编辑: 

    0 8 * * * 你要执行的命令>你想把执行结果写入的文件 2>&1 (EX. 0 8 * * * /home/ubuntu/test>/home/ubuntu/log.txt 2>&1 表示每天早上8点执行home/ubuntu/test脚本并将执行结果写入/home/ubuntu/log.txt文件)

    注意:使用定时执行的脚本中如果使用到非系统本身的命令建议使用绝对路径以避免出错以及其它不必要的麻烦。

 

  以上就是scrapy环境搭建,对接mongo并设置定时任务的步骤。

相关参考:

MongoDB官方手册:http://docs.mongoing.com/manual-zh/contents.html

scrapy官方文档:http://doc.scrapy.org/en/1.0/index.html

  

linux下scrapy环境搭建的更多相关文章

  1. linux下LAMP环境搭建

    ++++++++++++++++++++++++++++++++++++++++++++++ linux下LAMP环境搭建 ++++++++++++++++++++++++++++++++++++++ ...

  2. 2017.7.18 linux下ELK环境搭建

    参考来自:Linux日志分析ELK环境搭建  另一篇博文:2017.7.18 windows下ELK环境搭建   0 版本说明 因为ELK从5.0开始只支持jdk 1.8,但是项目中使用的是JDK 1 ...

  3. linux下LAMP环境搭建尝试

    最近,学习搭建了LAMP服务环境,中间遇到了很多问题,经过不断摸索总算得以解决.为了大家少走弯路,现将相关经验进行总结. linux下软件安装分为自动安装和手动安装两种,自动安装借助工具如yum等,自 ...

  4. linux下PHP 环境搭建

    linux下环境搭建   第一步 安装Apache2 sudo apt-get install apache2   第二步 安装PHP模块 sudo apt-get install php5   第三 ...

  5. Linux 下LAMP环境搭建_【all】

    LAMP = Linux + Apache + Mysql + PHP 0. Linux环境搭建 Linux 系统安装[Redhat] 1.http服务软件分类及企业实战用途介绍 静态程序: Apac ...

  6. Linux 下LNMP环境搭建_【all】

    LNMP = Linux + Nginx + Mysql + PHP 1.0 Linux环境搭建 Linux 系统安装[Redhat] 1.1. FastCGI介绍 1.什么是CGI(common g ...

  7. Zedboard学习(二):zedboard的Linux下交叉编译环境搭建 标签: 交叉编译linuxzedboard 2017-07-04 23:49 19人阅读

    环境准备 首先肯定是要下载xilinx-2011.09-50-arm-xilinx-linux-gnueabi.bin文件,这是官方提供的linux下交叉编译链安装文件,下载地址为:https://p ...

  8. Linux下-LNMP环境搭建博客网站(全过程)

    通常我们所说的LNMP是指一个网站基本的组织框架,即Linux系统支持,Nginx静态服务,Mysql数据库支持以及PHP动态编程语言支持.目前Mysql数据库被Oracle数据库分析公司收购,其创始 ...

  9. Linux下svn环境搭建

    不久前买了一个阿里云服务器,想着在上面搭建一个svn服务方便自己的代码管理.顺便记录下自己的搭建过程 首先,安装服务 通过yum -stall subversion 安装snv,可能install之前 ...

随机推荐

  1. jQuery(二) jQuery对Ajax的使用

    学习使我快乐!嘿 --WH 一.jQuery使用Ajax 想要了解jQuery如何使用Ajax,并且体会到它所带来的方便性,那么就得了解原始的Ajax是如何编写的,是怎样的繁琐,然后和Jquery的代 ...

  2. 如何将txt的多行记录直接导入到mysql数据库

    1.使用工具是navicat for mysql 2.要导入的txt格式要求,第一行为栏位,及个属性名 第二行开始为数据行 如下所示,例如要插入多行账号密码

  3. iOS多线程开发之离不开的GCD(上篇)

    一.GCD基本概念 GCD 全称Grand Central Dispatch(大中枢队列调度),是一套低层API,提供了⼀种新的方法来进⾏并发程序编写.从基本功能上讲,GCD有点像NSOperatio ...

  4. Linux用户管理-中

    添加用户组命令groupadd 提示:groupadd命令的使用非常简单,但在生产环境中使用的不多,因此,会简单应用即可. 与groupadd命令有关的文件有:/etc/group :用户组相关文件/ ...

  5. [图形学] Chp9 三维几何变换--栈处理函数与矩阵管理函数的区别

    矩阵管理函数:glLoadIdentity()是把当前活动矩阵设置为单位矩阵. 栈处理函数:glPushMatrix()是将当前活动的变换矩阵复制一份,压入栈顶:glPopMatrix()是破坏当前活 ...

  6. npm的理解

    一 概念方面 npm的全称是node package manger ,是一个nodejs包管理工具,已经成为非官方的发布node模块包的标准.有了npm可以很快速的找到特定服务器要使用的包,进行下载, ...

  7. iconfont字体图标的使用方法--超简单!

    我之前因为项目用bootstrap比较多,所以使用font awesome字体图标比较多,后来接触到了iconfont,发现想要的什么图标都有,还可以自定义图标,非常强大!之前看了一波教程,觉得繁琐, ...

  8. 第四章:Django 模型 —— 设计系统表

    1. Django框架提供了完善的模型(Model )层来创建和存储数据,每一个模型对应数据库中的唯一的一张表. 2. Django 模型基础知识: .每一本模型是一个Python类,继承了djang ...

  9. 8位基本定时器(TIM4)

    简介:该定时器由一个带可编程预分频器的8位自动重载的向上计数器所组成,它可以用来作为时基发生器,具有溢出中断功能. 主要功能: (1)8位向上计数的自动重载计数器: (2)3位可编程的预分配器(可在运 ...

  10. bootstrap栅栏系统css中的col-xs-*、col-sm-*、col-md-* 的意义以及 bootstrap一个标签中,同时有 col-xs , col-sm , col-md , col-lg的理解

    摘要: bootstrap栅栏系统css中的col-xs-*.col-sm-*.col-md-* 的意义: .col-xs- 超小屏幕 手机 (<768px) .col-sm- 小屏幕 平板 ( ...