PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。

一、安装依赖库

yum install gcc gcc-c++ -y
yum install python-pip python-devel python-distribute libxml2 libxml2-devel python-lxml libxslt libxslt-devel openssl openssl-devel -y 升级pip
pip install --upgrade pip

二、部署 mariadb,mysql 也可以

安装 mariadb

yum install mariadb-server mariadb -y

启动 mariadb 服务
systemctl start mariadb

  2、设置mariadb  root 密码

mysqladmin -u root password "mysql"
mysql -u root -p

MariaDB [mysql]> show databases;
+--------------------+
| Database |
+--------------------+
| information_schema |
| mysql |
| performance_schema |
| test |
+--------------------+
7 rows in set (0.00 sec)


MariaDB [mysql]>

三、部署 redis

1、下载安装包
wget http://download.redis.io/redis-stable.tar.gz

2、解压安装包
tar -xzvf redis-stable.tar.gz -C /usr/local/redis 3、编译安装
cd /usr/local/redis
make
make install

4、redis 配置 设置配置文件路径
mkdir -p /etc/redis
cp /usr/local/redis/redis.conf /etc/redis/redis.conf
修改 /etc/redis/redis.conf 文件的 daemonize 配置为yes :
daemonize yes
5、启动 redis 服务
/usr/local/bin/redis-server /etc/redis/redis.conf

四、部署 pyspider

1、安装依赖
pip install --upgrade chardet
easy_install mysql-connector==2.1.
easy_install redis
easy_install jinja2

  2、安装 pyspider

执行pyspider.conf.json会生成三个库

1、安装 pyspider
pip install pyspider

2、配置 pyspider 工作目录
mkdir /etc/pyspider

3、在 /etc/pyspider 下创建 pyspider.conf.json 文件;
# cat /etc/pyspider/pyspider.conf.json
{
"taskdb": "mysql+taskdb://root:mysql@127.0.0.1:3306/taskdb",
"projectdb": "mysql+projectdb://root:mysql@127.0.0.1:3306/projectdb",
"resultdb": "mysql+resultdb://root:mysql@127.0.0.1:3306/resultdb",
"message_queue": "redis://127.0.0.1:6379/db",
"webui": {
"username": "root",
"password": "mysql",
"need-auth": true
}
} 注:webui 是配置mysql的账户密码;http://ip:5000访问时候需要验证登陆;
不设置直接将 need-auth 设为 false 也可以。

五、启动服务

pyspider -c /etc/pyspider/pyspider.conf.json

nohup 后台启动
nohup pyspider -c /etc/pyspider/pyspider.conf.json & 或者:
nohup pyspider >/dev/null 2>&1 &

六、访问 http://IP:5000

pyspider dashboard

Pyspider 开源地址:https://github.com/binux/pyspider

PySpider 爬虫系统的更多相关文章

  1. Pyspider爬虫简单框架——链家网

    pyspider 目录 pyspider简单介绍 pyspider的使用 实战 pyspider简单介绍 一个国人编写的强大的网络爬虫系统并带有强大的WebUI.采用Python语言编写,分布式架构, ...

  2. 再次分享 pyspider 爬虫框架 - V2EX

    再次分享 pyspider 爬虫框架 - V2EX block

  3. NodeJS爬虫系统初探

    NodeJS爬虫系统 NodeJS爬虫系统 0. 概论 爬虫是一种自动获取网页内容的程序.是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上是针对爬虫而做出的优化. robots.txt是一个文本文 ...

  4. 用python3.x与mysql数据库构建简单的爬虫系统(转)

    这是在博客园的第一篇文章,由于本人还是一个编程菜鸟,也写不出那些高大上的牛逼文章,这篇文章就是对自己这段时间学习python的一个总结吧. 众所周知python是一门对初学编程的人相当友好的编程语言, ...

  5. .NetCore实践爬虫系统(一)解析网页内容

    爬虫系统的意义 爬虫的意义在于采集大批量数据,然后基于此进行加工/分析,做更有意义的事情.谷歌,百度,今日头条,天眼查都离不开爬虫. 今日目标 今天我们来实践一个最简单的爬虫系统.根据Url来识别网页 ...

  6. LINUX搭建PySpider爬虫服务

    1.环境搭建 yum update -y yum install gcc gcc-c++ -y yum install python-pip python-devel python-distribut ...

  7. .NetCore实践爬虫系统(二)自定义规则

    回顾 上篇文章NetCore实践爬虫系统(一)解析网页内容 我们讲了利用HtmlAgilityPack,输入XPath路径,识别网页节点,获取我们需要的内容.评论中也得到了大家的一些支持与建议.下面继 ...

  8. 搭建pyspider爬虫服务

    1. 环境准备 首先yum更新 yum update -y 安装开发编译工具 yum install gcc gcc-c++ -y 安装依赖库 yum install python-pip pytho ...

  9. Pyspider爬虫教程

    Pyspider爬虫教程 一.安装 1. 安装pip (1)准备工作 yum install –y make gcc-c++ python-devel libxml2-devel libxslt-de ...

随机推荐

  1. javascript正则表达式---正向预查

    什么是正向预查?这里有腾讯招聘的一个例子: 如何给一串数字用千分制表示?比如9999999999变成9,999,999,999.这样一个问题你会怎么答呢?博主js正则学的不咋样,然后用操作字符串的办法 ...

  2. webpack入门(四)webpack的api 2 module

    接着介绍webpack的module. module Options affecting the normal modules (NormalModuleFactory)  这些选项影响普通的模块 m ...

  3. hbuilder 个推 问题记录

    截止版本日期: 2017/09/19 一,安卓没有角标问题: Android - 2.2+ (支持): 目前仅支持小米(MIUI v5),其它设备调用后无任何效果.官方文档 二,ios角标混乱问题: ...

  4. eclipse 设置

    修改工作空间默认编码:Window --> Preferences --> General --> Workspace --> Text file encoding --> ...

  5. 模块---hashlib、configparse、logging

    一.hashlib模块 hashlib模块介绍:hashlib这个模块提供了摘要算法,例如 MD5.hsa1 摘要算法又称为哈希算法,它是通过一个函数,把任意长度的数据转换为一个长度固定的数据串,这个 ...

  6. c#两个listbox怎么把内容添加到另外个listbox

    https://bbs.csdn.net/topics/392156324?page=1  public partial class Form1 : Form     {         public ...

  7. makefile解析:一些常用函数

    #======================================================================= #指定目标文件名,makefile中的变量直接使用不用 ...

  8. 【好用的Mac分屏软件】Magnet for Mac 2.3

      「Magnet」是一款Mac窗口管理工具. 当您每次将内容从一个应用移动到另一应用时,当您需要并排比较数据时,或是以其他方式进行多任务处理时,你需要妥善放置所有窗口.Magnet 让这一过程清爽又 ...

  9. 洛谷P1073 Tarjan + 拓扑排序 // 构造分层图

    https://www.luogu.org/problemnew/show/P1073 C国有 n n个大城市和 mm 条道路,每条道路连接这 nn个城市中的某两个城市.任意两个城市之间最多只有一条道 ...

  10. Zabbix Server 自带模板监控有密码MySQL数据库

    Zabbix Server 自带模板监控有密码MySQL数据库 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.  一.Zabbix-agent端的配置 1>.为数据库设置密码 ...