Centos7搭建Scrapy爬虫环境
写在前面
因为之前的爬虫环境一直是部署在我自己本地的电脑上的,最近,写了一个监控别人空间的爬虫,需要一直线上24小时运行,所有就打算云服务器上部署环境,也捣鼓了好一会才弄好,还是有一些坑,这里先记录一下,方便以后复习...
一.替换pyhton2版本为python3
1.我这里的云服务器是Centos7系统,默认安装的是python2.7的版本,但是,我个人也是不喜欢老的东西,而且好像python2的版本到2020年就不再维护了,所以,我这里也推荐大家使用python3的版本
2.下载安装
wget https://www.python.org/ftp/python/3.5.1/Python-3.5.1.tgz
我下载的是python3.5的
接下来,就是编译安装,在编译安装前需要构建编译环境,安装gcc
yum -y install gcc
gcc安装的东西有点多,稍微等一下
然后,默认编译就好
接着,使用make & make install 安装,
这里的话 ,会多等一会儿 ,去喝杯茶先把,,哈哈 开玩笑的啦
3.安装完成之后,我们输入python,这个时候任然是python2版本,需要重新定义软连接,重新建立指向
mv /usr/bin/python /usr/bin/python27
ln -s /usr/local/bin/python3 /usr/bin/python
结果,发现python命令无效
如果还是不行的话,可以重新编译一下:
这个时候,我们的yum命令就是无法使用了,因为默认的yum是只支持python2版本,我们可以简单设置一下就可以啦,如下:
修改yum配置文件(vi /usr/bin/yum)。
把文件头部的#!/usr/bin/python改成#!/usr/bin/python27保存退出即可
这样就可以再次使用yum命令了
二.安装python包管理工具pip
在第一步,我们安装好了pyhton3的环境,接下来,我们就基于python3版本来安装相应的pip工具
1.pip默认是依赖于setuptools的
下载安装setuptools
wget --no-check-certificate https://pypi.python.org/packages/source/s/setuptools/setuptools-19.6.tar.gz#md5=c607dd118eae682c44ed146367a17e26
解压,安装,
python setup.py install
发现缺少模块
- 安装zlib模块
yum install zlib-devel -y
打开报错文件,
再次运行yum install zlib-devel -y
继续安装setuptools,这个时候我们需要python3对zlib模块的支持,所以,需要重新编译安装
1. 进入pyhton3文件目录
2. make & make install #编译安装
这样,就可以回到setuptools目录,进行安装
python setup.py install
安装成功
终于可以安装pip了
1.下载啊
[root@liuge ~]# wget https://pypi.python.org/packages/11/b6/abcb525026a4be042b486df43905d6893fb04f05aac21c32c638e939e447/pip-9.0.1.tar.gz
2、解压pip安装包
tar -zxf pip-9.0.1.tar.gz
3、安装pip
cd pip-9.0.1
python setup.py install
三.安装Scrapy爬虫环境
这里我们就可以直接使用pip工具来进行包的安装了
1.测试一:安装requests
这里我使用豆瓣源
[root@liuge ~]# pip install -i https://pypi.douban.com/simple/ requests
百度搜索了一下错误,说是openssl相关软件没有安装,
openssl
openssl-devel
yum -y install openssl openssl-devel
接着重新编译安装:
[root@liuge python35]# make & make install
这样,再次刷一遍安装命令:
[root@liuge python35]# pip install -i https://pypi.douban.com/simple/ requests
2.测试二:安装scrapy环境
先上命令:
[root@liuge python35]# pip install -i https://pypi.douban.com/simple/ scrapy
发现,找不到Twisted
我们需要手动安装Twisted
1.下载啊
[root@liuge ~]# wget https://pypi.python.org/packages/source/T/Twisted/Twisted-15.2.1.tar.bz2
2.解压,安装
[root@liuge ~]# bzip2 -d Twisted-15.2.1.tar.bz2
[root@liuge ~]# tar xf Twisted-15.2.1.tar
[root@liuge ~]# cd Twisted-15.2.1/
[root@liuge Twisted-15.2.1]# python setup.py install
继续安装scrapy
pip install -i https://pypi.douban.com/simple/ scrapy
到这里,我们的环境就安装完成了,简单总结下:
推荐python豆瓣镜像源:
pip install -i https://pypi.douban.com/simple/
找扩展依赖包地址:
www.lfd.uci.edu/~gohlke/pythonlibs/
有时候,需要这样替换
pip install requests -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com
谢谢======
Centos7搭建Scrapy爬虫环境的更多相关文章
- scrapy爬虫学习系列一:scrapy爬虫环境的准备
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
- Linux搭建Scrapy爬虫集成开发环境
安装Python 下载地址:http://www.python.org/, Python 有 Python 2 和 Python 3 两个版本, 语法有些区别,ubuntu上自带了python2.7. ...
- windows7 64位下环境搭建scrapy爬虫框架
适用于python 2.7 64位安装 一.操作系统:WIN7 64位 二.python版本:2.7 64位(scrapy目前不支持3.x) 不确定位数的,看图
- Centos7搭建php+mysql环境(整理篇)
终于将mysql+php环境搭建成功,将之前的整理一下,环境:centos7,本机IP:192.168.1.24,数据库用户名及密码都设为root,测试文件路径:/var/www/html 1.取消c ...
- 使用scrapy-redis搭建分布式爬虫环境
scrapy-redis简介 scrapy-redis是scrapy框架基于redis数据库的组件,用于scrapy项目的分布式开发和部署. 有如下特征: 分布式爬取 您可以启动多个spider工 ...
- 使用scrapy-redis 搭建分布式爬虫环境
scrapy-redis 简介 scrapy-redis 是 scrapy 框架基于 redis 数据库的组件,用于 scraoy 项目的分布式开发和部署. 有如下特征: 分布式爬取: 你可以启动多个 ...
- centos7搭建.netcore运行环境
开发环境介绍 1.操作系统:Windows Server 2008 R2 Enterprise 2.IDE:VisualStudio2017 3..Net Core 2.0 SDK 本文假设你已经满足 ...
- 阿里云centos7搭建php+nginx环境
阿里云Centos搭建lnmp(php7.1+nginx+mysql5.7) https://jingyan.baidu.com/article/215817f7a10bfb1eda14238b.ht ...
- 【linux】【Fabric】Centos7搭建Fabric运行环境
1.安装jdk1.8配置环境变量 参考:https://www.cnblogs.com/jxd283465/p/11541506.html 2.安装git yum -y install git 3.安 ...
随机推荐
- 随笔编号-16 MySQL查看表及索引大小方法
目标:阿里云OS数据库DMS,单个主库最大存储空间为2T.最近公司业务扩展很快,一天数据量达到7.9G左右.要求备份清理历史数据,备份到其他磁盘. 准备: 如果想知道MySQL数据库中每个表占用的空间 ...
- python+unittest框架第六天unittest之优化测试报告
今天的内容主要是,用第三方的HTMLRUNner 第三方的报告来优化之前第五天批量执行案例的测试报告.案例的部分看第五天的批量执行笔记~ HTMLRUNner他可以生成更美观的测试报告,基于前辈造的车 ...
- Jenkins教程——从安装到部署Docker服务(二)声明式流水线HelloWorld
前言 本文通过一个声明式流水线的HelloWorld程序做一下流水线基础入门,对常用的流水线参数进行简要说明 什么是流水线 现实中的流水线 流水线比较好理解,类比于现实生活中的生产流水线,每个流程只做 ...
- Asp.net之MsChart控件动态绑定温度曲线图
<div> <div style="position: absolute; z-index: 200; background-color: #FFFFFF; height: ...
- 【故障公告】阿里云 RDS 数据库服务器 CPU 100% 造成全站故障
非常非常抱歉,今晚 19:34 ~ 21:16 园子所使用的阿里云 RDS 数据库服务器突然出现 CPU 100% 问题,造成全站无法正常访问,由此您带来了很大的麻烦,请您谅解. 故障经过是这样的.1 ...
- Scrum的三个仪式:Sprint规划会,Scrum每日站会,Sprint评审会
转自:http://blog.sina.com.cn/s/blog_6997f01501010m21.html Sprint Planning Meeting(Sprint规划会) 根据Product ...
- HDU 5126 stars 4维偏序, CDQ套CDQ
题目传送门 题意:在一个星空中,按着时间会出现一些点,现在john想知道,在某个时间内有多少个星星是的坐标是满足条件的.(x1<=x<=x2, y1 <= y <= y2, z ...
- hdu 1540 Tunnel Warfare(线段树)
题目链接 http://acm.hdu.edu.cn/showproblem.php?pid=1540 题意:D代表破坏村庄,R代表修复最后被破坏的那个村庄,Q代表询问包括x在内的最大连续区间是多少. ...
- JOBDU 1140 八皇后
题目1140:八皇后 时间限制:1 秒 内存限制:32 兆 特殊判题:否 提交:1064 解决:665 题目描述: 会下国际象棋的人都很清楚:皇后可以在横.竖.斜线上不限步数地吃掉其他棋子.如何将8个 ...
- CF940A Points on the line 思维
A. Points on the line time limit per test 1 second memory limit per test 256 megabytes input standar ...