分布式爬虫搭建系列 之一------python安装及以及虚拟环境的配置及scrapy依赖库的安装
python及scrapy框架依赖库的安装步骤:
第一步,python的安装
在Windows上安装Python
首先,根据你的Windows版本(64位还是32位)从Python的官方网站下载Python 3.5对应的64位安装程序或32位安装程序(网速慢请移步国内镜像)或者通过输入网址https://www.python.org/downloads/选择要下载的版本,然后,双击运行下载的EXE安装包:

如下图,并按照圈中区域进行设置,切记要勾选打钩的框,然后再点击Customize installation进入到下一步

特别要注意勾上Add Python 3.5 to PATH,然后点“Install Now”即可完成安装。

对于上图中,可以通过Browse进行自定义安装路径,也可以直接点击Install进行安装,点击install后便可以完成安装了。

为了检查我们的python是否安装成功,我们运行Python进行检查:
安装成功后,打开命令提示符窗口,敲入python后,会出现两种情况:
情况一:

看到上面的画面,就说明Python安装成功!
情况二:得到一个错误:

这是因为Windows会根据一个Path的环境变量设定的路径去查找python.exe,如果没找到,就会报错。如果在安装时漏掉了勾选Add Python 3.5 to PATH,那就要手动把python.exe所在的路径添加到Path中。
如果你不知道怎么修改环境变量,建议把Python安装程序重新运行一遍,务必记得勾上Add Python 3.5 to PATH。
以上过程是步骤能执行的前提,请确保python已经正常安装,否则无法进行第二步。
第二步,scrapy框架的建立前提依赖库的完整安装:

特别说明一下:
lxml,Twisted,PyOpenssl需要下载与安装的python相同版本的,否则会报错。
这里有一种方法可以查看当前本机安装的python的版本:
进入python(IDIE或cmd均可,此处以通用的cmd进行使用)。在cmd中,输入python进入python。
然后输入import pip;print(pip.pep425tags.get_supported()),界面上输出当前python的版本信息--划线部分,(此处提供一个python3.5的图例,其他的一样)

然后根据python版本选择依赖库的版本号。
另外此处提供一个完整安装lxmL的参考地址:https://jingyan.baidu.com/article/ad310e80feaac71849f49e98.html
操作步骤为:
(1)通过以上的链接(手动输入吧)去下载库到本地,例如存本地的绝对路径为url
(2)通过管理员启动命令提示符(这里很重要),然后通过pip install url 分别进行安装lxml,Twisted,PyOpenssl
(3)安装完成
注:windows平台需要依赖pywin32,Pywin32是一个.exe文件,需要在已经安装的python中的scripts中执行安装(next即可),这样会默认配置python。
这里需要说明一下就是上述的安装是在没有使用虚拟环境的前提下进行的,这里附上使用虚拟环境(虚拟环境包管理)后的安装步骤:
第一步:包管理的安装
pip install virtualenvwrapper-win
pip install virtualenv
默认创建的虚拟环境位于C:\Users\username\envs,但是我们有时需要把项目环境存储到其他盘,所以我们可以通过环境变量 WORKON_HOME来定制实现虚拟环境的存储位置。
通过计算机-->属性-->高级系统设置-->环境变量-->在系统变量中新建“变量名”:WORKON_HOME,变量值:“你自定义的路径”。
使用workon可以查看虚拟环境包
第二步:创建一个虚拟环境
mkvirtualenv testscrapy
虚拟环境创建好之后会自动进入到该虚拟环境下
使用deactivate可以退出该虚拟环境,使用workon testscrapy可以进入到虚拟环境中
第三步:scrapy框架的安装 使用豆瓣的镜像
pip install -i https://pypi.douban.com/simple scrapy
对于该步骤有可能会安装出错,原因为一些第三方包的缺失,
这里解决办法为在https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml中下载与我们python对应版本的包,指定下载到某一个目录下,然后在该目录下
打开虚拟环境(指的是路径必须是从当前文件所在盘开始,例如包下载到了D盘,cmd的根目录需要从D开始,如下图):


并在该虚拟环境下使用pip install xx 命令来安装所需的第三方的包(对于安装的包需要名称加扩展名)。例如安装lxml
pip install lxml-4.1.-cp34-cp34m-win_amd64.whl
以上步骤成功走完后,我们就可以开心愉快的玩耍了----接下来开启我们scrapy框架之旅
详细我们可以参考:https://www.cnblogs.com/jiuyang/p/7815126.html
分布式爬虫搭建系列 之一------python安装及以及虚拟环境的配置及scrapy依赖库的安装的更多相关文章
- 分布式爬虫搭建系列 之二-----神器PyCharm的安装
这里我们使用PyCharm作为开发工具,以下过程摘抄于:http://blog.csdn.net/qq_29883591/article/details/52664478 作者:陌上行走 Pytho ...
- 分布式爬虫搭建系列 之三---scrapy框架初用
第一,scrapy框架的安装 通过命令提示符进行安装(如果没有安装的话) pip install Scrapy 如果需要卸载的话使用命令为: pip uninstall Scrapy 第二,scrap ...
- 分布式爬虫搭建系列 之四---scrapy分布式框架
带录入SAFCDS
- linux7 安装 zlib依赖库 与安装python 3.6
Linux 安装zlib依赖库 进入src: cd /usr/local/src 下载zlib库: wget http://www.zlib.net/zlib-1.2.11.tar.gz 解压下载的t ...
- 远程安装实施时,如何配置远程服务器的本地 yum 安装源
配置本地 yum 安装源 overview 1.使用 ftp 将OracleLinux-R5-U8-Server-x86_64-dvd.iso 上传到 /home 目录下.再使用 mount 命令挂载 ...
- yum install 安装 下载好的rpm包 会并依赖包一起安装 zoom电话会议的安装
[root@ok-T Downloads]# rpm -ivh zoom_x86_64.rpm error: Failed dependencies: libxcb-image.so.()(64bit ...
- 使用scrapy-redis 搭建分布式爬虫环境
scrapy-redis 简介 scrapy-redis 是 scrapy 框架基于 redis 数据库的组件,用于 scraoy 项目的分布式开发和部署. 有如下特征: 分布式爬取: 你可以启动多个 ...
- 跟繁琐的命令行说拜拜!Gerapy分布式爬虫管理框架来袭!
背景 用 Python 做过爬虫的小伙伴可能接触过 Scrapy,GitHub:https://github.com/scrapy/scrapy.Scrapy 的确是一个非常强大的爬虫框架,爬取效率高 ...
- gerapy的初步使用(管理分布式爬虫)
一.简介与安装 Gerapy 是一款分布式爬虫管理框架,支持 Python 3,基于 Scrapy.Scrapyd.Scrapyd-Client.Scrapy-Redis.Scrapyd-API.Sc ...
随机推荐
- linux基础(8)-文件处理(awk 、sed、grep)
grep基本用法 格式:grep [选项] [模式] [文件] 选项: -c:只显示有多少行匹配 ,而不具体显示匹配的行 -n:在每一行前面打印该行在文件中的行数 -i:在字符串比较的时候忽略大小 ...
- Java执行过程
Java的运行原理 在Java中引入了虚拟机的概念,即在机器和编译程序之间加入了一层抽象的虚拟的机器.这台虚拟的机器在任何平台上都提供给编译程序一个的共同的接口.编译程序只需要面向虚拟机,生成虚拟机能 ...
- Tensorflow中的命名空间scope
1.name_scope 在tensorflow中有两种声明变量的方式,tf.get_variable()和tf.Variable(). name_scope对于tf.get_variable()无效 ...
- 使用Blob获取图片并二进制显示实例页面
HTML代码: <div id="forAppend" class="demo"></div> JS代码: var eleAppend ...
- Nodejs+MongoDB+Bootstrap+esj搭建的个人简易博客
github:https://github.com/yehuimmd/myNodeBloy Nodejs+MongoDB+jQuery+Bootstrap-esj搭建的个人简易博客 主要功能 前台 : ...
- 深度学习—BN的理解(一)
0.问题 机器学习领域有个很重要的假设:IID独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障.那BatchNorm的作用是 ...
- hdu6242 计算几何
题意:给你n个点,要求找到一个点,和一个圆心,使得有n/2向上取整个点在圆上,一定有满足条件的点存在 题解:既然一定有解,而且圆上有n/2向上取整个点,那么我们可以通过随机来找三个点来确定一个圆心,和 ...
- ItelliJ IDEA下载及获取注册码详解
Idea安装很简单: 官网地址下载:https://www.jetbrains.com/idea/ 注册码获取:http://idea.lanyus.com/ 进入此网址,点击“获得注册码”复制使 ...
- 逻辑斯蒂(logistic)回归深入理解、阐述与实现
第一节中说了,logistic 回归和线性回归的区别是:线性回归是根据样本X各个维度的Xi的线性叠加(线性叠加的权重系数wi就是模型的参数)来得到预测值的Y,然后最小化所有的样本预测值Y与真实值y'的 ...
- Redis集群部署3.0
我用的Mac的终端 ------------------------- 1.Redis简介 centos(5.4) Redis是一个key-value存储系统.和Memcached类似,但是解决了断 ...