先写一些前言吧,自己感觉python已经有一定的基础了,但是在安装这个过程居然用了一下午,感觉有些收货,特地写下来与大家分享一下。

  • PySpider是一个强大的网络爬虫系统,GitHub地址:https://github.com/binux/pyspider;官方文档地址:http://docs.pyspider.org/en/latest
  • PySpider,提供WEBUI系统,支持PhantomJS进行JS的渲染采集,内置pyquery作为选择器,可拓展程度不高。
  • Scrapy,原生是代码和命令操作,对接Portia实现可视化,使用parse命令调试,对接Scrapy-Splash组件进行JS渲染采集,对接XPath/CSS选择器和正则匹配,可对接Middleware、Pipeline、Extension等组件拓展。
  • PySpider,架构分为Scheduler调度器(发起任务调度),Fetcher抓取器(抓取网页内容),Processer处理器(解析网页内容)。

话不多说,上安装过程(PS,本机环境windows10,Python3.9.0):

1、首先需要安装PhantomJS,这个比较简单,就直接按照网上流程安装对应版本就行。

2、安装PyCurl,这个是安装PySpider的先决条件,直接pip安装会报错,可以下载.whl文件安装,网址https://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl

3、安装PySpider,直接pip安装就行。

4、安装调试:

(1)、安装完Pyspider,命令行运行pyspider,会报错:SyntaxError: invalid syntax:

这个是因为python以及相关依赖版本过高。可以使用Pycharm (亦可直接用文档更改代码),点击File-Open打开python\lib\sit-packages\pyspider,将文件夹pyspider 加载进去,按Ctrl+Shift+F快捷键调出全局搜索,输入async,即可在“In Project”下找到所有含有关键字的.py 文件,逐一打开,按Ctrl+R调出替换栏,将async 替换为shark 即可。就是分别在run.pytornado_fetcher.pywebui>app.py,ctrl+f查找async替换掉就可以了。(注意大写的Async不要替换)

(2)、再次运行发现报错:AttributeError: module 'fractions' has no attribute 'gcd'

这个函数在Python3.5之后就废弃了,官方建议使用math.gcd()。所以在libs/base_handler文件中上方加入 import math下面fractions.gcd()改为math.gcd(…)就可以了

(3)、再次运行发现报错:Deprecated option 'domaincontroller': use 'http_authenticator.domain_controller' instead.

webui文件里面的webdav.py文件打开,修改第209行即可。把

'domaincontroller': NeedAuthController(app),

修改为:

'http_authenticator':{
'HTTPAuthenticator':NeedAuthController(app),
},

(4)、再次运行发现报错:cannot import name 'DispatcherMiddleware' from 'werkzeug.wsgi' (d:\python39\lib\site-packages\werkzeug\wsgi.py)

这个是werkzeug的版本太高问题,需要进行修改

python -m pip  uninstall werkzeug # 卸载

python -m pip install werkzeug==0.16.1  
#安装0.16.1版本

(5)、同样也需要更换wsgidav
版本

pip uninstall wsgidav

pip install wsgidav==2.4.1

(6)、再次运行pyspider,发现卡死在result_worker starting,运行pyspider all卡死在, fetcher starting…

百度,① 有说需要打开一个命令行端口运行pyspider,卡住后运行第二个并关掉第一个端口;② 有说需要关闭防火墙;③ 有说需要先安装redis

但是,我都尝试一遍还是卡在那里。

(7)最后选择重新安装一遍,

① 把之前安装的包卸载,具有有:wsgidavwerkzeugpycurlpyspider(已经安装的redis没有卸载,防火墙中python权限打开没关)

② 按照上述(1)~(5)步骤安装,过程中发现Flask与相关包冲突,并最Flask的版本进行了更新。具体描述如下:

a)发现在安装 werkzeug 时报错:

ERROR: pip's dependency resolver does not currently take
into account all the packages that are installed. This behaviour is the source
of the following dependency conflicts.

flask 2.0.1 requires Werkzeug>=2.0, but you have werkzeug
0.16.1 which is incompatible.

b)卸载flask,继续安装
wsgidav 时报错:

ERROR: pip's dependency resolver does not currently take
into account all the packages that are installed. This behaviour is the source
of the following dependency conflicts.

pyspider 0.3.10 requires Flask>=0.10, which is not
installed.

c)安装 flask==1.0.2 ,如果安装0.10版本,发现pyspider的网页UI部分内容渲染失败。1.0.2版本刚好合适

d)安装成功截图:

Python3.9安装PySpider步骤及问题解决的更多相关文章

  1. Python3.7安装pyspider

    下面是Python3.7安装pyspider的方式,能安装成功但是后期有很多问题,所以不建议,请使用3.5版本的Python进行安装!!!由于要做爬虫工作,所以学习pyspider框架,下面介绍安装步 ...

  2. python3.6安装pyspider

    win10下安装pyspider 1.pip 我在安装pip的时候默认安装了Pip. 如果没有的话:pip安装 2.PhantomJS PhantomJS 是一个基于 WebKit 的服务器端 Jav ...

  3. Python3环境安装PySpider爬虫框架过程

    收录待用,修改转载已取得腾讯云授权 大家好,本篇文章为大家讲解腾讯云主机上PySpider爬虫框架的安装. 首先,在此附上项目的地址,以及官方文档 PySpider 官方文档 安装流程 pip 首先确 ...

  4. Linux环境下安装Redis步骤即问题解决

    第一步:将安装包在window平台上解压后拷贝到Linux机器的/usr/soft目录下,并且为文件夹和文件赋予最高权限,chmod+x *: 第二步:进入到redis-3.2.6目录下,执行make ...

  5. Linux下安装load generator步骤及问题解决

    Linux下安装load generator步骤及问题解决 上一篇 / 下一篇  2014-08-06 18:33:00 / 个人分类:loadrunner相关 查看( 146 ) / 评论( 0 ) ...

  6. centos7 安装 pyspider 出现的一系列问题及解决方案集合

    先安装python3 和 pip3 wget https://www.python.org/ftp/python/3.6.5/Python-3.6.5.tgz 安装zlib-devel包(后面安装pi ...

  7. 安装pyspider遇到的坑

    pyspider是国人写的一款开源爬虫框架,个人觉得这个框架用起来很方便,至于如何方便可以继续看下去. 作者博客:http://blog.binux.me/ 安装pyspider安装pyspider: ...

  8. ubuntu系统下安装pyspider:搭建pyspider服务器新手教程

    首先感谢“巧克力味腺嘌呤”的博客和Debian 8.1 安装配置 pyspider 爬虫,本人根据他们的教程在ubuntu系统中进行了实际操作,发现有一些不同,也出现了很多错误,因此做此教程,为新手服 ...

  9. python3 django 安装

    参考https://www.cnblogs.com/yuyang26/p/7411269.html 前提条件:python3.x环境 windows 步骤1 pip install Django==2 ...

随机推荐

  1. python学习笔记04-了解操作符与条件分支

    先来了解一下条件操作符: 运算符 描述 示例 == 检查两个操作数的值是否相等,如果是则条件变为真. 如a=3,b=3则(a == b) 为 true. != 检查两个操作数的值是否相等,如果值不相等 ...

  2. 【曹工杂谈】Mysql客户端上,时间为啥和本地差了整整13个小时,就离谱

    瞎扯一点非技术 本来今天上午就打算写的,结果中途被别的事吸引了注意力,公司和某保险公司合作推了一个医疗保险,让我们给父母买,然后我研究了半天条款:又想起来之前买的支付宝那个好医保,也买了两年多了,但是 ...

  3. 高吞吐、低延迟 Java 应用的 GC 优化实践

    本篇原文作者是 LinkedIn 的 Swapnil Ghike,这篇文章讲述了 LinkedIn 的 Feed 产品的 GC 优化过程,虽然文章写作于 April 8, 2014,但其中的很多内容和 ...

  4. 如何基于MindSpore实现万亿级参数模型算法?

    摘要:近来,增大模型规模成为了提升模型性能的主要手段.特别是NLP领域的自监督预训练语言模型,规模越来越大,从GPT3的1750亿参数,到Switch Transformer的16000亿参数,又是一 ...

  5. lsnrctl start 报错

    lsnrctl start报错: TNS-12541:TNS:no listener TNS-12560:TNS:protocol adapter error TNS-00511:No listene ...

  6. Linux驱动中的EPROBE_DEFER是个啥

    ​Linux kernel 驱动中,有不少驱动会引用到 EPROBE_DEFER 这个错误号.比如下面这个例子,对 devm_gpiod_get 的返回值进行判断,如果有错误且错误号不是 -EPRBO ...

  7. Kafka 总结学习

    Kafka Need No Keeper 最近在鹅厂工作中不断接触到Kafka,虽然以前也使用过,但是对其架构和发展过程总是模模糊糊,所以在回学校准备末考的时候找些资料总结一下. Kafka Need ...

  8. 每日三道面试题,通往自由的道路5——JVM

    茫茫人海千千万万,感谢这一秒你看到这里.希望我的面试题系列能对你的有所帮助!共勉! 愿你在未来的日子,保持热爱,奔赴山海! 每日三道面试题,成就更好自我 昨天既然我们聊到了JVM,那我们继续这一个话题 ...

  9. 9.6、zabbix监控总结

    1.自动发现和自动注册的区别: (1)自动发现: 1)用于zabbix-agent的被动模式,是zabbix-server主动去添加主机.在web上创建自动发现的规则 后,zabbix-server会 ...

  10. 39、mysql数据库(视图)

    39.1.视图: 0.创建表及插入数据: 1.创建teacher表及插入数据: (1)创建表: CREATE TABLE teacher( tid int PRIMARY KEY auto_incre ...