Python爬虫进阶二之PySpider框架安装配置

wangheng1409 2024-10-28 11:42:53 原文

关于

首先，在此附上项目的地址，以及官方文档

PySpider 官方文档

安装

1. pip

首先确保你已经安装了pip，若没有安装，请参照

2. phantomjs

PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持，其快速、原生支持各种Web标准：DOM 处理、CSS 选择器、JSON、Canvas 和 SVG。 PhantomJS 可以用于页面自动化、网络监测、网页截屏以及无界面测试等。

以上附有官方安装方式，如果你是 Ubuntu 或 Mac OS X用户，可以直接用命令来安装

Ubuntu:

sudo apt-get install phantomjs

1	sudo apt-get install phantomjs

Mac OS X:

brew install phantomjs

1	brew install phantomjs

3. pyspider

直接利用 pip 安装即可

pip install pyspider

1	pip install pyspider

如果你是 Ubuntu 用户，请提前安装好以下支持类库

sudo apt-get install python python-dev python-distribute python-pip libcurl4-openssl-dev libxml2-dev libxslt1-dev python-lxml

1	sudo apt-get install python python-dev python-distribute python-pip libcurl4-openssl-dev libxml2-dev libxslt1-dev python-lxml

测试

如果安装过程没有提示任何错误，那就证明一些OK。

命令行输入

pyspider all

1	pyspider all

然后浏览器访问 http://localhost:5000

观察一下效果，如果可以正常出现 PySpider 的页面，那证明一切OK

在此附图一张，这是我写了几个爬虫之后的界面。

好，接下来我会进一步介绍这个框架的使用。

常见错误

我曾遇到过的一个错误：

PySpider HTTP 599: SSL certificate problem错误的解决方法，后来在作者那发了issue得到了答案，其他的暂时没什么问题。

不过发现有的小伙伴提了各种各样的问题啊，不过我确实都没遇到过，我再Win10，Linux Ubuntu，Linux CentOS，Mac OS X都成功运行。不过确实有些奇怪的问题，跑着跑着崩了，一点就崩了我也就比较纳闷了。

如果大家有问题，可以看看作者项目里面有没有类似的issue，另外也推荐大家直接到作者的GitHub上发issue。

毕竟，这个框架不是我写的。

在此附上Issue地址：

Python爬虫进阶二之PySpider框架安装配置的更多相关文章

Python爬虫进阶三之Scrapy框架安装配置
初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...
Python爬虫进阶四之PySpider的用法
审时度势 PySpider 是一个我个人认为非常方便并且功能强大的爬虫框架,支持多线程爬取.JS动态解析,提供了可操作界面.出错重试.定时爬取等等的功能,使用非常人性化. 本篇内容通过跟我做一个好玩的 ...
python爬虫框架（2）--PySpider框架安装配置
1.安装 1.phantomjs PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API.它全面支持web而不需浏览器支持,其快速.原生支持各种Web标准:DOM 处理 ...
Python爬虫学习笔记之Centos下安装配置Mongodb3.6
在Centos6.9上安装Mongodb时候,遇到"No package mongodb-org available"这个报错. 经过查询后,在Centos6.9上需要针对Mong ...
Python爬虫进阶之Scrapy框架安装配置
Python爬虫进阶之Scrapy框架安装配置初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此 ...
Python爬虫进阶一之爬虫框架概述
综述爬虫入门之后,我们有两条路可以走. 一个是继续深入学习,以及关于设计模式的一些知识,强化Python相关知识,自己动手造轮子,继续为自己的爬虫增加分布式,多线程等功能扩展.另一条路便是学习一些优 ...
Python爬虫--- 1.1请求库的安装与使用
来说先说爬虫的原理:爬虫本质上是模拟人浏览信息的过程,只不过他通过计算机来达到快速抓取筛选信息的目的所以我们想要写一个爬虫,最基本的就是要将我们需要抓取信息的网页原原本本的抓取下来.这个时候就要用到请 ...
Python爬虫利器二之Beautiful Soup的用法
上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Be ...
2.Python爬虫入门二之爬虫基础了解
1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.想抓取什么?这个由你来控制它咯. ...

随机推荐

vue 组建实现数据的双向绑定
<!DOCTYPE html><html><head> <style>body { font-family: Helvetica Neue, Aria ...
github拉取和推送
登入github 创建一个开源项目然后打开安装好的git 首先进入一个指定的文件夹例如: 1)E:\>cd miaov/testGit 回车进入E盘的testGit文件夹 2)E:\mia ...
常用HTTP状态码和CURL 000问题
最近在测试CDN服务质量问题,测试过程中返回了一些不同的状态码,当然有一些常用的,也有一些不常用的.最奇葩的是在使用curl命令的时候出现000状态码,问了很多同事,对这个000的反应跟新事物是的 ...
mysql 控制台快捷方式
程序--附件--命令提示符 cd C:\Program Files\MySQL\MySQL Server 5.5\bin 我安装的5.5的默认目录,或者也可以增加path路径,直接打开cmd就可以登陆 ...
分页型Memory LCD显存管理与emWin移植
上一篇随笔整理了一下逐行扫描型Memory LCD的显存管理与emWin移植,这篇就整理一下分页型Memory LCD显存管理与emWin移植. //此处以SSD1306作为实例 //OLED的显存/ ...
lcok-free简易实现
lock-free是一种基于原子变量类来构建的非阻塞同步算法. 比较并交换(compare-and-swap) 我们经常会先检查某项东西,然后对其进行修改,如if(X...) {X=...}.这种行为 ...
2. web前端开发分享-css,js进阶篇
一,css进阶篇: 等css哪些事儿看了两三遍之后,需要对看过的知识综合应用,这时候需要大量的实践经验, 简单的想法:把qq首页全屏另存为jpg然后通过ps工具切图结合css转换成html,有无从下手 ...
各种Js封装
获取ClassName元素 function getClass(classname,id){ if(document.getElementsByClassName){ if(id){ return $ ...
eafier 簡單易用 HTML、CSS 網頁編輯器（可自動插入 Tag 標籤）
很久很久以前,一般人要做網頁的話大概都會用 FrontPage 之類的工具,更進階一點的會用 Dreamweaver 等軟體.雖然上述軟體提供很方便的「所見即所得」的編輯預覽模式,但寫出來的網頁程式碼 ...
转：aliyun阿里云Maven仓库地址——加速你的maven构建
maven仓库用过的人都知道,国内有多么的悲催.还好有比较好用的镜像可以使用,尽快记录下来.速度提升100倍. http://maven.aliyun.com/nexus/#view-reposito ...