pyspider是国人binux编写的强大的网络爬虫框架,它带有强大的WebUI.脚本编辑器.任务监控器.项目管理器以及结果处理器,同时支持多种数据库后端.多种消息队列,另外还支持JavaScript渲染页面的爬取,使用起来非常方便,本节介绍一下它的安装过程. 1. 相关链接 官方文档:http://docs.pyspider.org/ PyPI:https://pypi.python.org/pypi/pyspider GitHub:https://github.com/binux/pyspi…
Scrapy是一个十分强大的爬虫框架,依赖的库比较多,至少需要依赖的库有Twisted 14.0.lxml 3.4和pyOpenSSL 0.14.在不同的平台环境下,它所依赖的库也各不相同,所以在安装之前,最好确保把一些基本库安装好.本节就来介绍Scrapy在不同平台的安装方法. 1. 相关链接 官方网站:https://scrapy.org 官方文档:https://docs.scrapy.org PyPI:https://pypi.python.org/pypi/Scrapy GitHub:…
Scrapy-Redis是Scrapy的分布式扩展模块,有了它,我们就可以方便地实现Scrapy分布式爬虫的搭建.本节中,我们将介绍Scrapy-Redis的安装方式. 相关链接 GitHub:https://github.com/rmax/scrapy-redis PyPI:https://pypi.python.org/pypi/scrapy-redis 官方文档:http://scrapy-redis.readthedocs.io pip安装 这里推荐使用pip安装,命令如下:     1…
Gerapy是一个Scrapy分布式管理模块,本节就来介绍一下它的安装方式. 1. 相关链接 GitHub:https://github.com/Gerapy 2. pip安装 这里推荐使用pip安装,命令如下:     1 pip3 install gerapy 3. 测试安装 安装完成后,可以在Python命令行下测试:     1 2 $ python3 >>> import gerapy 如果没有错误报出,则证明库已经安装好了.…
对于Redis来说,我们要使用redis-py库来与其交互,这里就来介绍一下它的安装方法. 1. 相关链接 GitHub:https://github.com/andymccurdy/redis-py 官方文档:https://redis-py.readthedocs.io/ 2. pip安装 这里推荐使用pip安装,命令如下:     1 pip3 install redis 运行完毕之后,即可完成redis-py的安装. 3. 验证安装 为了验证redis-py库是否已经安装成功,可以在命令…
在Python中,如果想要和MongoDB进行交互,就需要借助于PyMongo库,这里就来了解一下它的安装方法. 1. 相关链接 GitHub:https://github.com/mongodb/mongo-python-driver 官方文档:https://api.mongodb.com/python/current/ PyPI:https://pypi.python.org/pypi/pymongo 2. pip安装 这里推荐使用pip安装,命令如下:     1 pip3 instal…
在Python 3中,如果想要将数据存储到MySQL中,就需要借助PyMySQL来操作,本节中我们介绍一下它的安装方式. 1. 相关链接 GitHub:https://github.com/PyMySQL/PyMySQL 官方文档:http://pymysql.readthedocs.io/ PyPI:https://pypi.python.org/pypi/PyMySQL 2. pip安装 这里推荐使用pip安装,命令如下:     1 pip3 install pymysql 执行完命令后即…
在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用OCR来识别. 1. OCR OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程.对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容. 例如,对于如图1-22和图1-23所示的验证码,我们可以使用OCR技术来将其转化为电子文本,然后爬虫将识别结果提交给服务器,便可以达到自动识别验…
pyquery同样是一个强大的网页解析工具,它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便.本节中,我们就来了解一下它的安装方式. 1. 相关链接 GitHub:https://github.com/gawel/pyquery PyPI:https://pypi.python.org/pypi/pyquery 官方文档:http://pyquery.readthedocs.io 2. pip安装 这里推荐使用pip安装,命令如下:     1 pip3 ins…
之前介绍的Requests库是一个阻塞式HTTP请求库,当我们发出一个请求后,程序会一直等待服务器响应,直到得到响应后,程序才会进行下一步处理.其实,这个过程比较耗费资源.如果程序可以在这个等待过程中做一些其他的事情,如进行请求的调度.响应的处理等,那么爬取效率一定会大大提高. aiohttp就是这样一个提供异步Web服务的库,从Python 3.5版本开始,Python中加入了async/await关键字,使得回调的写法更加直观和人性化.aiohttp的异步操作借助于async/await关键…