pyspider是国人binux编写的强大的网络爬虫框架,它带有强大的WebUI.脚本编辑器.任务监控器.项目管理器以及结果处理器,同时支持多种数据库后端.多种消息队列,另外还支持JavaScript渲染页面的爬取,使用起来非常方便,本节介绍一下它的安装过程. 1. 相关链接 官方文档:http://docs.pyspider.org/ PyPI:https://pypi.python.org/pypi/pyspider GitHub:https://github.com/binux/pyspi…
Scrapy是一个十分强大的爬虫框架,依赖的库比较多,至少需要依赖的库有Twisted 14.0.lxml 3.4和pyOpenSSL 0.14.在不同的平台环境下,它所依赖的库也各不相同,所以在安装之前,最好确保把一些基本库安装好.本节就来介绍Scrapy在不同平台的安装方法. 1. 相关链接 官方网站:https://scrapy.org 官方文档:https://docs.scrapy.org PyPI:https://pypi.python.org/pypi/Scrapy GitHub:…
Scrapy-Redis是Scrapy的分布式扩展模块,有了它,我们就可以方便地实现Scrapy分布式爬虫的搭建.本节中,我们将介绍Scrapy-Redis的安装方式. 相关链接 GitHub:https://github.com/rmax/scrapy-redis PyPI:https://pypi.python.org/pypi/scrapy-redis 官方文档:http://scrapy-redis.readthedocs.io pip安装 这里推荐使用pip安装,命令如下:     1…
在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用OCR来识别. 1. OCR OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程.对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容. 例如,对于如图1-22和图1-23所示的验证码,我们可以使用OCR技术来将其转化为电子文本,然后爬虫将识别结果提交给服务器,便可以达到自动识别验…
Gerapy是一个Scrapy分布式管理模块,本节就来介绍一下它的安装方式. 1. 相关链接 GitHub:https://github.com/Gerapy 2. pip安装 这里推荐使用pip安装,命令如下:     1 pip3 install gerapy 3. 测试安装 安装完成后,可以在Python命令行下测试:     1 2 $ python3 >>> import gerapy 如果没有错误报出,则证明库已经安装好了.…
Docker是一种容器技术,可以将应用和环境等进行打包,形成一个独立的.类似于iOS的App形式的“应用”.这个应用可以直接被分发到任意一个支持Docker的环境中,通过简单的命令即可启动运行.Docker是一种最流行的容器化实现方案,和虚拟化技术类似,它极大地方便了应用服务的部署:又与虚拟化技术不同,它以一种更轻量的方式实现了应用服务的打包.使用Docker,可以让每个应用彼此相互隔离,在同一台机器上同时运行多个应用,不过它们彼此之间共享同一个操作系统.Docker的优势在于,它可以在更细的粒…
Appium是移动端的自动化测试工具,类似于前面所说的Selenium,利用它可以驱动Android.iOS等设备完成自动化测试,比如模拟点击.滑动.输入等操作,其官方网站为:http://appium.io/.本节中,我们就来了解一下Appium的安装方式. 1. 相关链接 GitHub:https://github.com/appium/appium 官方网站:http://appium.io 官方文档:http://appium.io/introduction.html 下载链接:http…
Charles是一个网络抓包工具,相比Fiddler,其功能更为强大,而且跨平台支持得更好,所以这里选用它来作为主要的移动端抓包工具. 1. 相关链接 官方网站:https://www.charlesproxy.com 下载链接:https://www.charlesproxy.com/download 2. 下载Charles 我们可以在官网下载最新的稳定版本,如图1-43所示.可以发现,它支持Windows.Linux和Mac三大平台. 图1-43 Charles下载页面 直接点击对应的安装…
对于Redis来说,我们要使用redis-py库来与其交互,这里就来介绍一下它的安装方法. 1. 相关链接 GitHub:https://github.com/andymccurdy/redis-py 官方文档:https://redis-py.readthedocs.io/ 2. pip安装 这里推荐使用pip安装,命令如下:     1 pip3 install redis 运行完毕之后,即可完成redis-py的安装. 3. 验证安装 为了验证redis-py库是否已经安装成功,可以在命令…
在Python中,如果想要和MongoDB进行交互,就需要借助于PyMongo库,这里就来了解一下它的安装方法. 1. 相关链接 GitHub:https://github.com/mongodb/mongo-python-driver 官方文档:https://api.mongodb.com/python/current/ PyPI:https://pypi.python.org/pypi/pymongo 2. pip安装 这里推荐使用pip安装,命令如下:     1 pip3 instal…