爬虫如何使用phantomjs无头浏览器解决网页源代码经过渲染的问题(以scrapy框架为例)

一.浏览器的构成

　　许多开发商提供了商用的浏览器来解释和显示Web文档，而所有这些浏览器几乎都使用相同的体系架构。每一种浏览器(browser)通常由三部分构成：一个控制程序，客户协议和一些解释程序。控制程序从键盘或者鼠标接受输入，并使用客户端程序访问文档。获取文档以后，控制程序使用解释程序将文档显示在屏幕上。客户机协议可以是主流协议之一，如FTP或者HTTP。解释程序可以是HTML，Java或者JavaScript，这取决于文档的类型。

　　渲染（计算机术语）：渲染在电脑绘图中是指用软件从模型生成图像的过程。模型是用严格定义的语言或者数据结构对于三维物体的描述，它包括几何、视点、纹理以及照明信息。　　

　　所以浏览器也存在一个 “ 渲染 ” 的问题：构建网页的代码和服务器所发回的网页源代码不一致。

　　那么问题来了，如何获得经过浏览器解释后的代码呢？

二.phantomjs的使用

　　1.phantomjs简介：

　　　　头浏览器：一个完整的浏览器内核,包括js解析引擎,渲染引擎,请求处理等,但是不包括显示和用户交互页面的浏览器。

　　2.PhantomJS的使用场景
　　　PhantomJS的适用范围就是无头浏览器的适用范围。通常无头浏览器可以用于页面自动化，网页监控，网络爬虫等：

　　　　页面自动化测试：希望自动的登陆网站并做一些操作然后检查结果是否正常。
　　　　网页监控：希望定期打开页面，检查网站是否能正常加载，加载结果是否符合预期。加载速度如何等。
　　　　网络爬虫：获取页面中使用js来下载和渲染信息，或者是获取链接处使用js来跳转后的真实地址。

　　3.phantomJs的安装

　　　　安装教程：https://blog.csdn.net/qq_39382769/article/details/79754930

　　　　注意：直接使用pip安装selenium模块的话，很容易发生网络连接的问题，推荐使用清华源

　　　　　　　　安装命令：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple selenium (直接复制到cmd敲击回车即可)

　　　　　　　 phantomJs的安装官网在国外，国内直接访问，不用vpn的话，很难下载的。所以如果有下载困难的小伙伴，可以在评论区留下自己的邮箱地址，我会定期查看，到时候看到了直接私发给有需要的小伙伴

　　4.使用phantomjs获取经过渲染的源代码

　　　　from scrapy.http import HtmlResponse

　　　　from selenium import webdriver

　　　　driver = webdriver.PhantomJS() #此处因为已经提前配置好了系统环境变量，driver为浏览器对象

　 driver.get(response.url) #打开指定的网址

　　 new_response = HtmlResponse(url=response.url,body=driver.page_source,encoding='utf-8') #driver . page_source 为所打开网址的代码，这里用scrapy的HtmlResponse方法构建一个新的可以使用各种属性和方法的对象

爬虫如何使用phantomjs无头浏览器解决网页源代码经过渲染的问题(以scrapy框架为例)的更多相关文章

爬虫之图片懒加载技术、selenium工具与PhantomJS无头浏览器
图片懒加载技术 selenium爬虫简单使用 2.1 selenium简介 2.2 selenium安装 2.3 selenium简单使用 2.3.1 selenium使用案例 2.3.2 selen ...
第三百三十七节，web爬虫讲解2—PhantomJS虚拟浏览器+selenium模块操作PhantomJS
第三百三十七节,web爬虫讲解2—PhantomJS虚拟浏览器+selenium模块操作PhantomJS PhantomJS虚拟浏览器 phantomjs 是一个基于js的webkit内核无头浏览器 ...
爬虫之selenium模块;无头浏览器的使用
一,案例爬取站长素材中的图片:http://sc.chinaz.com/tupian/gudianmeinvtupian.html import requests from lxml import ...
基于Python, Selenium, Phantomjs无头浏览器访问页面
引言: 在自动化测试以及爬虫领域,无头浏览器的应用场景非常广泛,本文将梳理其中的若干概念和思路,并基于代码示例其中的若干使用技巧. 1. 无头浏览器通常大家在在打开网页的工具就是浏览器,通过界面上输 ...
十六 web爬虫讲解2—PhantomJS虚拟浏览器+selenium模块操作PhantomJS
PhantomJS虚拟浏览器 phantomjs 是一个基于js的webkit内核无头浏览器也就是没有显示界面的浏览器,利用这个软件,可以获取到网址js加载的任何信息,也就是可以获取浏览器异步加载的 ...
无头浏览器phantomJS
selenium: 有头浏览器的代表(selenium+python也可实现静默运行引入python的一个包,包叫:虚拟屏幕pyvirtualdisplay) PhantomJS : 无头浏览器的代 ...
09 Scrapy框架在爬虫中的使用
一.简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架.它集成高性能异步下载,队列,分布式,解析,持久化等. Scrapy 是基于twisted框架开发而来,twisted是一个 ...
基于Scrapy框架的Python新闻爬虫
概述该项目是基于Scrapy框架的Python新闻爬虫,能够爬取网易,搜狐,凤凰和澎湃网站上的新闻,将标题,内容,评论,时间等内容整理并保存到本地详细代码下载:http://www.demoda ...
爬虫之图片懒加载, selenium , phantomJs, 谷歌无头浏览器
一.图片懒加载懒加载 : JS 代码是页面自然滚动 window.scrollTo(0,document.body.scrollHeight) (重点) bro.execute_ ...

随机推荐

python列表推导式（扫盲）
1) 简单了解: 所谓的列表推导式,就是指的轻量级循环创建列表. 格式: 列表推导式的常见形式: my_list = [ item for item in iterable] my_list: 列表名 ...
解决android 无法打开 DDMS 中的data目录
把上面操作一遍就可以了,如果还是不行你可以检查下 su 是不是输入错误了.
Android studio常用快捷键与设置
1.格式化代码: 命令快捷键将代码合并成一行 Ctrl + Shift + J 格式化 Ctrl+Alt+L 2.API函数参数提示:双击选中所要提示的函数,再按F2即可显示函数的使用方法. 3. ...
3名程序员被抓！开发“万能钥匙”APP，撬走3个亿
来自:程序员头条报道又有 3 名程序员被抓!开发"万能钥匙"APP,撬走 3 亿! 前几天,据央视新闻报道,上海公安机关接到共享单车企业报案,随后破获了一起共享单车万能解锁 A ...
[PyTorch入门之60分钟入门闪击战]之自动推倒
AUTOGRAD: AUTOMATIC DIFFERENTIATION(自动分化) 来源于这里. autograd包是PyTorch中所有神经网络的核心.首先我们先简单地了解下它,然后我们将训练我们的 ...
码海拾遗：strcpy()、strncpy()和strcpy_s()区别
1.strcpy() 原型:char *strcpy(char *dst,const char *src) 功能:将以src为首地址的字符串复制到以dst为首地址的字符串,包括'\0'结束符,返回ds ...
Y事业部打造一体化质量管理平台
互联网企业质量管理的困惑作为互联网时代的互联网企业,我们的研发模式和传统模式相比,最显著的不同在于发布节奏加快了,这个加快不是快了10%,20%,50%,而是加快了几倍,甚至几十倍,上百倍.面对加快 ...
SpringCloud Ribbon组成和负载均衡规则
Ribbon饥饿加载默认情况下Ribbon是懒加载的.当服务起动好之后,第一次请求是非常慢的,第二次之后就快很多. 解决方式:开启饥饿加载 ribbon: eager-load: enabled: ...
Ribbon进行服务调用/负载均衡以及请求重试配置
Ribbon负载均衡经过对Eureka的认识,及Eureka集群的搭建,已经基本可以入门Eureka的使用.之前对于服务调用者我们是直接获取注册列表后通过 get(0) 的方式来获取第一个注册信息. ...
Description Resource Path Location Type cvc-complex-type.2.4.c: The matching 解决问题
2017-03-02 10:08:03,112 [localhost-startStop-1] ERROR org.springframework.web.servlet.DispatcherServ ...

爬虫如何使用phantomjs无头浏览器解决网页源代码经过渲染的问题(以scrapy框架为例)

爬虫如何使用phantomjs无头浏览器解决网页源代码经过渲染的问题(以scrapy框架为例)的更多相关文章

随机推荐

热门专题