爬虫之Selenium 动态渲染页面爬取

Selenim 是一个自动化测试工具，可以利用它驱动浏览器执行特定的动作，如点击、下拉等操作，同时可以获取浏览器当前呈现的页面的源代码，做到可见及可爬

1.使用流程

1）声明浏览器对象

　　　　Selenium 支持非常多的浏览器，如Chrome、Firefox、Edge等，还有Android、BlackBerry等手机端浏览器。

2）访问页面

　　　　可以通过get()方法来请求网页，参数传入链接URL即可。

3）查找节点

　　　　Selenium 可以驱动浏览器完成各种操作，比如填充表单、模拟点击等。

find_element_by_id

find_element_by_name

find_element_by_xpath

find_element_by_link_text

find_element_by_partial_link_text

find_element_by_tag_name

find_element_by_class_name

find_element_by_css_selector

如要获取多个节点，element改为elements

方法

4）节点交互

Selenium可以驱动浏览器来执行一血操作，也就是说可以让浏览器模拟执行一些动作。比较常见的用法有：输入文字时用send_keys()方法，清空文字时用clear()方法，点击按钮时用click()方法

5）动作链

鼠标拖曳、键盘按键等

ActionChains　　http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.common.action_chains

6）执行JavaScript

调用execute_script()方法即可,传入参数为js方法

7）获取节点信息

获取属性 .get_attribute()

获取文本值 .get_text()

获取id、位置、标签名和大小

.id .location .tag_name .size

8）切换Frame

switch_to.frame()

Selenium打开页面后，默认在父级Frame中进行操作，如果页面中存在子Frame，则不能获取到子Frame中的节点

9）延时等待

隐式等待

　　如果Sekenium没有在DOM中找到节点，将继续等待，超出设定时间后，则抛出找不到节点的异常。

　　.implicitly_wait()

显式等待

　　指定要找到的节点，然后指定一个最长等待时间。如果在规定时间内加载出来了这个节点，就返回查找的节点；如果到了规定时间依然没有加载出该节点，则抛出异常

　　WebDriverWait().until(expected_conditions.presence_of_element_located(()))

10）Cookies

　　使用Selenium,可以方便地对Cookies进行操作

　　.get_cookies() 获取cookie

　　.add_cookie() 添加cookie

　　.dele_all_cookies() 删除所有cookie

爬虫之Selenium 动态渲染页面爬取的更多相关文章

爬虫动态渲染页面爬取之selenium驱动chrome浏览器的使用
Selenium是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样,可以用其进行网页动态渲染页面的爬取. 支持的浏览器包括IE(7, 8, 9, 10 ...
爬虫动态渲染页面爬取之Splash的介绍和使用
Splash是一个JavaScript渲染服务,是一个带有HTTP API的轻量级浏览器,同时它对接了Python中的Twisted和QT库.利用它,我们同样可以实现动态渲染页面的抓取. 1. 功能介 ...
动态渲染页面爬取（Python 网络爬虫） ---Selenium的使用
Selenium 的使用 Selenium 是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击.下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬.对于一些JavaS ...
动态渲染页面爬取-Selenium & Splash
模拟浏览器的动机 JS动态渲染的页面不止Ajax一种很多网页的Ajax接口含有加密参数,分析其规律的成本过高通过对浏览器运行方式的模拟,我们将做到:可见即可爬 Python中常用的模拟浏览器运行的 ...
python3编写网络爬虫14-动态渲染页面爬取
一.动态渲染页面爬取上节课我们了解了Ajax分析和抓取方式,这其实也是JavaScript动态渲染页面的一种情形,通过直接分析Ajax,借助requests和urllib实现数据爬取但是javaS ...
[Python3网络爬虫开发实战] 7-动态渲染页面爬取
在前一章中,我们了解了Ajax的分析和抓取方式,这其实也是JavaScript动态渲染的页面的一种情形,通过直接分析Ajax,我们仍然可以借助requests或urllib来实现数据爬取. 不过Jav ...
第十五节：Web爬虫之selenium动态渲染爬取
selenium是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firef ...
【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
爬虫系列5：scrapy动态页面爬取的另一种思路
前面有篇文章给出了爬取动态页面的一种思路,即应用Selenium+Firefox(参考<scrapy动态页面爬取>).但是selenium需要运行本地浏览器,比较耗时,不太适合大规模网页抓 ...

随机推荐

postgresql 游标，函数，存储过程使用例子
CREATE OR REPLACE FUNCTION cursor_demo() RETURNS refcursor AS --返回一个游标 $BODY$ declare --定义变量及游标 unbo ...
h5课件是什么？h5（html5）怎样实现交互动画开发？-----浅谈h5交互动画课件的优势
目前很多交互课件,尤其幼儿类的交互课件以动画和交互相结合的类型居多,越来越多的教育机构发现了这种课件对于幼儿的吸引力远大于其他类型的课件,随着flash逐渐被市场淘汰,动画和交互相结合的html5跨平 ...
Linux运维小知识
自己日常用到的命令稍微备份一下: 版本确认 CentOS / RedHat Enterprise cat /etc/redhat-release Ubuntu cat /etc/lsb-release ...
mysql循环插入千万级数据
mysql使用存储过程循环插入大量数据,简单的一条条循环插入,效率会很低,需要考虑批量插入. 测试准备: 1.建表: CREATE TABLE `mysql_genarate` ( `id` ) NO ...
ubuntu16.04 HyperLedger Fabric 1.2.0 开发环境搭建
安装准备 1. 安装git.cRUL.gcc/g++和make $ sudo apt-get update $ sudo apt-get install build-essential git cur ...
multipart/form-data和application/x-www-form-urlencoded区别
FORM元素的enctype属性指定了表单数据向服务器提交时所采用的编码类型.例如: application/x-www-form-urlencoded: 窗体数据被编码为名称/值对.这是标准的编码格 ...
vue 路由别名路由跳转
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
2018-2019-2 20165312《网络攻防技术》Exp2 后门原理与实践
2018-2019-2 20165312<网络攻防技术>Exp2 后门原理与实践课上知识点梳理总结 1.后门的概述后门是指不经过正常认证流程而访问系统的通道两个关键词:未认证.隐通道 ...
如何通过dba_hist_active_sess_history分析数据库历史性能问题
背景在很多情况下,当数据库发生性能问题的时候,我们并没有机会来收集足够的诊断信息,比如system state dump或者hang analyze,甚至问题发生的时候DBA根本不在场.这给我们诊断问 ...
Windows下安装ZooKeeper
Windows下安装ZooKeeper 一.简介 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组 ...

爬虫之Selenium 动态渲染页面爬取

爬虫之Selenium 动态渲染页面爬取的更多相关文章

随机推荐

热门专题