Selenium笔记（8）常见的坑

本文集链接：https://www.jianshu.com/nb/25338984

用Xpath查找数据时无法直接获取节点属性

通常在我们使用xpath时，可以使用@class的方式直接获取节点的属性，如下所示：

page.xpath('//div/a/@class')

但在Selenium中不支持这种用法，只能在找到节点后，使用get_attribute(name)方法来获取属性：

page.xpath('//div/a').get_attribute('class')

同样的，Selenium同样不支持Xpath中的string()，text()这类的方法，只能获取元素节点。

使用了WebDriverWait以后仍然无法找到元素

有很多时候，一个简单的元素，明明也加了显式等待，但就是找不到，代码在仔细查看过后也没有问题后，多半是以下这几种情况：

由于分辨率设置的原因，查找的元素当前是不可见的。
某些页面的元素是需要向下滚动页面才会加载的。
由于某些其他元素的短暂遮挡，所以无法定位到。

1.分辨率原因

这时候应该设置好分辨率，使当前元素能够显示到页面中。

2.需要滚动页面

有些页面为了性能的考虑，页面下方不在当前屏幕中的元素是不会加载的，只有当页面向下滚动时才会继续加载。

而selenium本身不提供向下滚动的方法，所以我们需要去用JS去滚动页面：

driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")

网上查到的一些滚动方式在Chrome上无效。但这一句是有效的。

3.由于其他元素的遮挡

有时候因为一些弹出元素的原因，如果还使用EC.presence_of_element_located()的话，我们需要定位的元素就无法被找到，这个时候我们就应该改变我们判断元素的方法：

element = WebDriverWait(driver, 10).until(
    EC.visibility_of_element_located((By.XPATH, ''))
)

使用EC.visibility_of_element_located()方法可以在等待到当前元素可见后，才获取元素。

在我们找不到元素，或者跟元素无法交互时，应该多去根据当前的情况，灵活选择显式等待的判断方式。

python爬虫基础14-selenium大全8/8-常见问题的更多相关文章

Python 爬虫的工具列表大全
Python 爬虫的工具列表大全这个列表包含与网页抓取和数据处理的Python库.网络通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pyc ...
Python爬虫基础
前言 Python非常适合用来开发网页爬虫,理由如下: 1.抓取网页本身的接口相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如perl ...
python爬虫动态html selenium.webdriver
python爬虫:利用selenium.webdriver获取渲染之后的页面代码! 1 首先要下载浏览器驱动: 常用的是chromedriver 和phantomjs chromedirver下载地址 ...
python爬虫-基础入门-python爬虫突破封锁
python爬虫-基础入门-python爬虫突破封锁 >> 相关概念 >> request概念:是从客户端向服务器发出请求,包括用户提交的信息及客户端的一些信息.客户端可通过H ...
python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...
python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...
python爬虫-基础入门-爬取整个网站《1》
python爬虫-基础入门-爬取整个网站<1> 描述: 使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数 ...
Python爬虫之设置selenium webdriver等待
Python爬虫之设置selenium webdriver等待 ajax技术出现使异步加载方式呈现数据的网站越来越多,当浏览器在加载页面时,页面上的元素可能并不是同时被加载完成,这给定位元素的定位增加 ...
PYTHON 爬虫笔记七:Selenium库基础用法
知识点一:Selenium库详解及其基本使用什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium ...
小白学 Python 爬虫（14）：urllib 基础使用（四）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...

随机推荐

Windows10家庭版升级至专业版
控制面板--系统里面修改产品密钥即可. 密钥:VK7JG-NPHTM-C97JM-9MPGT-3V66T.(先断网,不然会提示升级失败)
D - Simple String CSU - 1550
http://acm.csu.edu.cn/csuoj/problemset/problem?pid=1550 很久都没补这题,最近想学网络流,就看看,队友以前用网络流过的,Orz, 但是这题只需要简 ...
走进docker的世界之入门篇
by zhouzhipeng from https://blog.zhouzhipeng.com/walk-in-docker-beginning.html本文可全文转载,但需要保留原作者和出处. 什 ...
JavaScript 函数（方法）
1 定义 1.1 函数是由事件驱动的或者当它被调用时执行的可重复使用的代码块. 语法: 函数就是包裹在大括号中的代码块,前面使用了关键词 function function 方法名(参数列表){ 代码 ...
CA、公钥、私钥概要
CA.公钥.私钥概要现在在开发中遇到一个需求,需要使用tls加密技术,之前并没有了解过,这里来做一个关于CA,公钥,密钥的总结,至于怎么生成这儿就不讲了,如果有机会可以再开一个单章来讲一下. 现在 ...
u-boot剖析（一）----Makefile分析
由于u-boot比较庞大,所以我们分开来分析,对于一个大型的项目我们想快速的了解其代码架构和内容,最方便的方法就是分析Makefile,所以我们今天以三星的s3c2440来分析Makefile.我们今 ...
EasyUI：Easyui parser的用法
Easyui的渲染机制是个比较坑的事情,在项目开发中,遇到需要等其渲染完成后处理一些事情,比如为联动的下拉框选中默认值,为某些表单元素自动填充值等!这就需要用到Easyui parser解析器了.官方 ...
Beginning Python Chapter 3 Notes
变量(variable)是储存数据的实体,在Python中也被称为"名称"(name). 1.Python"名称"基本命名法则 1.1) "名称&qu ...
大家一起和snailren学java-(一)对象导论
OOP,是java语言的特性.面向对象思想贯穿整个java开发. 那什么是面向对象呢?什么是对象? 在面向对象设计语言看来,万事万物都为对象.生活中的一个物体,有自己的属性,有自己的活动.比如一辆汽车 ...
C# 使用解析json 嵌套方法
C#从网页不传参数接收json数据 public String GetHtmlFromUrl(String url) { //Response.Write(url); //Response.End( ...

python爬虫基础14-selenium大全8/8-常见问题