python爬虫selenium相关
首先上很好用的selenium中文文档,基本上所有问题都能通过阅读此文档解决。可惜好像没找到翻译者名称。
https://python-selenium-zh.readthedocs.io/zh_CN/latest/
安装selenium库以及配置环境
安装就是正常的pip install selenium即可,重点在于配置浏览器驱动。
selenium支持控制chrome,firefox,ie等浏览器,当然也可以反过来说这些浏览器支持被selenium控制。但需要各自配套的浏览器驱动,并且浏览器驱动版本必须和自己安装的浏览器版本同代(比如76.2和76.0.1都是76这样子)。
个人推荐使用chrome,因为文档中给出了chrome的各版本驱动下载链接不用麻烦去找了(https://python-selenium-zh.readthedocs.io/zh_CN/latest/7.6%20%E6%B5%8F%E8%A7%88%E5%99%A8%E9%A9%B1%E5%8A%A8/)。
不过如果真用chrome的话,最好还是翻到官网下推荐的稳定驱动版本(https://sites.google.com/a/chromium.org/chromedriver/downloads)
下载前先在chrome的设置-关于Chrome里找到chrome版本,如图中就是80.0.3987.163:

之后就是在那个链接里找到最接近的版本,浏览器版本对浏览器驱动版本向下兼容(也就是说选择80.0.3987.106的稳定驱动版本是可以运行的)
使用selenium
虽然有开头那个文档就够了,不过大概写一些吧。
1.基本
用browser=webdriver.chrome()就能获得一个chrome浏览器的控制柄类似的实例,其它浏览器同理。
之后用browser.get("website")就能真正地打开一个浏览器窗口,也可以不开,同样只需要对browser设置一下即可。
比较好用的是selenium可以执行javascript代码,实现上滑页面下拉页面之类的。大致用法就是browser.execute_script("js代码")。
用于控制鼠标位置的控制链最开始用起来有点玄学,但基本上按照:定义控制链-定位元素位置-移动鼠标到目标位置-执行点击-perform这个步骤来就不会出错了。代码上的话就类似如下:
# action为行为控制链对象实例
actions=ActionChains(browser)
target=browser.find_element_by_xpath("XPath")
actions.move_to_element(target)
actions.click()
actions.perform()
2.一定要注意驱动版本和浏览器版本对应。如果报错“Unknown Error:call function result missing 'value' ”,就很有可能是因为版本不匹配导致的!
3.如果进行某种操作过后,比如控制鼠标点击了某button,页面的各元素会发生变化的话,这时候就不能再使用同一个actions继续操作页面了,要新定义一个控制链实例。如果报错“stale element reference: element is not attached to the page document”,就要考虑可能是这个原因导致了问题。
4.很多时候光是selenium无法完成所有工作,还是要自己写一些工具类脚本配合使用。又以及和其它库,如BeautifulSoup,urljoin(用来合并相对路径和绝对路径!究极好用!)的联合使用。
python爬虫selenium相关的更多相关文章
- python爬虫---selenium库的用法
python爬虫---selenium库的用法 selenium是一个自动化测试工具,支持Firefox,Chrome等众多浏览器 在爬虫中的应用主要是用来解决JS渲染的问题. 1.使用前需要安装这个 ...
- [Python爬虫] Selenium实现自动登录163邮箱和Locating Elements介绍
前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索"Eastmount"关键字及截图的功能.而这篇文章主要简单介绍如何实现自动登录163邮箱,同时 ...
- [Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论
前面几篇文章介绍了Selenium.PhantomJS的基础知识及安装过程,这篇文章是一篇应用.通过Selenium调用Phantomjs获取CSDN下载资源的信息,最重要的是动态获取资源的评论,它是 ...
- [Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒
前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒,同样可以通过Spider获取网站内容,最近学习了Selenium+Phantomjs后,准备利用它们获取百度百科的旅游景点消息盒(I ...
- [Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍 源码下载地址:http://download.csdn.net/ ...
- [python爬虫] Selenium常见元素定位方法和操作的学习介绍
这篇文章主要Selenium+Python自动测试或爬虫中的常见定位方法.鼠标操作.键盘操作介绍,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~同时CSDN总是屏蔽这篇文章,再加上最近 ...
- [python爬虫] Selenium常见元素定位方法和操作的学习介绍(转载)
转载地址:[python爬虫] Selenium常见元素定位方法和操作的学习介绍 一. 定位元素方法 官网地址:http://selenium-python.readthedocs.org/locat ...
- Python爬虫-selenium的使用(2)
使用selenium打开chrome浏览器百度进行搜索 12345678910111213141516171819202122232425 from selenium import webdriver ...
- [python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈
我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的.首先通过这篇文章,你能学到以下几点: 1.可以了解Python简单爬取图片的一些思路和方法 ...
随机推荐
- 关于.NET中的控制反转(二)- 依赖注入之 MEF
一.MEF是什么 Managed Extensibility Framework (MEF) 是用于创建可扩展的轻量级应用程序的库. 它让应用程序开发人员得以发现和使用扩展且无需配置. 它还让扩展开发 ...
- CentOS8_在线安装_网络源_网络镜像源填写格式_以及其他笔记
CentOS8_在线安装_网络源_网络镜像源填写格式_以及其他笔记 转载注明来源: 本文链接 来自osnosn的博客,写于 2020-10-1. 参考: Centos8.0.1905 在线安装源选择 ...
- 解决黑群晖"抱歉,您所指定的页面不存在"-记一次黑群晖修复案例
起因 搞了一个usb外接硬盘准备备份数,刚好看到群晖有个工具软件"USB Copy". 安装后设置拷贝docker文件夹,然后就悲剧了,nas主页抛出提示 一开始也是直接网上搜索标 ...
- 紧急预警】关于爆发的 incaseformat 病毒事件亲身体验
相关报道 incaseformat病毒 360安全卫士服务号 https://mp.weixin.qq.com/s/KM6esd1eUlBt-YHtEwnfuw 广东省网络安全应急响应平台 https ...
- python3实现计算器
实验内容 1.简单计算器的设计 请设计简单的"加减乘除"计算器并从键盘上输入数据进行计算 数字的加减乘除,input返回的结果是str类型的,通过截取字符串中的运算符,来提取数字, ...
- Android事件分发机制一:事件是如何到达activity的?
事件分发,真的一定从Activity开始吗? 前言 很高兴遇见你~ 事件分发,android中一个老生常谈的话题了.基本的流程我们也都知道是从Activity开始分发,但有一个关键问题是:事件是如何到 ...
- Mysql数据类型以及特性,,,防止SQL注入
MyISAM.InnoDB.HEAP.BOB,ARCHIVE,CSV等 MyISAM:成熟.稳定.易于管理,快速读取.一些功能不支持(事务等),表级锁. InnoDB:支持事务.外键等特性.数据行锁定 ...
- 【Linux】如何查找命令及历史记录history
如何查找命令及历史记录 文章目录 如何查找命令及历史记录 1.如何找到一个命令 2.命令的历史记录 3.一些实用的快捷键 4.小结 5.参考资料 如何找到一个命令.命令的历史记录.一些实用的快捷键.总 ...
- 【Oracle】sum(..) over(..)用法分析
今天再看sql优化详解的时候,提到了一个sum(..) over(..) 于是自己实验并在网上找了相关的一些文章来看 下面创建一张表: create sequence xulie increment ...
- 【ORA】 ORA-01031:权限不足的问题
今天创建一个用户,赋予dba权限,在plsql中选择sysdba登录,但是报错 ORA-01031 在网上找了好久最后的解决办法是 不仅仅要有dba权限 还要有这个权限: grant all priv ...