Python 爬虫利器 Selenium

前面几节，我们学习了用 requests 构造页面请求来爬取静态网页中的信息以及通过 requests 构造 Ajax 请求直接获取返回的 JSON 信息。

还记得前几节，我们在构造请求时会给请求加上浏览器 headers,目的就是为了让我们的请求模拟浏览器的行为，防止被网站的反爬虫策略限制。今天要介绍的 Selenium 是一款强大的工具，它可以控制我们的浏览器，这样一来程序的行为就和人类完全一样了。

通过使用 Selenium 可以解决几个问题：

页面内容是由 JavaScript 动态生成，通过 requests 请求页面无法获取内容。
爬虫程序被反爬虫策略限制
让程序的行为和人一样

安装

pip install selenium
安装浏览器驱动

驱动下载地址

下载后把驱动文件加入环境变量。或者直接把驱动文件和 Python脚本放到同一文件夹下面
测试

安装完成后，可以编写以下脚本来测试是否安装成功。
```
from selenium import webdriver

driver = webdriver.Chrome()  # 创建一个 Chrome WebDriver 实例

driver.get('https://www.baidu.com/')  # 打开网址
```
运行后会发现程序自动打开了 Chrome 浏览器，并且定向到了百度首页。
与页面交互

WebDriver定义了很多方法，我们可以很方便的操作页面上的元素

比如获取元素，可以通过 driver.find_element_by_id("id")或者driver.find_element_by_name("name")以及 xpath路径的方式来获取元素。可以通过send_keys 向输入框中写入文本。
```
from selenium import webdriver

driver = webdriver.Chrome()

driver.get('https://www.baidu.com/')

search_input = driver.find_element_by_id("kw") # 获取到百度搜索框

search_input.send_keys("刘亦菲")  # 自动输入 刘亦菲

submit = driver.find_element_by_id("su")  # 获取到百度一下按钮

submit.click()  # 点击搜索
```
运行以上脚本，程序会自动打开 Chrome 浏览器，并自动搜索刘亦菲
其他操作

Selenium 可以进行各种各样的操作，使程序完全符合人类的操作习惯。下面看一下还有哪些功能。

具体可以看官方文档，这里贴一下地址

[https://selenium-python-zh.readthedocs.io/en/latest/index.html](https://selenium-python-zh.readthedocs.io/en/latest/index.html)

Python 爬虫利器 Selenium的更多相关文章

Python 爬虫利器 Selenium 介绍
Python 爬虫利器 Selenium 介绍转 https://mp.weixin.qq.com/s/YJGjZkUejEos_yJ1ukp5kw 前面几节,我们学习了用 requests 构造页 ...
python爬虫利器Selenium使用详解
简介: 用pyhon爬取动态页面时普通的urllib2无法实现,例如下面的京东首页,随着滚动条的下拉会加载新的内容,而urllib2就无法抓取这些内容,此时就需要今天的主角selenium. Sele ...
(转)Python爬虫利器一之Requests库的用法
官方文档以下内容大多来自于官方文档,本文进行了一些修改和总结.要了解更多可以参考官方文档安装利用 pip 安装 $ pip install requests 或者利用 easy_install ...
[Python爬虫]使用Selenium操作浏览器订购火车票
这个专题主要说的是Python在爬虫方面的应用,包括爬取和处理部分 [Python爬虫]使用Python爬取动态网页-腾讯动漫(Selenium) [Python爬虫]使用Python爬取静态网页-斗 ...
Python爬虫利器二之Beautiful Soup的用法
上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Be ...
Python爬虫之selenium的使用（八）
Python爬虫之selenium的使用一.简介二.安装三.使用一.简介 Selenium 是自动化测试工具.它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏 ...
python 爬虫利器 Beautiful Soup
python 爬虫利器 Beautiful Soup Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文 ...
Python爬虫利器六之PyQuery的用法
前言你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有 ...
Python爬虫利器一之Requests库的用法
前言之前我们用了 urllib 库,这个作为入门的工具还是不错的,对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助.入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取.那么这一节来 ...

随机推荐

OPPO A3在哪里打开usb调试模式的详细教程
当我们使用电脑通过数据线连接上安卓手机的时候,如果手机没有开启Usb开发者调试模式,电脑则无办法成功读到我们的手机,这时我们需要找方法将手机的Usb开发者调试模式打开,这里我们叙述OPPO A3如何开 ...
【算法】CRF(条件随机场)
CRF(条件随机场) 基本概念场是什么场就是一个联合概率分布.比如有3个变量,y1,y2,y3, 取值范围是{0,1}.联合概率分布就是{P(y2=0|y1=0,y3=0), P(y3=0|y1= ...
spring MVC 项目 WEB-INF下的jsp不能加载css文件
一.项目目录二.解决方法(已解决) 1. jsp文件加入 <link href="<c:url value="/css/main.css" />&qu ...
PowerDesigner15连接Oracle数据库并导出Oracle的表结构
PowerDesigner连接Oracle数据库,根据建立的数据源进行E-R图生成.详细步骤如下: 1.启动PowerDesigner 2.菜单:File->Reverse Engineer - ...
原生JS插件（超详细）
作为一个前端er,如果不会写一个小插件,都不好意思说自己是混前端界的.写还不能依赖jquery之类的工具库,否则装得不够高端.那么,如何才能装起来让自己看起来逼格更高呢?当然是利用js纯原生的写法啦. ...
.NET英文技术文章导读(2017-03-23)
关键字:VS2017.扩展.Service Fabric.Unit Test.ELMAH Web开发人员必装的5个VS2017扩展作者:Jeffrey T. Fritz 链接:https://blo ...
haproxy快速安装
haproxy是一款提供负载均衡的代理服务器,它可基于modetcp 实现伪四层调度,还可以基于modehttp实现七层调度,类似于nginx,因为他没有web服务所以不像nginx那样进行控制. 通 ...
有意思的算法题：有10个文件，每个文件大概有10G，求里面最大的100个数；
算法思路 1: 第一个阶段:对于单个10G文件而言 1. 初始化:先取100个数,构建最小堆: 开始比较: 2. 取一个数 A,与最小堆的根节点进行比较: 3. 如果 A > 最小堆根节点,则替 ...
MySQL系列
目录: 一.初识数据库二.库相关操作三.表相关操作四.记录相关操作五.数据备份.pymysql模块六.视图.触发器.事务.存储过程.函数七.ORM框架SQLAlchemy 八.索引原理与慢 ...
Spring-Docker简易指南
使用代码:https://files.cnblogs.com/files/miracle9527/demo4springboot.rar # 约定#为注释行.$为命令行 # 开始操作前将demo4s ...

Python 爬虫利器 Selenium

Python 爬虫利器 Selenium的更多相关文章

随机推荐

热门专题