Python爬虫之用Selenium做爬虫

我们在用python做爬虫的时候，除了直接用requests的架构，还有Scrapy、Selenium等方式可以使用，那么今天我们就来聊一聊使用Selenium如何实现爬虫。

Selenium是什么？

Selenium是一个浏览器自动化测试框架，是一款用于Web应用程序测试的工具。框架底层使用JavaScript模拟真实用户对浏览器进行操作。测试脚本执行时，浏览器自动按照脚本代码做出点击，输入，打开，验证等操作，就像真实用户所做的一样，从终端用户的角度测试应用程序。使浏览器兼容性测试自动化成为可能，尽管在不同的浏览器上依然有细微的差别。使用简单，可使用Java，Python等多种语言编写用例脚本。（百度百科）

如何使用Selenium？

首先下载Selenium这个库，pip install selenium。接着查看Selenium支持的浏览器，这里就使用都会有的chrome谷歌浏览器，如果想要查看能用什么浏览器可以使用下面这些代码，就可以看到支持的浏览器和版本：

from selenium import webdriver

help(webdriver)

然后再对应着浏览器的版本找相应的浏览器驱动。

驱动的位置一定要放在没有中文字符的文件夹中，好这个地址，有用。

使用Selenium主要是调用它的webdriver模块，具体操作如下：

from selenium import webdriver

path = '/Users/14163/Downloads/chromedriver_win32/chromedriver.exe'#这里是保存的驱动的位置

browser = webdriver.Chrome(executable_path=path)  #初始化驱动对象

browser.get('http://www.baidu.com')        #获取url

print(browser.page_source)                #输出获取到的文件数据

browser.close()                          #关闭浏览器

结果：

再对比一下requests获取的网页的数据：

很明显selenium能获取得到的内容更多selenium有相应的函数去查找数据，单个元素的三种不同的方式去获取响应的元素，第一种是通过id的方式，第二个中是CSS选择器，第三种是xpath选择器，结果都是相同的。

这里是按id去查找，可以加text或者tag获取里面的内容。

或者可以调用另一个库去获取id，By

先导入库：

from selenium.webdriver.common.by import By

这样就可以获取网页的数据。

这些只是获取一个元素的，可以获取多个元素加用find_elements即可。

交互操作：

对网页进行操作，比如在百度的搜索框输入孤独的s，然后点击搜索就可以这样：

按以下代码：

from selenium import webdriver

from selenium.webdriver.common.by import By

import time

path = '/Users/14163/Downloads/chromedriver_win32/chromedriver.exe'

browser = webdriver.Chrome(executable_path=path)

browser.get('http://www.baidu.com')

input_first = browser.find_element(By.ID,"kw")

print(input_first)

input_first.send_keys("孤独")

time.sleep(0.1)

button = browser.find_element_by_class_name('s_btn_wr')  #这里获取百度搜索的那个按钮

button.click()# 点击

结果：

在chrome中想要找到对应的按钮的元素或者id，可以点击红圈这个，然后再去移动去原网页，就可以知道结果：

不得不说，selenium真便利。

Python爬虫之用Selenium做爬虫的更多相关文章

selenium+phantomJS爬虫，适用于登陆限制强，点触验证码等一些场景
selenium是非常出名的自己主动化測试工具,多数场景是測试project师用来做自己主动化測试,可是相同selenium能够作为基本上模拟浏览器的工具,去爬取一些基于http request不能或 ...
python爬虫动态html selenium.webdriver
python爬虫:利用selenium.webdriver获取渲染之后的页面代码! 1 首先要下载浏览器驱动: 常用的是chromedriver 和phantomjs chromedirver下载地址 ...
PYTHON 爬虫笔记七:Selenium库基础用法
知识点一:Selenium库详解及其基本使用什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium ...
Python爬虫之设置selenium webdriver等待
Python爬虫之设置selenium webdriver等待 ajax技术出现使异步加载方式呈现数据的网站越来越多,当浏览器在加载页面时,页面上的元素可能并不是同时被加载完成,这给定位元素的定位增加 ...
小白学 Python 爬虫（40）：爬虫框架 Scrapy 入门基础（七）对接 Selenium 实战
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
Python3.0版本从听说python可以做爬虫到自己第一成功做出爬虫的经历
前言我自己是个python小白,工作也不是软件行业,但是日常没事时喜欢捣鼓一些小玩意,自身有点C语言基础. 听说python很火,可以做出爬虫去爬一些数据图片视频之类的东东,我的兴趣一下子就来了.然 ...
Python使用selenium进行爬虫（一）
JAVA爬虫框架很多,类似JSOUP,WEBLOGIC之类的爬虫框架都十分好用,个人认为爬虫的大致思路就是: 1.挑选需求爬的URL地址,将其放入需求网络爬虫的队列,也可以把爬到的符合一定需求的地址放 ...
(转)Python新手写出漂亮的爬虫代码2——从json获取信息
https://blog.csdn.net/weixin_36604953/article/details/78592943 Python新手写出漂亮的爬虫代码2——从json获取信息好久没有写关于爬 ...
(转)Python新手写出漂亮的爬虫代码1——从html获取信息
https://blog.csdn.net/weixin_36604953/article/details/78156605 Python新手写出漂亮的爬虫代码1初到大数据学习圈子的同学可能对爬虫都有 ...
小白学 Python 爬虫（9）：爬虫基础
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...

随机推荐

MinGW、Linux GNU、MSVC编译和链接动态库的分析
这几天研究CMake跨平台项目嘛,用了以下几种编译器: VS2019(MSVC) Linux GNU MinGW 编译之后发现链接动态库发现以下问题: VS2019中如果直接链接CMakeLists. ...
maven静态资源过滤
<resources> <resource> <directory>src/main/java</directory> <includes> ...
cudnn Backend API注意事项
一.在包含多个节点的图中,不支持in-place node.(如果图只包含一个节点,支持in-place node) Note that graphs with more than one opera ...
C# DateTime转换为字符串
12小时制:DateTime.Now.ToString("yyyy-MM-dd hh:mm:ss") 24小时制:DateTime.Now.ToString("yyyy- ...
react backend and frontend download file
import { View as ViewFile} from '@/api/SafetyRule'; const Handler_DownLoadFile = (Id:number,IsEngli ...
linux 中sed命令如何删除第一列和最后一列
删除第一列 (base) root@PC1:/home/test# cat test.txt1 MIR1302-10 12 FAM138A 23 OR4F5 34 RP11-34P13.7 45 RP ...
JS数组的交集与差集
有两个数组arr1,arr2 实现arr2中去除arr1相同的元素 e.g arr1=[1,2,3] arr2=[2,3,4] ===> result = [4] 实现获取两个数组(arr1, ...
学习汇报7 hdfs集群角色属性
主从角色 namenode : 核心,架构中的主角色管理和维护文件系统的元数据,包括目录树结构.文件和块的位置信息.访问权限等信息 namenode是访问hdfs的唯一入口仅存储元数据知道hdf ...
bigdecimal 比较大小、bigdecimal 数学运算、bigdecimal 精度
创建 BigDecimal 建议使用 public BigDecimal(String val),使用 number 参数可能会有精度问题设置精度 setScale(3, BigDecimal.RO ...
noi 1.1 5 输出保留12位小数的浮点数
描述读入一个双精度浮点数,保留12位小数,输出这个浮点数. 输入只有一行,一个双精度浮点数. 输出也只有一行,保留12位小数的浮点数. 样例输入 3.1415926535798932 样例输出 ...

Python爬虫之用Selenium做爬虫

Python爬虫之用Selenium做爬虫的更多相关文章

随机推荐

热门专题