【BOOK】动态渲染页面爬取--Selenium库

动态渲染页面爬取

JavaScript动态渲染

其中一种方式是Ajax请求，通过直接分析Ajax再用requests来实现数据爬取

另外一种方式是模拟浏览器运行

一、 Selenium库

Selenium是自动化测试工具，可以驱动浏览器执行特定动作(点击、下拉)，还可以获取浏览器当前呈现页面的源代码，可见即可爬

1、模拟 Chrome浏览器，一定要先配置chromedriver

（1）先查看Chrome版本，在浏览器中输入chrome://version/

（2）下载地址：https://npm.taobao.org/mirrors/chromedriver/

　　　下载与浏览器同版本的chromedriver

　　将下载的chromedriver复制到安装的Chrome文件夹下

(3) 配置环境变量

将Chrome目录复制到PATH内

（4）测试是否安装成功

2、小小实例，模拟Chrome浏览器，访问百度，搜索‘selenium’

from selenium import webdriver
from selenium.webdriver.common.by import By

from selenium.webdriver.common.keys import Keys

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait


##chromedriver的目录

chrome_driver=r'C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe'

browser = webdriver.Chrome(executable_path=chrome_driver)

browser.get('http://www.baidu.com')

input = browser.find_element_by_id('kw')

input.send_keys('selenium')

input.send_keys(Keys.ENTER)

wait = WebDriverWait(browser, 10)

wait.until(EC.presence_of_all_elements_located((By.ID, 'content_left')))

print(browser.current_url)

print(browser.get_cookies())

print(browser.page_source)

运行结果：浏览器自动打开，进入百度，然后搜索

输出当前的URL、Cookies、源代码等等

报错：FileNotFoundError: [WinError 2] 系统找不到指定的文件

打开报错提示中subprocess.py

找到 __init__函数中的shell = False 改成shell = True

3、声明浏览器对象

from selenium import webdriver

## 浏览器对象初始化并赋值给 browser 对象

## selenium支持各种浏览器

browser = webdriver.Chrome()

browser = webdriver.Firefox()

browser = webdriver.Edge()

browser = webdriver.Ie()

## 还支持无界面浏览器

browser = webdriver.PhantomJS()

## 支持手机端浏览器

browser = webdriver.Android()

browser = webdriver.BlackBerry()

browser = webdriver.Safari()

4、访问页面

from selenium import webdriver

# 浏览器对象初始化并赋值给 browser 对象

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

## 输出淘宝页面的源代码

print(browser.page_source)

browser.close()

5、查找节点

①获取单个节点的方法

## 查找单个节点

## 查找淘宝首页的搜索框

## <input id="q" name="q" aria-label="请输入搜索文字" accesskey="s" autofocus="autofocus" autocomplete="off" class="search-combobox-input" aria-haspopup="true" aria-combobox="list" role="combobox" x-webkit-grammar="builtin:translate">

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

## find_element_by_id() 根据 id 获取

input_first = browser.find_element_by_id('q')

## find_element_by_name() 根据 name 获取

input_second = browser.find_element_by_name('q')

## CSS选择器获取

input_third = browser.find_elements_by_css_selector('#q')

## XPath选择器获取

input_forth = browser.find_element_by_xpath('//*[@id="q"]')

## 4个查找结果相同

## 返回结果为 WebElement 类型

print(input_first, input_second, input_third, input_forth)

browser.close()

　　find_element(查找方式By , 值)

from selenium import webdriver

from selenium.webdriver.common.by import By

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

## find_element(By.ID, 'q') 等价于 browser.find_element_by_id('q')

input_first = browser.find_element(By.ID, 'q')

print(input_first)

browser.close()

　　②获取多个节点的方法

　　find_element()只能返回第一个结果

　　find_elements()只能返回查找到的所有结果，返回列表类型

from selenium import webdriver

from selenium.webdriver.common.by import By

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

## 返回查找到的所有结果， 列表类型

lis = browser.find_elements_by_css_selector('.service-bd li')

print(lis)

browser.close()

list = browser.find_elements(By.CSS_SELECTOR, '.service-bd li')

print(list)

6、节点交互

　　Selenium可以驱动浏览器执行一些操作

　　※输入文字 send_key( )

　　※清空文字 clear( )

　　※点击按钮 click( )

from selenium import webdriver

import time

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

## 获取搜索输入框

input = browser.find_element_by_id('q')

## 输入 'T恤' 关键字进

input.send_keys('T恤')

time.sleep(1)

## 清空搜索框

input.clear()

## 输入 '连衣裙' 关键字

input.send_keys('连衣裙')

botton = browser.find_element_by_class_name('btn-search')

## 点击搜索按钮，完成搜索

botton.click()

7、动作链ActionChains：鼠标拖拽、键盘按键等

## 实现模拟鼠标拖拽

from selenium import webdriver

from selenium.webdriver import ActionChains

browser = webdriver.Chrome()

url = 'https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'

browser.get(url)

browser.switch_to.frame('iframeResult')

source = browser.find_element_by_css_selector('#draggable')

target = browser.find_element_by_css_selector('#droppable')

actions = ActionChains(browser)

actions.drag_and_drop(source, target)

actions.perform()

8、执行JavaScript

Selenium API 没有提供的功能，都可以用执行JavaScript 来实现

比如：下拉进度条

# 模拟下拉进度条

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.zhihu.com/explore')

##  execute_script()方法将进度条拖至最底部

browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')

##  弹出alert提示框

browser.execute_script('alert("To Bottom")')

运行结果：　　

9、获取节点信息

page_source可以获得页面源代码，再用解析库来提取信息

但Selenium提供了选择节点的方法，返回WebElement类型，就可以不用解析库进行解析

from selenium import webdriver

from selenium.webdriver import ActionChains

browser = webdriver.Chrome()

browser.get('https://www.zhihu.com/explore')

## 获取属性 get_attribute()

col = browser.find_element_by_id('collection')

print(col.get_attribute('class'))

## 获取文本值 text

input = browser.find_element_by_css_selector('.ExploreRoundtableCard-questionTitle')

print(input.text)

## 获取id等其他属性值

print(input.id)

print(input.location)

print(input.tag_name)

print(input.size)

10、切换 Frame

switch_to.frame()

import time

from selenium import webdriver

from selenium.common.exceptions import NoSuchElementException

browser = webdriver.Chrome()

browser.get('https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')

## 切换到 子Frame

browser.switch_to.frame('iframeResult')

try:

    logo = browser.find_element_by_class_name('logo')

except NoSuchElementException:

    print('No logo')

## 切换到 父Frame

browser.switch_to.parent_frame()

logo = browser.find_element_by_class_name('logo')

print(logo)

print(logo.text)

11、延时等待

Selenium中，get()方法在网页框架加载结束后执行，但是有些额外的Ajax请求可能没有加载完，需要延时等待一段时间，确保节点全部加载。

※隐式等待

如果没有找到指定节点，则继续等待设定时间，超出设定时间抛出异常

implicitly_wait()

from selenium import webdriver

browser = webdriver.Chrome()

## 隐式等待 10s

browser.implicitly_wait(10)

browser.get('https://www.zhihu.com/explore')

input = browser.find_element_by_class_name('App-main')

print(input)

※显式等待【比隐式好一点】　　

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

## 设定最长等待时间

wait = WebDriverWait(browser, 10)

## 10s内 ID为 q 的节点成功加载，则返回该节点，否则抛出异常

input = wait.until(EC.presence_of_element_located((By.ID, 'q')))

## 10s该按钮是可点击的，就返回这个按钮，否则抛出异常

button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search')))

print(input, button)

12、前进和后退

## 前进和后退

import time

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.baidu.com')

browser.get('https://www.taobao.com')

browser.get('https://www.zhihu.com')

## 后退

browser.back()

time.sleep(5)

## 前进

browser.forward()

browser.close()

13、对cookies进行操作：获取、添加、删除cookies

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.zhihu.com/explore')

## get_cookies()获取所有cookies

print(browser.get_cookies())

## 以字典形式添加新的 cookies

browser.add_cookie({'name':'name', 'domain':'www.zhihu.com', 'value':'germey'})

print(browser.get_cookies())

## 删除所有 cookies

browser.delete_all_cookies()

print(browser.get_cookies())

14、选项卡管理

# 对选项卡进行操作

import time

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('https://www.baidu.com')

## window.open()  JavaScript语句新开启一个选项卡

browser.execute_script('window.open()')

print(browser.window_handles)

## 切换到新的选项卡

browser.switch_to_window(browser.window_handles[1])

browser.get('https://www.taobao.com')

time.sleep(1)

## 切换到第一个选项卡

browser.switch_to_window(browser.window_handles[0])

browser.get('https://python.org')

15、异常处理

## 节点未找到节点

from selenium import  webdriver

from selenium.common.exceptions import TimeoutException, NoSuchElementException

browser = webdriver.Chrome()

try:

    browser.get('https://www.baidu.com')

except TimeoutException:

    print('超时')

try:

    browser.find_element_by_id('hello')

except NoSuchElementException:

    print('未找到指定节点')

finally:

    browser.close()

【BOOK】动态渲染页面爬取--Selenium库的更多相关文章

动态渲染页面爬取-Selenium & Splash
模拟浏览器的动机 JS动态渲染的页面不止Ajax一种很多网页的Ajax接口含有加密参数,分析其规律的成本过高通过对浏览器运行方式的模拟,我们将做到:可见即可爬 Python中常用的模拟浏览器运行的 ...
爬虫动态渲染页面爬取之selenium驱动chrome浏览器的使用
Selenium是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样,可以用其进行网页动态渲染页面的爬取. 支持的浏览器包括IE(7, 8, 9, 10 ...
爬虫动态渲染页面爬取之Splash的介绍和使用
Splash是一个JavaScript渲染服务,是一个带有HTTP API的轻量级浏览器,同时它对接了Python中的Twisted和QT库.利用它,我们同样可以实现动态渲染页面的抓取. 1. 功能介 ...
动态渲染页面爬取（Python 网络爬虫） ---Selenium的使用
Selenium 的使用 Selenium 是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击.下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬.对于一些JavaS ...
爬虫之Selenium 动态渲染页面爬取
Selenim 是一个自动化测试工具,可以利用它驱动浏览器执行特定的动作,如点击.下拉等操作,同时可以获取浏览器当前呈现的页面的源代码,做到可见及可爬 1.使用流程 1)声明浏览器对象 Seleniu ...
python3编写网络爬虫14-动态渲染页面爬取
一.动态渲染页面爬取上节课我们了解了Ajax分析和抓取方式,这其实也是JavaScript动态渲染页面的一种情形,通过直接分析Ajax,借助requests和urllib实现数据爬取但是javaS ...
[Python3网络爬虫开发实战] 7-动态渲染页面爬取
在前一章中,我们了解了Ajax的分析和抓取方式,这其实也是JavaScript动态渲染的页面的一种情形,通过直接分析Ajax,我们仍然可以借助requests或urllib来实现数据爬取. 不过Jav ...
爬虫系列5：scrapy动态页面爬取的另一种思路
前面有篇文章给出了爬取动态页面的一种思路,即应用Selenium+Firefox(参考<scrapy动态页面爬取>).但是selenium需要运行本地浏览器,比较耗时,不太适合大规模网页抓 ...
【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
Python Requests库入门——应用实例-京东商品页面爬取+模拟浏览器爬取信息
京东商品页面爬取选择了一款荣耀手机的页面(给华为打广告了,荣耀play真心不错) import requests url = "https://item.jd.com/7479912.ht ...

随机推荐

C# 前台线程后台线程区别
前台线程会随进程一起结束不管是否完成,后台线程需要执行完毕,进程才能结束例子: class Program { static void Main(string[] args) { Thread ...
多个if...else和switch...case语句的区别和分析
1.场景: 当我们有一个判断条件的时候,显然用if语句比较方便有效. 但当判断条件很多的时候,我们可以使用if语句或者if....eles 语句和switch case 语句. 2.如何选择一般情 ...
Android版本功能
Android 1.0 2008年9月23日,发布Android操作系统中的第一个正式版本:Android 1.0(Astro"铁臂阿童木").全球第一台Android设备HTC ...
4 - 高级加密标准 (AES)
高级加密标准 (AES) 我的博客原书:<Understanding Cryptography: A Text book for Students and Practitioners> ...
linux 挂载移动硬盘
fdisk -l mkdir -p /mnt/usbhd1 mount -t ntfs /dev/sdc1 /mnt/usbhd1 # 挂载 umount /mnt/usbhd1 # 解挂载 http ...
stata基础（十五）——线性回归的基本假定、估计回归系数、拟合系数
一.回归:回归是研究变量间相互关系的方法 1.条件分布:因变量在自变量取不同值时的分布如果因变量在自变量取不同值时的条件分布都相同,那么自变量对因变量没有影响,否则就是有影响. 比较因变量在自变量取 ...
强烈推荐的elasticsearch集群连接工具: elasticvue
个人感觉非常棒的es-cluster连接工具, 检查状态什么的, 一目了然, 支持中文超方便, 比elasticSearchHead好用多了. 安装方法打开微软浏览器edge-商城搜索-Elastic ...
Kafka Reblance & max.poll.interval.ms 重复消费问题
1. 什么是kafka Reblance 消费组是MQ中一个非常重要的概念,一个消费组监听一个Topic时,Kafka服务端会给消费组中的每一个实例,进行队列分配,每一个实例指定消费一个或多个队列(分 ...
看K线学炒股（8.10）
今天大盘看起来疲软但强势的一天,收涨1.01%. 广东骏亚,现价21.39,看尾盘,这只票现在看还有下跌空间,但也有反弹可能,跌到21元以下均价上可加仓,博止跌反弹.现在60分钟线看有点阴雨绵绵的意思 ...
SSR,SSAO
3D Game Shaders For Beginners Screen Space Reflection (SSR)https://lettier.github.io/3d-game-shaders ...

【BOOK】动态渲染页面爬取--Selenium库

【BOOK】动态渲染页面爬取--Selenium库的更多相关文章

随机推荐

热门专题