记一次使用python的selenium库爬取动态页面内容的经历

安装与配置selenium

安装selenium库

pip install selenium

配置浏览器驱动（本次使用Google Chrome）
1. 打开Chrome，在浏览器的地址栏，输入chrome://version/，回车后即可查看到对应版本
2. 找到对应的chromedriver版本，参考版本选择 | ChromeDriver | Chrome for Developers
3. 下载版本匹配的chromedriver，将其解压并置于自选路径下，将chromedriver.exe所在路径加入环境变量。
验证：

编写并运行以下python文件，若不报错，则基本可认定配置成功：
```
from selenium import webdriver

# Chrome浏览器

driver = webdriver.Chrome()
```

编写脚本

本次实现的是在Openstack Dashboard里寻找符合条件的镜像，并将其下载下来。镜像要求是名称以“1_”开头，且配置了qga。

脚本如下：

from selenium import webdriver

from selenium.common import ElementClickInterceptedException, TimeoutException

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from bs4 import BeautifulSoup

import time

# 设置 webdriver

options = webdriver.ChromeOptions()

# options.add_argument('--headless')  # 无头模式，不打开实际的浏览器窗口

options.add_argument('--ignore-certificate-errors')  # 忽略证书错误

driver = webdriver.Chrome(options=options)

# OpenStack Horizon登录页面URL

login_url = "https://192.168.0.60/horizon/auth/login/"

image_url = "https://192.168.0.60/horizon/project/images/"

may_url = []

username = "your_username"

password = "your_password"

def get_images():

    try:

        # 打开登录页面

        driver.get(login_url)

        # 等待并找到用户名输入框

        WebDriverWait(driver, 10).until(

            EC.presence_of_element_located((By.NAME, "username"))

        )

        # 输入用户名和密码

        driver.find_element(By.NAME, "domain").send_keys("default")

        driver.find_element(By.NAME, "username").send_keys(username)

        driver.find_element(By.NAME, "password").send_keys(password)

        # 提交表单

        driver.find_element(By.XPATH, '//button[@type="submit"]').click()

        # 确认登录成功，等待某个已知会出现在登录成功后的元素，例如导航栏中的一个元素

        WebDriverWait(driver, 10).until(

            EC.presence_of_element_located((By.ID, "main_content"))

        )

        print("登录成功")

        # 访问镜像页面

        driver.get(image_url)

        all_images = []

        processed_image_ids = set()

        while True:

            # 等待页面加载，并确保特定数据行存在

            WebDriverWait(driver, 20).until(

                EC.presence_of_element_located((By.TAG_NAME, "tbody"))

            )

            # 确保表格内容已加载，等待特定行内容出现

            while True:

                rows = driver.find_elements(By.XPATH, "//tbody/tr")

                if len(rows)>=3:

                    break

                time.sleep(1)

            # 获取页面内容

            soup = BeautifulSoup(driver.page_source, 'html.parser')

            rows = soup.find_all('tr', class_='ng-scope')

            # 处理每一行数据

            for row in rows:

                columns = row.find_all('td')

                if len(columns) > 2:  # 确保有足够的列

                    name_column = columns[3].find('a').text.strip().rsplit('.', 1)[0]

                    if name_column.startswith("1_"):

                        link = columns[3].find('a')['href']

                        may_url.append("https://192.168.0.60/horizon/" + link)

            # 检查是否有下一页

            try:

                next_button = WebDriverWait(driver, 20).until(

                    EC.element_to_be_clickable((By.XPATH,

                                                '//span[@ng-hide="currentPage === numPages"]/a[@ng-click="selectPage(currentPage + 1)"]'))

                )

                next_button.click()

            except (ElementClickInterceptedException, TimeoutException) as e:

                print(f"Failed to click the next button: {e}")

                break

        for link in may_url:

            print(link)

            driver.get(link)

            WebDriverWait(driver, 20).until(

                EC.presence_of_element_located((By.TAG_NAME, "dl"))

            )

            details_soup = BeautifulSoup(driver.page_source, 'html.parser')

            properties_div = details_soup.find_all('div', {'ng-repeat': 'prop in ctrl.image.properties'})

            # 查找包含名称的元素

            name_element = details_soup.find('span', class_='h1 ng-binding')

            name_column = name_element.text.strip().rsplit('.', 1)[0]

            has_qemu_guest_agent = False

            for prop in properties_div:

                dt = prop.find('dt').text.strip()

                dd = prop.find('dd').text.strip()

                if dt == "hw_qemu_guest_agent" and dd == "yes":

                    has_qemu_guest_agent = True

                    break

            if has_qemu_guest_agent:

                image_id = driver.current_url.split('/')[-1]

                if image_id not in processed_image_ids:

                    all_images.append({'name': name_column, 'id': image_id})

                    processed_image_ids.add(image_id)

                    print(f"Name: {name_column}, ID: {image_id}")

        with open("images.txt", "w") as file:

            for image in all_images:

                file.write(f"Name: {image['name']}, ID: {image['id']}\n")

    finally:

        driver.quit()

if __name__ == "__main__":

    get_images()

参考资源

记一次使用python的selenium库爬取动态页面内容的经历的更多相关文章

Python:利用 selenium 库抓取动态网页示例
前言在抓取常规的静态网页时,我们直接请求对应的 url 就可以获取到完整的 HTML 页面,但是对于动态页面,网页显示的内容往往是通过 ajax 动态去生成的,所以如果是用 urllib.reque ...
selenium+phantomjs爬取动态页面数据
1.安装selenium pip/pip3 install selenium 注意依赖关系 2.phantomjs for windows 下载地址:http://phantomjs.org/down ...
selenium自动化测试爬取动态页面大全
目录一:浏览器信息测试二:查找结点三:测试动作四:获取节点信息五:切换子页面Frame 六,延时请求七:前进和后退八:Cookies 八:选项卡处理九:捕获异常这里之讲解用法,安 ...
[python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈
我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的.首先通过这篇文章,你能学到以下几点: 1.可以了解Python简单爬取图片的一些思路和方法 ...
[python爬虫] Selenium定向爬取PubMed生物医学摘要信息
本文主要是自己的在线代码笔记.在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容. PubMed是一个免费的搜寻引擎,提供生物医学方 ...
Python 爬虫实例（8）—— 爬取动态页面
今天使用python 和selenium爬取动态数据,主要是通过不停的更新页面,实现数据的爬取,要爬取的数据如下图源代码: #-*-coding:utf-8-*- import time from ...
phantomjs+selenium实现爬取动态网址
之前使用 selenium + firefox驱动浏览器来实现爬取动态网址,但是firefox经常更新,更新后时常会导致webdriver启动不来,所以改用phantomjs+selenium来改善一 ...
【Python成长之路】Python爬虫 --requests库爬取网站乱码（\xe4\xb8\xb0\xe5\xa）的解决方法【华为云分享】
[写在前面] 在用requests库对自己的CSDN个人博客(https://blog.csdn.net/yuzipeng)进行爬取时,发现乱码报错(\xe4\xb8\xb0\xe5\xaf\x8c\ ...
[python爬虫] Selenium定向爬取虎扑篮球海量精美图片
前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...
看我怎么扒掉CSDN首页的底裤（python selenium+phantomjs爬取CSDN首页内容）
这里只是学习一下动态加载页面内容的抓取,并不适用于所有的页面. 使用到的工具就是python selenium和phantomjs,另外调试的时候还用了firefox的geckodriver.exe. ...

随机推荐

Splashtop 扩展了所有 Android 8.0 以上设备的远程控制功能
好消息:Splashtop远程访问和远程支持软件现在支持100多个品牌的 Android 设备. 2020年9月15日,远程访问和远程支持解决方案的全球领导者 Splashtop Inc. 宣布:所有 ...
Vue——计算属性和侦听属性
一.计算属性模板内的表达式非常便利,但是设计它们的初衷是用于简单运算的.在模板中放入太多的逻辑会让模板过重且难以维护.例如,有一个嵌套数组对象:我们想根据 author 是否已经有一些书来显示不同的 ...
ReplayKit2：声音回调时间戳问题
一.ReplayKit2 框架回调中视频.micphone声音.系统声音三路回调 - (void)processSampleBuffer:(CMSampleBufferRef)sampleBuffe ...
Java爬虫-爬取疫苗批次信息
今年3月份开始,就接到通知, 根据<关于开展有关人群第二剂次脊髓灰质炎灭活疫苗补种工作的通知>国疾控卫免发[2024]1号文件要求,在2016年3月1日至2019年9月30日之间出生的儿童 ...
WIn32 C++ 消息处理函数问题
这个消息处理这个 Winproc 这个接收到网络信息在自己的函数用完后可以选择向系统路由传递这个网络消息接收到的数据原型你处理完,系统也处理,不想让系统处理可以不将接受到的那几个变量啊数据啊,就 ...
夜莺中心端管理categraf采集规则并下发
痛点市面上常见的采集器,比如 telegraf.grafana-agent.datadog-agent 等,通常内置了多种采集插件,比如可以采集操作系统的常规指标,也可以采集 mysql.redis ...
《Android开发卷——自定义日期选择器（三）》
继 <Android开发卷--自定义日期选择器(一)>:http://blog.csdn.net/chillax_li/article/details/19047 ...
Lecture4
Smiling & Weeping ---- 行于山水之间权且停留无所谓风起叶落,浮光敛形此刻身即自由第四章 Git 工具 Author: Martin 本章主要介绍 Git 常 ...
QT6设置应用程序图标
准备好一个ico格式的图标, 放到源码文件中, 比如放在 resources/logo.ico 在源码目录中新建一个icon.rc的文件, 内容如下: IDI_ICON1 ICON DISCARDAB ...
HarmonyOS SDK助力鸿蒙原生应用“易感知、易理解、易操作”
6月21-23日,华为开发者大会(HDC 2024)盛大开幕.6月23日上午,<HarmonyOS开放能力,使能应用原生易用体验>分论坛成功举办,大会邀请了多位华为技术专家深度解读如何通过 ...

记一次使用python的selenium库爬取动态页面内容的经历

安装与配置selenium

编写脚本

参考资源

记一次使用python的selenium库爬取动态页面内容的经历的更多相关文章

随机推荐

热门专题