selenium控制文件下载位置

我们在自动化下载文件的时候势必存在一种需求: 通过chrome将文件保存到指定位置

1. google窗口实现

配置'prefs'将文件下载到指定位置, 并通过判断文件的大小来判断文件是否下载完成

import os

import time

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

from selenium.webdriver.common.by import By

options = Options()

prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory': os.getcwd() + '\\download'}

options.add_experimental_option("prefs", prefs)

web = webdriver.Chrome(options=options)

web.get("https://pypi.org/project/selenium/#files")

time.sleep(5)

web.find_element_by_xpath('//*[@id="files"]/div/div[2]/a[1]').click()

# 获取下载文件的路径

download_dir = os.getcwd() + '\\download'

# 注意需要和 Chrome 浏览器设置的下载路径一致

# 文件名

file_name = 'selenium-4.9.0.tar.gz'

download_file_path = os.path.join(download_dir, file_name)

# 等待文件下载完成

wait = WebDriverWait(web, timeout=30)

wait.until(lambda driver: os.path.exists(download_file_path))

# 获取文件的初始大小

init_size = os.path.getsize(download_file_path)

# 等待指定时间，再次检查文件大小是否发生变化

time.sleep(2)

while True:

    cur_size = os.path.getsize(download_file_path)

    if cur_size == init_size:

        break

    else:

        init_size = cur_size

        time.sleep(2)

# 文件大小不再发生变化，认为下载完成

web.close()

2. 基于无头浏览器实现

当我们需要将selenium部署到centos服务器上运行的时候, 就会存在无法打开google的情况, 此时我们必须要配置无头浏览器, 这时候想下载文件到指定位置就不是刚才配置一下'prefs', 因为我们在无头浏览器中是无法导出下载管理的可视化窗口的, 这意味着'prefs'将没有作用, 所以我们应该怎么做?

基于无头浏览器将文件下载到指定目录:

    1. 配置无头浏览器并下载文件到google指定目录(配置options)

    2. 通过定时等待判断文件是否下载完成(os模块)

    3. 关闭浏览器

下面是代码部分:

import os

import time

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

from selenium.webdriver.common.by import By

# # 设置 ChromeOptions 配置

options = Options()

options.add_argument('--no-sandbox')

options.add_argument('--disable-dev-shm-usage')

options.add_argument('--headless')

options.add_argument('blink-settings=imagesEnabled=false')

web = webdriver.Chrome(options=options)

# 配置浏览器

web.command_executor._commands["send_command"] = ("POST", '/session/$sessionId/chromium/send_command')

params = {'cmd': 'Page.setDownloadBehavior',

          'params': {'behavior': 'allow', 'downloadPath': r"%s" % os.path.join(os.getcwd(), 'download')}}

web.execute("send_command", params=params)

web.get("https://pypi.org/project/selenium/#files")

web.find_element(By.XPATH, '//*[@id="files"]/div/div[2]/a[1]').click()

# 等待下载完成

# 通过文件大小变化(在上面)或者定时等待的方式均可判断

# 这里用定时等待的方式

download_file = os.path.join('C://Users//86183//Downloads', "selenium-4.9.0.tar.gz")

while not os.path.exists(download_file):

    time.sleep(2)

# # 移动文件到指定的目录

# destination = os.path.join(os.getcwd(), 'download')

# shutil.move(download_file, destination)

# 关闭浏览器

web.quit()

selenium控制文件下载位置的更多相关文章

通过selenium控制浏览器滚动条
目的:通过selenium控制浏览器滚动条原理:通过 driver.execute_script()执行js代码,达到目的 driver.execute_script("window.sc ...
selenium控制超链接在当前标签页中打开或重新打开一个标签页
selenium控制超链接在当前标签页中打开或重新打开一个标签页在web页面源码中,控制超链接的打开是在当前标签页还是重新打开一个标签页,是由属性target=“_black”进行控制的.如果还有属 ...
Java&Selenium控制滚动条方法封装
Java&Selenium控制滚动条方法封装 package util; import org.openqa.selenium.JavascriptExecutor; import org.o ...
selenium控制浏览器操作
selenium控制浏览器操作控制浏览器有哪些操作? 控制页面大小前进.后退刷新自动输入.提交 ........ 控制页面大小,实例: # -*- coding:utf-8 -*- from ...
Selenium系列（22） - 通过selenium控制浏览器滚动条的几种方式
如果你还想从头学起Selenium,可以看看这个系列的文章哦! https://www.cnblogs.com/poloyy/category/1680176.html 其次,如果你不懂前端基础知识, ...
使用selenium控制滚动条（非整屏body）
方法原理: (1)使用jQuery CSS 操作 - scrollTop() 方法,设置 <div> 元素中滚动条的垂直偏移,语法:$(selector).scrollTop(of ...
BDD测试之selenium控制滚动条
一.对于页面存在滚动条,可以通过插入JS控制滚动条(最常用的方法) (1)将滚动条移动到指定坐标位置处 ((JavascriptExecutor) driver).executeScript(&quo ...
【WP8】键盘弹出时控制Frame位置
WP上,当使用TextBox输入文字的时候,键盘会把TextBox向上推一段距离当编辑第二个TextBox的时候,页面被上推,键盘刚好和TextBox靠在一起当编辑第一个TextBox的时候,页面 ...
selenium+Python(文件下载)
webdriver允许我们设置默认的文件下载路径,也就是说,文件会自动下载并保存到设置的目录中下面以Firefox浏览器为例: from selenium import webdriver from ...
使用python+selenium控制手工已打开的浏览器
我们可以利用Chrome DevTools协议.它允许客户检查和调试Chrome浏览器. 打开cmd,在命令行中输入命令: chrome.exe --remote-debugging-port=922 ...

随机推荐

tuxedo启动相关的知识
tuxedo启动都要启动哪些服务? tuxedo常用命令有哪些? 参考链接: https://docs.oracle.com/cd/E13161_01/tuxedo/docs10gr3/rfcm/rf ...
mysql替换空格制表符换行
update ztbdb_pro set pro=REPLACE(pro,CHAR(10),''); update ztbdb_pro set pro=REPLACE(pro,CHAR(13),'') ...
win10 自带输入法设置小鹤双拼
1.创建bat文件: 小鹤双拼.bat 2.编辑小鹤双拼.bat 添加内容: reg add HKEY_CURRENT_USER\Software\Microsoft\InputMethod\Sett ...
[复现]2021DASCTF实战精英夏令营暨DASCTF July X CBCTF-PWN
EasyHeap 想可执行的地方写入orw的shellcode,利用tcachebin的df进行劫持malloc_hook 然后调用add来触发. from pwn import * context. ...
学习记录--C++组合+依赖+依赖倒置
组合关系:表示类之间的关系是整体与部分的关系.即has a / contains a的关系在面向对象程序设计中,将一个复杂对象分解为简单对象的组合. 在代码中,体现为将一个或多个类的对象作为另一个类 ...
今日Python练习--正则表达式的相关练习import re
1.如何利用Python在文本中国提取手机号码 # 如何利用Python在文本中提取手机号码 import re content="白日依山尽,黄河入180320213699999909海流 ...
ctfshow VIP限免题目(最新)
源码泄露这一题主要考察如何查看网页源代码,查看方式主要有三种在网页前面加上view-source: 右键页面,点击查看页面源代码键盘上按下F12打开开发者工具,在查看器中查看源代码这一题随便一 ...
第一章 1.1.1节 Kubeadm安装K8S高可用集群
1.1 安装前必读请不要使用带中文的服务器和克隆的虚拟机. 生产环境建议使用二进制的方式安装. 文档中的IP地址要更换成自己的IP地址,要谨记!!! 1.2 基本环境配置 kubeadm安装方式自1 ...
java网络编程--1 网络模型、网络协议
java网络编程--1 网络模型.网络协议 javaweb指的是网页编程 B/S 网络编程指的是面向TCP/IP相关 C/S 1.1.概述两种不同的通信模式: 实时通信:打电话连接---接了--- ...
如何用Python对股票数据进行LSTM神经网络和XGboost机器学习预测分析（附源码和详细步骤），学会的小伙伴们说不定就成为炒股专家一夜暴富了
前言最近调研了一下我做的项目受欢迎程度,大数据分析方向竟然排第一,尤其是这两年受疫情影响,大家都非常担心自家公司裁员或倒闭,都想着有没有其他副业搞搞或者炒炒股.投资点理财产品,未雨绸缪,所以不少小伙 ...

selenium控制文件下载位置

selenium控制文件下载位置

1. google窗口实现

2. 基于无头浏览器实现

selenium控制文件下载位置的更多相关文章

随机推荐

热门专题