Python + Selenium +Chrome 批量下载网页代码修改
主要修改以下代码可以调用本地的 user-agent.txt 和 cookie.txt
来达到在登陆状态下批量打开并下载网页，以网页 ID 来保存为网页文件名

PS:很多人在学习Python的过程中，往往因为遇问题解决不了或者没好的教程从而导致自己放弃，为此我建了个Python全栈开发交流.裙：一久武其而而流一思（数字的谐音）转换下可以找到了，里面有最新Python教程项目可拿,不懂的问题有老司机解决哦，一起相互监督共同进步

导入 webdriver

from selenium import webdriver

读取本地文件中的 URL 链接

address = ‘./url.txt’
fp = open(address, ‘r’)
lines = fp.readlines()
print (‘【URL 链接】:% s’, lines)

调用环境变量指定的 PhantomJS 浏览器创建浏览器对象

driver = webdriver.PhantomJS()

driver = webdriver.Chrome()

如果没有在环境变量指定 PhantomJS 位置

driver = webdriver.PhantomJS(executable_path=”./phantomjs”))

for data in lines:

get 方法会一直等到页面被完全加载，然后才会继续程序，通常测试会在这里选择 time.sleep (2)

driver.get(data)

向下滚动 10000 像素

js = “document.body.scrollTop=10000”

js=”var q=document.documentElement.scrollTop=10000”

执行 JS 语句

driver.execute_script(js)

查看页面快照

driver.save_screenshot(“csdn.png”)

print (‘执行中。。。’)

关闭浏览器

driver.quit()
print (‘执行结束。。。’)

关闭文件流

fp.close()

总结：有很多人在学习Python的过程中，往往因为遇问题解决不了或者没好的教程从而导致自己放弃，为此我建了个Python全栈开发交流.裙：一久武其而而流一思（数字的谐音）转换下可以找到了，里面有最新Python教程项目可拿,不懂的问题有老司机解决哦，一起相互监督共同进步
本文的文字及图片来源于网络加上自己的想法,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

Python + Selenium +Chrome 批量下载网页代码修改【新手必学】的更多相关文章

使用Python批量更新服务器文件【新手必学】
买了个Linux服务器,Centos系统,装了个宝塔搭建了10个网站,比如有时候要在某个文件上加点代码,就要依次去10个文件改动,虽然宝塔是可视化页面操作,不需要用命令,但是也麻烦,虽然还有git的h ...
Python 分发包中添加额外文件【新手必学】
在制作一个 Python 分发包时经常需要把一些文件添加到包中.最常见的例子是你希望通过 pip install命令安装 Python 包时会在 /etc/ 等目录下自动添加默认配置文件,由此可以 ...
Docker环境下运行python+selenium+chrome
Docker环境下运行python+selenium+chrome docker运行时占用的资源非常少,而且能将环境进行有效的隔离,可以快速的进行部署,因此可以将docker与selenium结合实现 ...
python+selenium+Chrome options参数
python+selenium+Chrome options参数 Chrome Options常用的行为一般有以下几种: 禁止图片和视频的加载:提升网页加载速度. 添加代理:用于翻墙访问某些页面,或者 ...
Python selenium chrome 环境配置
Python selenium chrome 环境配置一.参考文章: 1. 记录一下python easy_install和pip安装地址和方法 http://heipark.iteye.com/b ...
Python selenium chrome打包exe后禁用控制台输出滚动日志
Python selenium chrome打包exe后,在运行的过程中,如果遇到需要input()输入时,会发现被不断滚动刷新的日志把命令行输入快速顶掉了,通过查阅资料不断实践,发现以下方法有效: ...
Python入门小练习 002 批量下载网页链接中的图片
我们常常需要下载网页上很多喜欢的图片,但是面对几十甚至上百张的图片,一个一个去另存为肯定是个很差的体验. 我们可以用urllib包获取html的源码,再以正则表达式把匹配的图片链接放入一个list中, ...
利用python爬虫关键词批量下载高清大图
前言在上一篇写文章没高质量配图?python爬虫绕过限制一键搜索下载图虫创意图片!中,我们在未登录的情况下实现了图虫创意无水印高清小图的批量下载.虽然小图能够在一些移动端可能展示的还行,但是放到pc ...
chrome浏览器爬虫WebDriverException解决采用python + selenium + chrome + headless模式
WebDriverException: Message: unknown error: Chrome failed to start: crashed 第一种:如果出现下面情况: chrome浏览器有 ...

随机推荐

vue自学入门-6（vue jsx）
目录: vue自学入门-1(Windows下搭建vue环境) vue自学入门-2(vue创建项目) vue自学入门-3(vue第一个例子) vue自学入门-4(vue slot) vue自学入门-5( ...
springboot web - 启动(2) run()
接上一篇在创建 SpringApplication 之后, 调用了 run() 方法. public ConfigurableApplicationContext run(String... arg ...
CSS：overflow 内容溢出属性
overflow 属性规定当内容溢出元素框时发生的事情值描述 visible 默认值.内容不会被修剪,会呈现在元素框之外. hidden 内容会被修剪,并且其余内容是不可见的. scroll 内容 ...
CF1093E Intersection of Permutations [分块 +bitset]
大家好, 我非常喜欢暴力数据结构, 于是就用分块A了此题分块题,考虑前缀和 $b_i$ 表示 bitset 即 $0$ ~ $i $ 出现过的数字,然后考虑直接暴力复制块然后前缀和,修改也很 ...
R 分析回归（一元回归）
x <- c(,,,,,,,,,) # build X(predictor) y <- c(,,,,,,,,,) # build Y(dependent variable) mode(x) ...
mysql 获取当前时间加上一个月
select DATE_ADD(NOW(), interval 1 MONTH) NOW()此处必须为时间格式 date_add() 增加 date_sub()减少 month 月份 minute 分 ...
树莓派4B遇到的坑
由于大创需要用到机器学习这些东西,入手了一个树莓派4B(新手没弄过,直接上手最新版果然是有坑的),大佬勿喷
获取url参数(jq 扩展包)
(function($){ $.extend({ urlGet:function(url) { var getUrl = url ? url.split("?") : window ...
EL表达式无法获取boolean类型变量值
今天调试个程序, 有个名为isAdmin的boolean类型的变量在jsp页面获取到的值为空, 这根本就是没获取到或者变量不存在的状况啊,但是在Action中明明是赋值成false了. 上网查了一下有 ...
[TJOI2013] 奖学金 - 堆
按 a 排序,暴力用堆维护两侧预处理, 然后枚举中位数即可 #include <bits/stdc++.h> using namespace std; #define int long l ...

Python + Selenium +Chrome 批量下载网页代码修改【新手必学】