selenium操作浏览器模块
selenium模块用途
selenuim原先多用于测试部门测试,由于它可以操作浏览器,有时候也用于爬虫领域
优点:操作浏览器访问网站
缺点:速度较慢
下载模块
# 下载模块
pip3 install selenium
"""selenuim由于需要操作浏览器,所以在下载模块的基础之上还需要下载一个操作浏览器的驱动文件"""
# 下载驱动
操作不同的浏览器需要下载不同的驱动,我们统一使用谷歌
驱动文件可以存放在两个地方
1.项目的根目录下(不推荐)
2.将下载好的驱动文件放到python文件夹里面的scripts目录中(推荐)
http://npm.taobao.org/mirrors/chromedriver/2.35/
if mac系统:
然后将解压后的chromedriver移动到/usr/local/bin目录下 注意:selenium3默认支持的webdriver是Firfox,而Firefox需要安装geckodriver 下载链接:https://github.com/mozilla/geckodriver/releases
基本使用方式
# 基本使用
from selenium import webdriver
import time # 打开谷歌浏览器
bro = webdriver.Chrome()
#其余浏览器
# bro = webdriver.Firefox()
# bro = webdriver.Safari()
# bro = webdriver.Ie()
# bro = webdriver.Edge()
# 访问网站
bro.get('https://www.jd.com')
time.sleep(5) # 自动关闭浏览器
bro.close()
自动打开京东或百度搜索定义物品
from selenium import webdriver
import time
# 模拟键盘按键
from selenium.webdriver.common.keys import Keys # 打开谷歌浏览器
bro = webdriver.Chrome()
# bro = webdriver.Firefox()
# bro = webdriver.Safari()
# bro = webdriver.Ie()
# bro = webdriver.Edge()
# 访问网站
bro.get('https://www.baidu.com')
inputEle = bro.find_element_by_id('kw')
# inputEle = bro.find_element_by_id('key') # 京东
inputEle.send_keys("美女")
inputEle.send_keys(Keys.ENTER) time.sleep(10)
bro.close()
selenuim模块登录百度
# 1、find_element_by_id 根据id找
# 2、find_element_by_link_text 根据链接名字找到控件(a标签的文字)
# aEle = bro.find_element_by_link_text('新闻')
# print(aEle.text)
# 3、find_element_by_partial_link_text 根据链接名字找到控件(a标签的文字)模糊查询
# 4、find_element_by_tag_name 根据标签名
# 5、find_element_by_class_name 根据类名
# 6、find_element_by_name 根据属性名
# 7、find_element_by_css_selector 根据css选择器
# 8、find_element_by_xpath
"""
XML:
用途:1.配置文件
2.前端页面(类似于HTML)
odoo框架
erp 前端界面使用的就是XML
"""
from selenium import webdriver
import time bro=webdriver.Chrome()
bro.get("https://www.baidu.com")
bro.implicitly_wait(10) """
#d1 等价于 id='d1'
.c1 等价于 class='c1'
div p 找div里面所有的p(后代)
div > p 找div里面第一层级的p(儿子)
"""
# 利用selenuim模拟百度登录操作
# 查找到登录的a标签
aEle = bro.find_element_by_link_text('登录')
# 点击登录标签
aEle.click()
# 查找用户名登录标签
a1Ele = bro.find_element_by_id('TANGRAM__PSP_11__footerULoginBtn')
# 点击
a1Ele.click()
# 查找用户名和密码标签输入内容
usernameEle = bro.find_element_by_id('TANGRAM__PSP_11__userName')
usernameEle.send_keys('admin123')
time.sleep(1)
passwordEle = bro.find_element_by_id('TANGRAM__PSP_11__password')
passwordEle.send_keys('admin123')
# 查找登录按钮 点击即可
btnEle = bro.find_element_by_id('TANGRAM__PSP_11__submit')
btnEle.click()
time.sleep(5)
bro.close() # 主动关闭页面
爬取京东商品信息
# 常用方法
from selenium import webdriver
import time
from selenium.webdriver.common.keys import Keys bro = webdriver.Chrome()
bro.get("http://www.jd.com")
bro.implicitly_wait(10) # 延时等待 # 查找搜索商品的input框
inputEle = bro.find_element_by_id('key')
# 输入商品内容
inputEle.send_keys('手机')
# 按下回车确认搜索内容
inputEle.send_keys(Keys.ENTER)
# 研究页面商品规律 发现是一个个的li标签 都具有class属性
goods_li = bro.find_elements_by_class_name('gl-item')
# 分析每个li里面的数据特征
for good in goods_li:
html标签class中p-img下的a标签下的img标签中的src
img_url = good.find_element_by_css_selector('.p-img a img').get_attribute('src')
if not img_url:
img_url = 'https:' + good.find_element_by_css_selector('.p-img a img').get_attribute('data-lazy-img')
url = good.find_element_by_css_selector('.p-img a').get_attribute('href')
price = good.find_element_by_css_selector('.p-price i').text
name = good.find_element_by_css_selector('.p-name em').text.replace('\n', '')
commit = good.find_element_by_css_selector('.p-commit a').text
print('''
商品链接:%s
商品图片:%s
商品名字:%s
商品价格:%s
商品评论数:%s
''' % (url, img_url, name, price, commit))
time.sleep(5)
#主动关闭链接
bro.close()

from selenium import webdriver
import time
from selenium.webdriver.common.keys import Keys bro = webdriver.Chrome()
bro.get("https://www.jd.com")
# WebElement延时等待
bro.implicitly_wait(10) # 分析每个li里面的数据特征
def get_goods(bro):
print("---------------------------------------")
# 研究页面商品规律 发现是一个个的li标签 都具有class属性
goods_li = bro.find_elements_by_class_name('gl-item')
# html标签class中p-img下的a标签下的img标签中的src
for good in goods_li:
img_url = good.find_element_by_css_selector('.p-img a img').get_attribute('src')
if not img_url:
img_url = 'https:' + good.find_element_by_css_selector('.p-img a img').get_attribute('data-lazy-img')
url = good.find_element_by_css_selector('.p-img a').get_attribute('href')
price = good.find_element_by_css_selector('.p-price i').text
name = good.find_element_by_css_selector('.p-name em').text.replace('\n', '')
commit = good.find_element_by_css_selector('.p-commit a').text
print('''
商品链接:%s
商品图片:%s
商品名字:%s
商品价格:%s
商品评论数:%s
''' % (url, img_url, name, price, commit)) next_page = bro.find_element_by_partial_link_text("下一页")
time.sleep(1)
next_page.click()
time.sleep(1)
get_goods(bro) input_search = bro.find_element_by_id("key")
input_search.send_keys("手机")
input_search.send_keys(Keys.ENTER)
# 进入另外一个页面
try:
get_goods(bro)
except Exception as e:
print("结束")
finally:
bro.close() # time.sleep(5)
# #主动关闭链接
# bro.close()
京东翻页代码
selenium操作浏览器模块的更多相关文章
- [Python爬虫]使用Selenium操作浏览器订购火车票
这个专题主要说的是Python在爬虫方面的应用,包括爬取和处理部分 [Python爬虫]使用Python爬取动态网页-腾讯动漫(Selenium) [Python爬虫]使用Python爬取静态网页-斗 ...
- 每次用 selenium 操作浏览器都还原了 (比如没有浏览器历史记录)
每次用 selenium 操作浏览器都还原了 (比如没有浏览器历史记录)
- selenium操作浏览器的前进和后退
前进关键字:driver.forward() 后退关键字:driver.back() 测试对象:1.https://www.baidu.com/ 2.https://www.sogou.com/ 实例 ...
- 『心善渊』Selenium3.0基础 — 3、使用Selenium操作浏览器对象的基础API
目录 1.导入Selenium库 2.创建浏览器对象 3.浏览器窗口大小设置 4.浏览器位置设置 5.请求访问网址 6.浏览器页面前进.后退和刷新 7.关闭浏览器 相比于高大上的各种Selenium进 ...
- 『心善渊』Selenium3.0基础 — 17、Selenium操作浏览器窗口的滚动条
目录 1.为什么操作滚动条 2.Selenium如何操作滚动条 3.Selenium操作滚动条方法 4.操作滚动条示例 5.下拉至聚焦元素的位置 (1)实现步骤: (2)实现示例: 1.为什么操作滚动 ...
- 『心善渊』Selenium3.0基础 — 18、使用Selenium操作浏览器的弹窗
目录 1.操作浏览器自带弹窗 2.操作浏览器页面自定义弹窗 1.操作浏览器自带弹窗 (1)说明: webdriver中处理JavaScript所生成的alert.confirm 以及prompt 弹窗 ...
- selenium操作浏览器cookie方法
/** * 操作浏览器的cookie */ @Test public void testCookie()throws Exception{ drive ...
- selenium操作浏览器窗口最大化和刷新
实际测试过程中经常遇到打开一个页面并不是全屏显示,但是却希望它能够全屏显示或者新增一条记录后需要刷新一下看能不能再列表中正常显示. 于是就有了今天的关于对浏览器窗口的最大化和刷新页面.需要说明的一点: ...
- [Selenium] 操作浏览器 Cookies
WebDriver 提供了一系列 Cookies 的操作来获取.填写.删除 Cookies 的方法,节省了多次在登陆页面的查找元素并填写登录信息的时间. 1)获取 Cookies ,并保存到文件中以备 ...
- selenium操作浏览器
import org.openqa.selenium.WebDriver; import common.StartFireFox; public class TestBrowser { public ...
随机推荐
- 是时候来唠一唠synchronized关键字了,Java多线程的必问考点!
写在开头 在之前的博文中,我们介绍了volatile关键字,Java中的锁以及锁的分类,今天我们花5分钟时间,一起学习一下另一个关键字:synchronized. synchronized是什么? 首 ...
- Java数据类型转换,字符串(String)转日期(Date)
Java类型转换,字符串(String)转日期(Date) import java.text.ParseException; import java.text.SimpleDateFormat; im ...
- #团,构造#洛谷 3524 [POI2011]IMP-Party
题目 有一个 \(3n\) 个点的无向图,保证有一个大小为 \(2n\) 的团,输出一个大小为 \(n\) 的团 分析 每次选择两个不相连的点删掉,那么剩下的 \(n\) 个点一定是团, 因为每次至少 ...
- #线段树#洛谷 3988 [SHOI2013]发牌
传送门 分析 fake:此题不就是链表模拟题吗,我一开始还真这么想 貌似链表什么用都没有,根据题意很清楚,要找一个支持删除和查询区间第\(k\)大的数据结构 解释一下为什么题目可以转换为查询区间第\( ...
- 面向OpenHarmony终端的密码安全关键技术
本文转载自 OpenHarmony TSC 官方微信公众号<峰会回顾第17期 | 面向OpenHarmony终端的密码安全关键技术> 演讲嘉宾 | 何道敬 回顾整理 | 廖 涛 排 ...
- 【Learning eBPF-3】一个 eBPF 程序的深入剖析
从这一章开始,我们先放下 BCC 框架,来看仅通过 C 语言如何实现一个 eBPF.如此一来,你会更加理解 BCC 所做的底层工作. 在这一章中,我们会讨论一个 eBPF 程序被执行的完整流程,如下图 ...
- C#针对 private Dictionary<String, String> list说明
- K8S 性能优化 - K8S APIServer 调优
前言 K8S 性能优化系列文章,本文为第二篇:Kubernetes API Server 性能优化参数最佳实践. 系列文章: <K8S 性能优化 - OS sysctl 调优> 参数一览 ...
- 鸿蒙HarmonyOS实战-ArkUI组件(Menu)
一.Menu组件 Menu组件是一种常见的用户界面(UI)控件,用于在移动应用程序中显示可选项列表.它通常由一系列链接或按钮组成,以帮助用户导航和选择所需的操作.Menu组件可以在水平或垂直方向上呈现 ...
- HarmonyOS音视频开发概述
在音视频开发指导中,将介绍各种涉及音频.视频播放或录制功能场景的开发方式,指导开发者如何使用系统提供的音视频API实现对应功能.比如使用TonePlayer实现简单的提示音,当设备接收到新消息时, ...