selenium操作浏览器模块
selenium模块用途
selenuim原先多用于测试部门测试,由于它可以操作浏览器,有时候也用于爬虫领域
优点:操作浏览器访问网站
缺点:速度较慢
下载模块
# 下载模块
pip3 install selenium
"""selenuim由于需要操作浏览器,所以在下载模块的基础之上还需要下载一个操作浏览器的驱动文件"""
# 下载驱动
操作不同的浏览器需要下载不同的驱动,我们统一使用谷歌
驱动文件可以存放在两个地方
1.项目的根目录下(不推荐)
2.将下载好的驱动文件放到python文件夹里面的scripts目录中(推荐)
http://npm.taobao.org/mirrors/chromedriver/2.35/
if mac系统:
然后将解压后的chromedriver移动到/usr/local/bin目录下 注意:selenium3默认支持的webdriver是Firfox,而Firefox需要安装geckodriver 下载链接:https://github.com/mozilla/geckodriver/releases
基本使用方式
# 基本使用
from selenium import webdriver
import time # 打开谷歌浏览器
bro = webdriver.Chrome()
#其余浏览器
# bro = webdriver.Firefox()
# bro = webdriver.Safari()
# bro = webdriver.Ie()
# bro = webdriver.Edge()
# 访问网站
bro.get('https://www.jd.com')
time.sleep(5) # 自动关闭浏览器
bro.close()
自动打开京东或百度搜索定义物品
from selenium import webdriver
import time
# 模拟键盘按键
from selenium.webdriver.common.keys import Keys # 打开谷歌浏览器
bro = webdriver.Chrome()
# bro = webdriver.Firefox()
# bro = webdriver.Safari()
# bro = webdriver.Ie()
# bro = webdriver.Edge()
# 访问网站
bro.get('https://www.baidu.com')
inputEle = bro.find_element_by_id('kw')
# inputEle = bro.find_element_by_id('key') # 京东
inputEle.send_keys("美女")
inputEle.send_keys(Keys.ENTER) time.sleep(10)
bro.close()
selenuim模块登录百度
# 1、find_element_by_id 根据id找
# 2、find_element_by_link_text 根据链接名字找到控件(a标签的文字)
# aEle = bro.find_element_by_link_text('新闻')
# print(aEle.text)
# 3、find_element_by_partial_link_text 根据链接名字找到控件(a标签的文字)模糊查询
# 4、find_element_by_tag_name 根据标签名
# 5、find_element_by_class_name 根据类名
# 6、find_element_by_name 根据属性名
# 7、find_element_by_css_selector 根据css选择器
# 8、find_element_by_xpath
"""
XML:
用途:1.配置文件
2.前端页面(类似于HTML)
odoo框架
erp 前端界面使用的就是XML
"""
from selenium import webdriver
import time bro=webdriver.Chrome()
bro.get("https://www.baidu.com")
bro.implicitly_wait(10) """
#d1 等价于 id='d1'
.c1 等价于 class='c1'
div p 找div里面所有的p(后代)
div > p 找div里面第一层级的p(儿子)
"""
# 利用selenuim模拟百度登录操作
# 查找到登录的a标签
aEle = bro.find_element_by_link_text('登录')
# 点击登录标签
aEle.click()
# 查找用户名登录标签
a1Ele = bro.find_element_by_id('TANGRAM__PSP_11__footerULoginBtn')
# 点击
a1Ele.click()
# 查找用户名和密码标签输入内容
usernameEle = bro.find_element_by_id('TANGRAM__PSP_11__userName')
usernameEle.send_keys('admin123')
time.sleep(1)
passwordEle = bro.find_element_by_id('TANGRAM__PSP_11__password')
passwordEle.send_keys('admin123')
# 查找登录按钮 点击即可
btnEle = bro.find_element_by_id('TANGRAM__PSP_11__submit')
btnEle.click()
time.sleep(5)
bro.close() # 主动关闭页面
爬取京东商品信息
# 常用方法
from selenium import webdriver
import time
from selenium.webdriver.common.keys import Keys bro = webdriver.Chrome()
bro.get("http://www.jd.com")
bro.implicitly_wait(10) # 延时等待 # 查找搜索商品的input框
inputEle = bro.find_element_by_id('key')
# 输入商品内容
inputEle.send_keys('手机')
# 按下回车确认搜索内容
inputEle.send_keys(Keys.ENTER)
# 研究页面商品规律 发现是一个个的li标签 都具有class属性
goods_li = bro.find_elements_by_class_name('gl-item')
# 分析每个li里面的数据特征
for good in goods_li:
html标签class中p-img下的a标签下的img标签中的src
img_url = good.find_element_by_css_selector('.p-img a img').get_attribute('src')
if not img_url:
img_url = 'https:' + good.find_element_by_css_selector('.p-img a img').get_attribute('data-lazy-img')
url = good.find_element_by_css_selector('.p-img a').get_attribute('href')
price = good.find_element_by_css_selector('.p-price i').text
name = good.find_element_by_css_selector('.p-name em').text.replace('\n', '')
commit = good.find_element_by_css_selector('.p-commit a').text
print('''
商品链接:%s
商品图片:%s
商品名字:%s
商品价格:%s
商品评论数:%s
''' % (url, img_url, name, price, commit))
time.sleep(5)
#主动关闭链接
bro.close()

from selenium import webdriver
import time
from selenium.webdriver.common.keys import Keys bro = webdriver.Chrome()
bro.get("https://www.jd.com")
# WebElement延时等待
bro.implicitly_wait(10) # 分析每个li里面的数据特征
def get_goods(bro):
print("---------------------------------------")
# 研究页面商品规律 发现是一个个的li标签 都具有class属性
goods_li = bro.find_elements_by_class_name('gl-item')
# html标签class中p-img下的a标签下的img标签中的src
for good in goods_li:
img_url = good.find_element_by_css_selector('.p-img a img').get_attribute('src')
if not img_url:
img_url = 'https:' + good.find_element_by_css_selector('.p-img a img').get_attribute('data-lazy-img')
url = good.find_element_by_css_selector('.p-img a').get_attribute('href')
price = good.find_element_by_css_selector('.p-price i').text
name = good.find_element_by_css_selector('.p-name em').text.replace('\n', '')
commit = good.find_element_by_css_selector('.p-commit a').text
print('''
商品链接:%s
商品图片:%s
商品名字:%s
商品价格:%s
商品评论数:%s
''' % (url, img_url, name, price, commit)) next_page = bro.find_element_by_partial_link_text("下一页")
time.sleep(1)
next_page.click()
time.sleep(1)
get_goods(bro) input_search = bro.find_element_by_id("key")
input_search.send_keys("手机")
input_search.send_keys(Keys.ENTER)
# 进入另外一个页面
try:
get_goods(bro)
except Exception as e:
print("结束")
finally:
bro.close() # time.sleep(5)
# #主动关闭链接
# bro.close()
京东翻页代码
selenium操作浏览器模块的更多相关文章
- [Python爬虫]使用Selenium操作浏览器订购火车票
这个专题主要说的是Python在爬虫方面的应用,包括爬取和处理部分 [Python爬虫]使用Python爬取动态网页-腾讯动漫(Selenium) [Python爬虫]使用Python爬取静态网页-斗 ...
- 每次用 selenium 操作浏览器都还原了 (比如没有浏览器历史记录)
每次用 selenium 操作浏览器都还原了 (比如没有浏览器历史记录)
- selenium操作浏览器的前进和后退
前进关键字:driver.forward() 后退关键字:driver.back() 测试对象:1.https://www.baidu.com/ 2.https://www.sogou.com/ 实例 ...
- 『心善渊』Selenium3.0基础 — 3、使用Selenium操作浏览器对象的基础API
目录 1.导入Selenium库 2.创建浏览器对象 3.浏览器窗口大小设置 4.浏览器位置设置 5.请求访问网址 6.浏览器页面前进.后退和刷新 7.关闭浏览器 相比于高大上的各种Selenium进 ...
- 『心善渊』Selenium3.0基础 — 17、Selenium操作浏览器窗口的滚动条
目录 1.为什么操作滚动条 2.Selenium如何操作滚动条 3.Selenium操作滚动条方法 4.操作滚动条示例 5.下拉至聚焦元素的位置 (1)实现步骤: (2)实现示例: 1.为什么操作滚动 ...
- 『心善渊』Selenium3.0基础 — 18、使用Selenium操作浏览器的弹窗
目录 1.操作浏览器自带弹窗 2.操作浏览器页面自定义弹窗 1.操作浏览器自带弹窗 (1)说明: webdriver中处理JavaScript所生成的alert.confirm 以及prompt 弹窗 ...
- selenium操作浏览器cookie方法
/** * 操作浏览器的cookie */ @Test public void testCookie()throws Exception{ drive ...
- selenium操作浏览器窗口最大化和刷新
实际测试过程中经常遇到打开一个页面并不是全屏显示,但是却希望它能够全屏显示或者新增一条记录后需要刷新一下看能不能再列表中正常显示. 于是就有了今天的关于对浏览器窗口的最大化和刷新页面.需要说明的一点: ...
- [Selenium] 操作浏览器 Cookies
WebDriver 提供了一系列 Cookies 的操作来获取.填写.删除 Cookies 的方法,节省了多次在登陆页面的查找元素并填写登录信息的时间. 1)获取 Cookies ,并保存到文件中以备 ...
- selenium操作浏览器
import org.openqa.selenium.WebDriver; import common.StartFireFox; public class TestBrowser { public ...
随机推荐
- 记录--九个超级好用的 Javascript 技巧
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前言 在实际的开发工作过程中,积累了一些常见又超级好用的 Javascript 技巧和代码片段,包括整理的其他大神的 JS 使用技巧,今天 ...
- AntSK 0.2.3 版本更新:轻松集成 AI 本地离线模型
大家好,今天和大家分享 AntSK 知识库/智能体项目的最新进展. AntSK 是一个基于 .Net 8.Blazor 及 SemanticKernel 开发的 AI 项目,旨在为开发者提供一个强大的 ...
- 手把手带你用香橙派AIpro开发AI推理应用
本文分享自华为云社区<如何基于香橙派AIpro开发AI推理应用>,作者:昇腾CANN. 01 简介 香橙派AIpro开发板采用昇腾AI技术路线,接口丰富且具有强大的可扩展性,提供8/20T ...
- linux学习指令与现有环境解决问题笔记
linux学习指令与现有环境笔记 注意:我将pytorch和cuda安装在了pytorch这个虚拟环境中 pytorch安装及注意问题 注意版本对应,稳定版2.0.1对应cuda11.7,别按错了 按 ...
- 关于Dockerfile部署nginx,访问静态资源403Forbidden问题
今天项目遇到一个问题,服务器部署的nginx,在访问静态图片返回403 Forbidden. 容器是采用Dockerfile部署的,代码如下: FROM nginx:latest MAINTAINER ...
- linux xfce 在文件管理器里点击运行shell脚本文件
1.打开 Settings Editor 2.点击左边的 thunar 3.点击右边的 添加 ,在属性中输入 /misc-exec-shell-scripts-by-default 在类型中选择布尔类 ...
- 给你的wordpress添加文章内图片鼠标点击放大浏览的功能吧~
注:笔者已启用WP Githuber MD插件使用Markdown语法进行文章编辑,启用的主题为generatepress. 1.进入你的宝塔面板首页 点击文件选项: 2.分别找到以下几个文件进行修改 ...
- #树形dp,直径#51nod 1812 树的双直径
题目 给定一棵树,边权是整数 \(c_i\) ,找出两条不相交的链(没有公共点), 使得链长的乘积最大(链长定义为这条链上所有边的权值之和,如果这条链只有1个点则链长视为0). \(n\leq 4*1 ...
- Java HashMap 和 HashSet 的高效使用技巧
Java HashMap HashMap 是一种哈希表,它存储键值对.键用于查找值,就像数组中的索引一样.HashMap 的优势在于它可以使用任何类型作为键,并且查找速度很快. 创建 HashMap ...
- Seaborn风格设置
官方网站:seaborn: statistical data visualization - seaborn 0.11.2 documentation (pydata.org) Seaborn是基于m ...