selenium操作浏览器模块

selenium模块用途

selenuim原先多用于测试部门测试，由于它可以操作浏览器，有时候也用于爬虫领域

优点:操作浏览器访问网站

缺点:速度较慢

下载模块

# 下载模块

pip3 install selenium

"""selenuim由于需要操作浏览器，所以在下载模块的基础之上还需要下载一个操作浏览器的驱动文件"""

# 下载驱动

操作不同的浏览器需要下载不同的驱动，我们统一使用谷歌

驱动文件可以存放在两个地方

    1.项目的根目录下(不推荐)

    2.将下载好的驱动文件放到python文件夹里面的scripts目录中(推荐)

http://npm.taobao.org/mirrors/chromedriver/2.35/　

if mac系统：

    然后将解压后的chromedriver移动到/usr/local/bin目录下 

注意:selenium3默认支持的webdriver是Firfox，而Firefox需要安装geckodriver 下载链接:https://github.com/mozilla/geckodriver/releases

基本使用方式

# 基本使用

from selenium import webdriver

import time

# 打开谷歌浏览器

bro = webdriver.Chrome()

#其余浏览器

# bro = webdriver.Firefox()

# bro = webdriver.Safari()

# bro = webdriver.Ie()

# bro = webdriver.Edge()

# 访问网站

bro.get('https://www.jd.com')

time.sleep(5)

# 自动关闭浏览器

bro.close()

自动打开京东或百度搜索定义物品

from selenium import webdriver

import time

# 模拟键盘按键

from selenium.webdriver.common.keys import Keys

# 打开谷歌浏览器

bro = webdriver.Chrome()

# bro = webdriver.Firefox()

# bro = webdriver.Safari()

# bro = webdriver.Ie()

# bro = webdriver.Edge()

# 访问网站

bro.get('https://www.baidu.com')

inputEle = bro.find_element_by_id('kw')

# inputEle = bro.find_element_by_id('key') # 京东

inputEle.send_keys("美女")

inputEle.send_keys(Keys.ENTER)

time.sleep(10)

bro.close()

selenuim模块登录百度

# 1、find_element_by_id   根据id找

# 2、find_element_by_link_text     根据链接名字找到控件（a标签的文字）

# aEle = bro.find_element_by_link_text('新闻')

# print(aEle.text)

# 3、find_element_by_partial_link_text   根据链接名字找到控件（a标签的文字）模糊查询

# 4、find_element_by_tag_name       根据标签名

# 5、find_element_by_class_name     根据类名

# 6、find_element_by_name           根据属性名

# 7、find_element_by_css_selector   根据css选择器
# 8、find_element_by_xpath
　　"""
　　XML:
　　　　用途：1.配置文件
            2.前端页面（类似于HTML）
                odoo框架
                    erp 前端界面使用的就是XML
　　"""

from selenium import webdriver

import time

bro=webdriver.Chrome()

bro.get("https://www.baidu.com")

bro.implicitly_wait(10)

"""

#d1  等价于 id='d1'

.c1  等价于 class='c1'

div p  找div里面所有的p(后代)

div > p  找div里面第一层级的p(儿子)

"""

# 利用selenuim模拟百度登录操作

# 查找到登录的a标签

aEle = bro.find_element_by_link_text('登录')

# 点击登录标签

aEle.click()

# 查找用户名登录标签

a1Ele = bro.find_element_by_id('TANGRAM__PSP_11__footerULoginBtn')

# 点击

a1Ele.click()

# 查找用户名和密码标签输入内容

usernameEle = bro.find_element_by_id('TANGRAM__PSP_11__userName')

usernameEle.send_keys('admin123')

time.sleep(1)

passwordEle = bro.find_element_by_id('TANGRAM__PSP_11__password')

passwordEle.send_keys('admin123')

# 查找登录按钮 点击即可

btnEle = bro.find_element_by_id('TANGRAM__PSP_11__submit')

btnEle.click()

time.sleep(5)

bro.close()  # 主动关闭页面

爬取京东商品信息

# 常用方法

from selenium import webdriver

import time

from selenium.webdriver.common.keys import Keys

bro = webdriver.Chrome()

bro.get("http://www.jd.com")

bro.implicitly_wait(10)  # 延时等待

# 查找搜索商品的input框

inputEle = bro.find_element_by_id('key')

# 输入商品内容

inputEle.send_keys('手机')

# 按下回车确认搜索内容

inputEle.send_keys(Keys.ENTER)

# 研究页面商品规律 发现是一个个的li标签 都具有class属性

goods_li = bro.find_elements_by_class_name('gl-item')

# 分析每个li里面的数据特征

for good in goods_li:

    html标签class中p-img下的a标签下的img标签中的src

    img_url = good.find_element_by_css_selector('.p-img a img').get_attribute('src')

    if not img_url:

        img_url = 'https:' + good.find_element_by_css_selector('.p-img a img').get_attribute('data-lazy-img')

    url = good.find_element_by_css_selector('.p-img a').get_attribute('href')

    price = good.find_element_by_css_selector('.p-price i').text

    name = good.find_element_by_css_selector('.p-name em').text.replace('\n', '')

    commit = good.find_element_by_css_selector('.p-commit a').text

    print('''

          商品链接：%s

          商品图片：%s

          商品名字：%s

          商品价格：%s

          商品评论数：%s

          ''' % (url, img_url, name, price, commit))

time.sleep(5)

#主动关闭链接

bro.close()

from selenium import webdriver

import time

from selenium.webdriver.common.keys import Keys

bro = webdriver.Chrome()

bro.get("https://www.jd.com")

# WebElement延时等待

bro.implicitly_wait(10)

# 分析每个li里面的数据特征

def get_goods(bro):

    print("---------------------------------------")

    # 研究页面商品规律 发现是一个个的li标签 都具有class属性

    goods_li = bro.find_elements_by_class_name('gl-item')

    # html标签class中p-img下的a标签下的img标签中的src

    for good in goods_li:

        img_url = good.find_element_by_css_selector('.p-img a img').get_attribute('src')

        if not img_url:

            img_url = 'https:' + good.find_element_by_css_selector('.p-img a img').get_attribute('data-lazy-img')

        url = good.find_element_by_css_selector('.p-img a').get_attribute('href')

        price = good.find_element_by_css_selector('.p-price i').text

        name = good.find_element_by_css_selector('.p-name em').text.replace('\n', '')

        commit = good.find_element_by_css_selector('.p-commit a').text

        print('''

            商品链接：%s

            商品图片：%s

            商品名字：%s

            商品价格：%s

            商品评论数：%s

            ''' % (url, img_url, name, price, commit))

        next_page = bro.find_element_by_partial_link_text("下一页")

        time.sleep(1)

        next_page.click()

        time.sleep(1)

        get_goods(bro)

input_search = bro.find_element_by_id("key")

input_search.send_keys("手机")

input_search.send_keys(Keys.ENTER)

# 进入另外一个页面

try:

    get_goods(bro)

except Exception as e:

    print("结束")

finally:

    bro.close()

# time.sleep(5)

# #主动关闭链接

# bro.close()

京东翻页代码

selenium操作浏览器模块的更多相关文章

[Python爬虫]使用Selenium操作浏览器订购火车票
这个专题主要说的是Python在爬虫方面的应用,包括爬取和处理部分 [Python爬虫]使用Python爬取动态网页-腾讯动漫(Selenium) [Python爬虫]使用Python爬取静态网页-斗 ...
每次用 selenium 操作浏览器都还原了 (比如没有浏览器历史记录)
每次用 selenium 操作浏览器都还原了 (比如没有浏览器历史记录)
selenium操作浏览器的前进和后退
前进关键字:driver.forward() 后退关键字:driver.back() 测试对象:1.https://www.baidu.com/ 2.https://www.sogou.com/ 实例 ...
『心善渊』Selenium3.0基础 — 3、使用Selenium操作浏览器对象的基础API
目录 1.导入Selenium库 2.创建浏览器对象 3.浏览器窗口大小设置 4.浏览器位置设置 5.请求访问网址 6.浏览器页面前进.后退和刷新 7.关闭浏览器相比于高大上的各种Selenium进 ...
『心善渊』Selenium3.0基础 — 17、Selenium操作浏览器窗口的滚动条
目录 1.为什么操作滚动条 2.Selenium如何操作滚动条 3.Selenium操作滚动条方法 4.操作滚动条示例 5.下拉至聚焦元素的位置 (1)实现步骤: (2)实现示例: 1.为什么操作滚动 ...
『心善渊』Selenium3.0基础 — 18、使用Selenium操作浏览器的弹窗
目录 1.操作浏览器自带弹窗 2.操作浏览器页面自定义弹窗 1.操作浏览器自带弹窗 (1)说明: webdriver中处理JavaScript所生成的alert.confirm 以及prompt 弹窗 ...
selenium操作浏览器cookie方法
/** * 操作浏览器的cookie */ @Test public void testCookie()throws Exception{ drive ...
selenium操作浏览器窗口最大化和刷新
实际测试过程中经常遇到打开一个页面并不是全屏显示,但是却希望它能够全屏显示或者新增一条记录后需要刷新一下看能不能再列表中正常显示. 于是就有了今天的关于对浏览器窗口的最大化和刷新页面.需要说明的一点: ...
[Selenium] 操作浏览器 Cookies
WebDriver 提供了一系列 Cookies 的操作来获取.填写.删除 Cookies 的方法,节省了多次在登陆页面的查找元素并填写登录信息的时间. 1)获取 Cookies ,并保存到文件中以备 ...
selenium操作浏览器
import org.openqa.selenium.WebDriver; import common.StartFireFox; public class TestBrowser { public ...

随机推荐

记录--css水滴登录界面
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助前言今天我们来分享一款非常有趣的登录界面,它使用HTML和CSS制作,具有动态的水波纹效果,让用户在登录时感受到了一股清凉之感. 基本h ...
KingbaseES V8R3 集群运维系列 -- failover切换后集群自动恢复
案例说明: KingbaseES V8R3集群默认在触发failover切换后,为保证数据安全,原主库需要通过人工介入后,恢复为新的备库加入到集群.在无人值守的现场环境,需要在触发failover ...
面试官：如何搭建Redis集群？
Redis 集群(Redis Cluster)是 Redis 3.0 版本推出的 Redis 集群方案,它将数据分布在不同的服务区上,以此来降低系统对单主节点的依赖,并且可以大大的提高 Redis 服 ...
#树状数组，离散#C 波动序列
分析设$dp[i][j][0/1/2/3]$表示前$i$个位置当前选的数为$j$, 且选择的是第一行/第二行/第三行不下降/第三行不上升, 状态转移方程显然,用线段树或者树状数组维护一下 ...
【Kotlin】函数
1 常规函数 1.1 无参函数 fun main() { myFun() } fun myFun() { println("myFun") // 打印: myFun } 1.2 有 ...
Jetty的https模块
启用https模块,执行如下命令: java -jar $JETTY_HOME/start.jar --add-modules=https 命令的输出,如下: INFO : https initial ...
【开源三方库】Fuse.js：强大、轻巧、零依赖的模糊搜索库
开源项目 OpenHarmony 是每个人的 OpenHarmony 曹天恒公司:中国科学院软件研究所小组:知识体系工作组 1.简介 Fuse.js是一款功能强大且轻量级的JavaScript ...
OpenHarmony Liteos_A内核之iperf3移植心得
一.iperf3工作原理 iperf3主要的功能是测试基于特定路径的带宽,在客户端和服务器端建立连接(三次握手)后,客户端发送一定大小的数据报并记下发送的时间,或者客户端在一定的时间内发送数据并记下发 ...
C# 发布你的程序包到Nuget
1.新建一个.NET Standard 的类库项目 2.选择项目属性,在 package 栏目下填写我们的nuget包信息 3.选择我们的项目,点击"Pack" 打包主要注意的是 ...
上新啦KIT
HMS Core上新啦!分析服务区服分析全新上线:机器学习服务OCR新增手写识别服务:3D建模续扫能力更新:视频编辑服务支持自定义上传素材--更多#HMS Core#能力可点击网页链接了解. 了解更多 ...

selenium操作浏览器模块

selenium操作浏览器模块的更多相关文章

随机推荐

热门专题