selenium 模块使用

selenium

概念:基于浏览器自动化的一个模块,可以模拟浏览器行为
环境的安装:下载selenium模块
selenium和爬虫之间的关联是什么?
- 便捷的获取页面中动态加载的数据
  - requests模块进行数据爬取:可见非可得
  - selenium:可见即可得
- 实现模拟登录
基本操作:
- 谷歌浏览器驱动程序下载地址:http://chromedriver.storage.googleapis.com/index.html
- 驱动程序和谷歌版本的映射关系表:https://blog.csdn.net/huilan_same/article/details/51896672
- 1.实例化某一款浏览器对象(驱动程序的路径)
- 2.find系列的函数用作于标签定位
动作链:一系列的行为动作
无头浏览器:无可视化界面的浏览器.
- phantomJS

1 百度搜索"美女",代码演示

from selenium import webdriver

from time import sleep

# 后面是你的浏览器驱动位置，记得前面加r'','r'是防止字符转义的

driver = webdriver.Chrome(r'D:\教学视频\python 爬虫\tools\chromedriver.exe') # 浏览器驱动路径

# 用get打开百度页面

driver.get("http://www.baidu.com")

# 查找页面的“设置”选项，并进行点击

sleep(1)

driver.find_elements_by_link_text('设置')[0].click()

sleep(2)

# 打开设置后找到“搜索设置”选项，设置为每页显示50条

driver.find_elements_by_link_text('搜索设置')[0].click()

sleep(2)

# 选中每页显示50条

m = driver.find_element_by_id('nr')

sleep(2)

m.find_element_by_xpath('//*[@id="nr"]/option[3]').click()

m.find_element_by_xpath('.//option[3]').click()

sleep(2)

# 点击保存设置

driver.find_elements_by_class_name("prefpanelgo")[0].click()

sleep(2)

# 处理弹出的警告页面   确定accept() 和 取消dismiss()

driver.switch_to_alert().accept()

sleep(2)

# 找到百度的输入框，并输入 美女

driver.find_element_by_id('kw').send_keys('美女')

sleep(2)

# 点击搜索按钮

driver.find_element_by_id('su').click()

sleep(2)

# 在打开的页面中找到“Selenium - 开源中国社区”，并打开这个页面

driver.find_elements_by_link_text('美女_百度图片')[0].click()

sleep(3)

# 关闭浏览器

driver.quit()

2 selenium的基本操作

from selenium import webdriver

from time import sleep

#实例化一个浏览器对象

bro = webdriver.Chrome(executable_path=r'C:\Users\oldboy-python\Desktop\爬虫+数据\day04\chromedriver.exe')

url = 'https://www.jd.com/'

bro.get(url) #用户发起请求

#定位标签

search_input = bro.find_element_by_id('key')

#对指定标签进行数据交互

search_input.send_keys('macPro')

btn = bro.find_element_by_xpath('//*[@id="search"]/div/div[2]/button')

btn.click()

sleep(2)

#执行js代码

jsCode = 'window.scrollTo(0,document.body.scrollHeight)'

bro.execute_script(jsCode)

sleep(3)

bro.quit()

3 seleniu爬取药监总局数据

# 爬取前两页,爬取动态获取到额数据

from selenium import webdriver

from lxml import etree

from time import sleep

#实例化一个浏览器对象

page_text_list = []

bro = webdriver.Chrome(executable_path=r'./chromedriver.exe')

url = 'http://125.35.6.84:81/xk/'

bro.get(url)

sleep(2)

#page_source返回的就是当前浏览器打卡页面对应的页面源码数据

page_text = bro.page_source

page_text_list.append(page_text)

for i in range(2):

    bro.find_element_by_id('pageIto_next').click()

    sleep(2)

    page_text = bro.page_source

    page_text_list.append(page_text)

for page_text in page_text_list:

    tree = etree.HTML(page_text)

    li_list = tree.xpath('//*[@id="gzlist"]/li')

    for li in li_list:

        name = li.xpath('./dl/@title')[0]

        print(name)

sleep(3)

bro.quit()

4 selenium 动作链

from lxml import etree

from time import sleep

from selenium import webdriver

from selenium.webdriver import ActionChains

# 实例化一个浏览器对象

page_text_list = []

bro = webdriver.Chrome(executable_path=r'./chromedriver.exe')

url = 'https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'

bro.get(url)

# 如果定位的标签是存在于iframe对应的子页面中的话,在进行标签定位前一定要执行一个switch_to的操作

bro.switch_to.frame('iframeResult')

div_tag = bro.find_element_by_id('draggable')

# 1.实例化动作链对象

action = ActionChains(bro)

action.click_and_hold(div_tag)

for i in range(5):

    # .perform()方法是让动作链立即执行

    action.move_by_offset(17, 0).perform()

    sleep(0.5)

action.release()  # 释放

sleep(3)

bro.quit()  # 关闭浏览器

5 无头浏览器headless

无头浏览器是为了用户使用过程中弹出浏览器自动操作:使用chorm浏览器的无头模式

from selenium.webdriver.chrome.options import Options

from time import sleep

from selenium import webdriver

# 创建一个参数对象，用来控制chrome以无界面模式打开

chrome_options = Options()

chrome_options.add_argument('--headless')

chrome_options.add_argument('--disable-gpu')

# 实例化一个浏览器对象

bro = webdriver.Chrome(executable_path=r'./chromedriver.exe', chrome_options=chrome_options)

bro.get('https://www.baidu.com')

sleep(2)

bro.save_screenshot('1.png')

print(bro.page_source)

sleep(2)

bro.quit()

6 selenium 规避风险

某些网站存在selenium检测

from time import sleep

from selenium import webdriver

from selenium.webdriver import ChromeOptions

# 实例化一个对象规避检测

option = ChromeOptions()

option.add_experimental_option('excludeSwitches', ['enable-automation'])

#实例化一个浏览器对象

bro = webdriver.Chrome(executable_path=r'./chromedriver.exe',options=option)

bro.get('https://www.taobao.com/')

7 12306 模拟登录

使用截图,坐标定位,点击动作链技术

from selenium import webdriver

from selenium.webdriver import ActionChains

from PIL import Image  # 用作于图片的裁剪

from ChaoJiYing import Chaojiying_Client

from time import sleep

bro = webdriver.Chrome(executable_path=r'./chromedriver.exe')

bro.get('https://kyfw.12306.cn/otn/login/init')

sleep(5)

# 验证码图片进行捕获(裁剪)

bro.save_screenshot('main.png')

# 定位到了验证码图片对应的标签

code_img_ele = bro.find_element_by_xpath('//*[@id="loginForm"]/div/ul[2]/li[4]/div/div/div[3]/img')

location = code_img_ele.location  # 验证码图片基于当前整张页面的左下角坐标

size = code_img_ele.size  # 验证码图片的长和宽

# 裁剪的矩形区域(左下角和右上角两点的坐标)

rangle = (

int(location['x']), int(location['y']), int(location['x'] + size['width']), int(location['y'] + size['height']))

i = Image.open('main.png')

frame = i.crop(rangle)

frame.save('code.png')

# 使用打码平台进行验证码的识别

chaojiying = Chaojiying_Client('bobo328410948', 'bobo328410948', '899370')  # 用户中心>>软件ID 生成一个替换 96001

im = open('code.png', 'rb').read()  # 本地图片文件路径 来替换 a.jpg 有时WIN系统须要//

result = chaojiying.PostPic(im, 9004)['pic_str']

print(result)  # x1,y1|x2,y2|x3,y3  ==> [[x1,y1],[x2,y2],[x3,y3]]

all_list = []  # [[x1,y1],[x2,y2],[x3,y3]] 每一个列表元素表示一个点的坐标,坐标对应值的0,0点是验证码图片左下角

if '|' in result:

    list_1 = result.split('|')

    count_1 = len(list_1)

    for i in range(count_1):

        xy_list = []

        x = int(list_1[i].split(',')[0])

        y = int(list_1[i].split(',')[1])

        xy_list.append(x)

        xy_list.append(y)

        all_list.append(xy_list)

else:

    x = int(result.split(',')[0])

    y = int(result.split(',')[1])

    xy_list = []

    xy_list.append(x)

    xy_list.append(y)

    all_list.append(xy_list)

# action = ActionChains(bro)

for l in all_list:

    x = l[0]

    y = l[1]

    ActionChains(bro).move_to_element_with_offset(code_img_ele, x, y).click().perform()

    sleep(1)

sleep(3)

bro.quit()

selenium 模块使用的更多相关文章

爬虫基础(三)-----selenium模块应用程序
摆脱穷人思维 <三> : 培养"目标导向"的思维: 好项目永远比钱少,只要目标正确,钱总有办法解决. 一 selenium模块什么是selenium?seleni ...
爬虫之selenium模块
Selenium 简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟 ...
使用Selenium模块报错的解决办法 (FileNotFound,WebDriverException)
添加Chrome浏览器程序的目录到系统Path变量中: C:\Users\%USERNAME%\AppData\Local\Google\Chrome\Application ,使用pip3 inst ...
Python爬虫——selenium模块
selenium模块介绍 selenium最初是一个测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览 ...
python 全栈开发，Day136(爬虫系列之第3章-Selenium模块)
一.Selenium 简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全 ...
三: 爬虫之selenium模块
一 selenium模块什么是selenium?selenium是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作. selenium最初是一个自动化测试工具, ...
7 selenium 模块
selenium 模块一.简介 1.Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作. 2.自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接 ...
03 爬虫之selenium模块
selenium模块 1.概念,了解selenium 什么是selenium?selenium是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作. seleniu ...
浏览器行为模拟之requests、selenium模块
requests模块前言: 通常我们利用Python写一些WEB程序.webAPI部署在服务端,让客户端request,我们作为服务器端response数据: 但也可以反主为客利用Python的re ...
爬虫模块之selenium模块
一模块的介绍 selenium模块最开始是一个自动化测试的工具,驱动浏览器完全模拟浏览器自动测试. from selenium import webdriver # 驱动浏览器 browser=we ...

随机推荐

习惯用excel却满足不了数据分析的需求怎么办？本文给您方法
Excel 可以说是如今最常用的做分析统计的工具了,简单易用且功能强大,但是excel难以满足一些高端的数据分析需求,主要存在的问题体现在数据共享.数据权限.数据量等方面. 那如果有一款工具既不用你花 ...
Sencha Cmd 常用命令
1.获取帮助 sencha help generate app 2.创建应用程序 sencha -sdk e:\ext\ext6 generate app -classic SimpleCMS e:\ ...
Perforce 使用建议
前言楼主从事Unreal 游戏开发工作,使用VisualStudio 2019 /Rider/VisualStudio Code 开发过,使用Perforce版本管理对代码和资源进行管理. 主要想分 ...
prometheus k8s服务发现
Prometheus的服务发现在解决什么问题? 被监控的目标(target)是整个监控体系中重要组成部分,传统监控系统zabbix通过网络发现的机制自动创建主机到zabbix-server,进而快速 ...
Arava: 用 swing 写一个取色器
备哥以前发我了一个小工具,TakeColor 取色器.来复刻一个吧. 分析一下:顶部是菜单,左侧框显示当前鼠标所在的颜色(下面显示当前坐标和颜色值,默认RGB),中间框显示鼠标周围区域,右侧显示取色的 ...
IDEA在同一工作空间导入多个项目
在IDEA中导入项目的基本操作是: File--Open--打开工作空间选择要导入的项目一个项目导入到工作空间啦但是当你重复这个操作想在这个工作空间继续导入其他模块的时候,就会出现以下问题不不管 ...
tp5 单文件上传接口
路由: Route::post('upload','task/task/upload'); 控制器代码: //文件上传接口 public function upload() { $file = req ...
tensorflow编译成功！
使用bazel编译tensorflow项目的core包成功!找了个简单的target可视化,留作纪念,命令如下: bazel query --noimplicit_deps --nohost_deps ...
想了解 spring-cloud-kubernetes，那就先来实战一把官方demo
摘要:官方提供了简单的demo用于快速了解spring-cloud-kubernetes,我们就来一起将此demo源码编译构建,然后在kubernetes环境运行. 本文分享自华为云社区<spr ...
IBM QRadar Advisor 安全限制绕过漏洞
受影响系统:IBM QRadar Advisor 1.0.0 -2.4.0描述:CVE(CAN) ID: CVE-2019-4556 IBM QRadar Advisor是一套安全威胁分析解决方案. ...

selenium 模块使用

selenium

1 百度搜索"美女",代码演示

2 selenium的基本操作

3 seleniu爬取药监总局数据

4 selenium 动作链

5 无头浏览器headless

6 selenium 规避风险

7 12306 模拟登录

selenium 模块使用的更多相关文章

随机推荐

热门专题