Selenium

一、概述

Web自动化测试工具，可以运行在浏览器，根据指令操作浏览器
只是工具，必须与第三方浏览器结合使用

安装：

Linux：sudo pip3 install selenium
Windows：python -m pip install selenium

phantomjs浏览器

定义：无界面浏览器(又称无头浏览器)，在内存中进行页面加载,高效

安装（phantomjs、chromedriver、geckodriver）

Windows：

1、下载对应版本的phantomjs、chromedriver、geckodriver

2、把chromedriver.exe拷贝到python安装目录的Scripts目录下(添加到系统环境变量)

# 查看python安装路径: where python

3、验证

cmd命令行: chromedriver

# 下载地址

# 查看浏览器版本：右上角-帮助-关于google Chrome

# 网站中查看对应版本（notes.txt）

chromedriver : 下载对应版本

http://chromedriver.storage.googleapis.com/index.html

Linux：

1、下载后解压

tar -zxvf geckodriver.tar.gz

2、拷贝解压后文件到 /usr/bin/ （添加环境变量）

sudo cp geckodriver /usr/bin/

3、更改权限

cd /usr/bin/

chmod 777 geckodriver

sudo apt-get install phantomjs

测试：

from selenium import webdriver

brower = webdirver.Chrome()

打开浏览器，跳转到百度并搜索泰勒斯威夫特

from selenium import webdriver

import time

browser = webdriver.Chrome()

browser.get('http://www.baidu.com/')

# 向搜索框(id kw)输入 泰勒斯威夫特

ele = browser.find_element_by_xpath('//*[@id="kw"]')

ele.send_keys('泰勒斯威夫特')

time.sleep(1)

# 点击 百度一下 按钮(id su)

su = browser.find_element_by_xpath('//*[@id="su"]')

su.click()

# 截图

browser.save_screenshot('霉霉.png')

# 关闭浏览器

browser.quit()

二、基本用法

browser.page_cource返回响应内容

1. 浏览器方法

browser = webdriver.Chrome(executable_path='path')

browser.get(url)

browser.page_source # 查看响应内容

browser.page_source.find('字符串')

# 从html源码中搜索指定字符串,没有找到返回：-1

browser.quit() # 关闭浏览器

2. 节点查找

2.1 单节点

browser.find_element_by_id('')

browser.find_element_by_name('')

browser.find_element_by_class_name('')

browser.find_element_by_xpath('')

2.2 多节点

browser.find_elements_by_id('')

browser.find_elements_by_name('')

browser.find_elements_by_class_name('')

browser.find_elements_by_xpath('')

3.节点操作

ele.send_keys('') # 搜索框发送内容

ele.click() # 点击

ele.text # 获取文本内容

ele.get_attribute('src') # 获取属性值

4.无界面设置

from selenium import webdriver

options = webdriver.ChromeOptions()

# 添加无界面参数

options.add_argument('--headless')

browser = webdriver.Chrome(options=options)

browser.get('http://www.baidu.com/')

browser.save_screenshot('baidu.png')

5. 页面下拉

其实质就是运行JS代码

self.browser.execute_script(

'window.scrollTo(0,document.body.scrollHeight)'

)

6. 切换页面

适用页面：页面中点开链接出现新的页面，但是浏览器对象browser还是之前页面的对象

应对方案：

# 获取当前所有句柄（窗口）

all_handles = browser.window_handles

# 切换到新的窗口

browser.switch_to_window(all_handles[1])

爬虫框架之selenium的更多相关文章

scrapy爬虫框架和selenium的配合使用
scrapy框架的请求流程 scrapy框架? Scrapy 是基于twisted框架开发而来,twisted是一个流行的事件驱动的python网络框架.因此Scrapy使用了一种非阻塞(又名异步)的 ...
小白学 Python 爬虫（40）：爬虫框架 Scrapy 入门基础（七）对接 Selenium 实战
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
网络爬虫框架Scrapy简介
作者: 黄进(QQ:7149101) 一. 网络爬虫网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本:它是一个自动提取网页的程序,它为搜索引擎从万维 ...
分布式爬虫框架XXL-CRAWLER
<分布式爬虫框架XXL-CRAWLER> 一.简介 1.1 概述 XXL-CRAWLER 是一个分布式爬虫框架.一行代码开发一个分布式爬虫,拥有"多线程.异步.IP动态代理.分布 ...
Scrapy爬虫框架第一讲(Linux环境)
1.What is Scrapy? 答:Scrapy是一个使用python语言(基于Twistec框架)编写的开源网络爬虫框架,其结构清晰.模块之间的耦合程度低,具有较强的扩张性,能满足各种需求.(前 ...
Java爬虫框架调研
Python中大的爬虫框架有scrapy(风格类似django),pyspider(国产python爬虫框架). 除了Python,Java中也有许多爬虫框架. nutch apache下的开源爬虫程 ...
WebMagic 爬虫框架
官方网站[http://webmagic.io/](http://webmagic.io/) >webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能 ...
Python爬虫教程-32-Scrapy 爬虫框架项目 Settings.py 介绍
本篇介绍项目开发的过程中,对 Setting 文件的配置和使用 Python爬虫教程-32-Scrapy 爬虫框架项目 Settings.py 介绍 settings.py 文件的使用想要详细查看 ...
常见Python爬虫框架你会几个？
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:三名狂客正文注意:如果你Python技术学的不够好,可以点击下方链接 ...

随机推荐

Android源码分析（十五）----GPS冷启动实现原理分析
一:原理分析主要sendExtraCommand方法中传递两个参数, 根据如下源码可以知道第一个参数传递delete_aiding_data,第二个参数传递null即可. @Override pub ...
B端产品需求文档怎么写？
B端,或者2B,一般指的是英文中的 to busniss,中文即面向企业的含义.与B端相对应的,是C端,或者2C,同样指的是英文中的 to customer,即面向消费者的意思.因此,人们平常所说的B ...
【转】解决Oracle 11g在用EXP导出时，空表不能导出
一.问题原因: 11G中有个新特性,当表无数据时,不分配segment,以节省空间 .insert一行,再rollback就产生segment了. 该方法是在在空表中插入数据,再删除,则产生segme ...
MySQL修炼之路四
1. 外键(foreign key) 1. 定义:让当前表字段的值在另一个表的范围内选择 2. 语法 foreign key(参考字段名) references 主表(被参考字段名) on delet ...
Window 2003 IIS + MySQL + PHP + Zend 环境配置
图文详解下载 Windows 2003 Zend, PHP, PHPMyadmin 与 MySQL Windows 2003 安装包中包含了 Zend,PHP 5.2.17,PHPWind8.7 和 ...
hOW TO READING
人脑是易忘的,新知识要不断复习,一本600页的书,总结出来要记住的知识可能只有30页.一段2小时的技术视频,总结到纸上可能只有10分钟的阅读量.那么如何复习这600页的书和2小时的视频呢? 答案就是总 ...
使用Deployment控制器创建Pods并使Service发布到外网可访问
由于NFS支持节点共同读取及写入,所以可使用Deployment控制器创建多个Pod,并且每一个Pod都共享同一个目录 k8s-master kubnet@hadoop2 volumes]$ vim ...
编写体面的UI测试
--01-- PageObject简介 PageObject是编写UI测试时的一种模式.简而言之,你可以将所有知道页面细节的部分放入到这个对象上,对于编写测试的人来说,一个PageObject代表 ...
win10 任务栏上的工具栏，重启消失的解决方法
首先谈下 <任务栏的工具栏> 对于很多人来言,还是有可取性的任务栏的工具栏对编程者的作用一般来说,我们会经常查看某些API文档,虽然现在是联网也很方便,但如果都下载下来,整理到一个文件 ...
虚方法(virtual)\抽象方法(abstract)\接口(interface)的区别
转自:https://www.cnblogs.com/fantaohaoyou/p/9402657.html 虚方法和抽象方法都可以供派生类重写,它们之间有什么区别呢? 1. 虚方法必须有实现部分,抽 ...

爬虫框架之selenium

Selenium

一、概述

phantomjs浏览器

二、基本用法

1. 浏览器方法

2. 节点查找

2.1 单节点

2.2 多节点

3.节点操作

4.无界面设置

5. 页面下拉

6. 切换页面

爬虫框架之selenium的更多相关文章

随机推荐

热门专题