1. 导包

 from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as ec
from selenium.webdriver.common.by import By

2. 创建 webdriver

driver = webdriver.Chrome(executable_path=r'C:\python35\chromedriver.exe')
# executable_path:chromedriver.exe的存放路径

3. 操作

1. 常用操作

driver.page_source   # 响应页面,element标签
driver.title # 请求页面的title
driver.current_url # 请求的url
driver.close() # 关闭浏览器窗口
driver.quit() # 退出浏览器
driver.current_window_handle # 获取当前窗口的句柄
driver.window_handles # 获取所有窗口的句柄
driver.switch_to_window() # 切换浏览器窗口
driver.execute_script() # 执行js脚本(在打开新窗口时用)
driver.get_cookie() # 获取cookie
driver.find_element_by_class_name() # 根据class查找标签
driver.find_element_by_xpath() # 根据xpath查找标签

4 例子 -- 爬去拉钩网招聘信息

过程: 用 selenium 访问首页,然后用lxml解析首页上的每一个职位,获取职位的链接地址,然后再用selenium 访问该地址,用lxml提取职位详情的信息。

  • get_attribute('class')  # 获取标签的class属性值
  • self.driver.execute_script('window.open("https://www.baidu.com/")')  # 打开一个新窗口 (请求详情页)  通过执行js脚本打开新的窗口
  • self.driver.switch_to.window(self.driver.window_handles[])   # 将driver切换到新窗口(详情页窗口)
  • WebDriverWait(driver=self.driver, timeout=10). \
    until(ec.presence_of_element_located((By.XPATH, '//span[@class="name"]'))) # 显示等待(职位详情页,出现职位标题为条件),在等待过程中如果出现要寻找的标签,则结束等待,如果没有出现则一直等待,直到10s,抛出异常。注意:这里只能定位某个标签,不能取标签里面的值,如这里的span标签中的值。
  • 注意:在切换到新窗口后,如果想继续在原始窗口执行操作,需要再重新切回原始窗口,如这里的由详情页窗口切换到列表页窗口。
import re
import time
import csv
from lxml import etree
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as ec
from selenium.webdriver.support.ui import WebDriverWait class LaGouSpider:
def __init__(self):
self.driver = webdriver.Chrome(executable_path=r'C:\python35\chromedriver.exe')
self.init_url = 'https://www.lagou.com/zhaopin/Python/'
self.next_page = True
self.position = None
self.csv_header = ['职位名称', '职位要求', '薪水', '职位标签', '职位诱惑', '职位详情', '发布时间']
self.is_writer_header = False def request_list_page(self, url=None):
if url:
self.driver.get(url)
html = etree.HTML(self.driver.page_source)
# 解析html 获取职位列表
links = html.xpath('//a[@class="position_link"]/@href')
for link in links:
self.request_detail_page(link)
time.sleep(1)
# 下一页
next_btn = self.driver.find_element_by_xpath('//div[@class="pager_container"]/a[last()]')
if 'page_no pager_next_disabled' not in next_btn.get_attribute('class'):
next_btn.click()
else:
self.next_page = False def request_detail_page(self, url):
# 打开一个新窗口 (请求详情页)
self.driver.execute_script('window.open("' + url + '")')
# 将driver切换到新窗口(详情页窗口)
self.driver.switch_to.window(self.driver.window_handles[1])
# 显示等待(职位详情页,出现职位标题为条件)
WebDriverWait(driver=self.driver, timeout=10). \
until(ec.presence_of_element_located((By.XPATH, '//span[@class="name"]')))
# 解析详情页
self.parse_detail_page(self.driver.page_source)
# 关闭新窗口
self.driver.close()
# 重新将窗口切回到列表页窗口
self.driver.switch_to.window(self.driver.window_handles[0]) def parse_detail_page(self, source):
html = etree.HTML(source)
position_name = html.xpath('//span[@class="name"]/text()')
job_request = html.xpath('//dd[@class="job_request"]/p//text()')
position_label = html.xpath('//ul[@class="position-label clearfix"]//text()')
publish_time = html.xpath('//p[@class="publish_time"]//text()')
job_advantage = html.xpath('//dd[@class="job-advantage"]/p/text()')
job_detail = html.xpath('//div[@class="job-detail"]/p/text()') # 清洗数据
position_name = position_name[0] if position_name else None
job_request = [re.sub('\n|/|\\xa0', '', i).strip() for i in job_request] if job_request else None
job_request = [i for i in job_request if i != '']
# 提取salary
salary = job_request[0] if len(job_request) > 2 else None
# 提取职位需求
job_request = ','.join(job_request[2:5])
# 职位标签
position_label = [re.sub('\n|/|\\xa0', '', i).strip() for i in position_label] if position_label else None
position_label = ','.join([i for i in position_label if i != ''])
# 职位诱惑
job_advantage = job_advantage[0] if job_advantage else None
# 发布时间
print(publish_time) print(salary)
publish_time = re.match(r'\d+天\w|\d+:\d+', publish_time[0]).group() if publish_time else None
# 职位详情
job_detail = ','.join([a.strip() for a in job_detail] if job_detail else None)
position = {
'职位名称': position_name,
'职位要求': job_request,
'薪水': salary,
'职位标签': position_label,
'职位诱惑': job_advantage,
'职位详情': job_detail,
'发布时间': publish_time,
}
self.write_csv(position) def write_csv(self, position):
with open('position.csv', 'a+', encoding='utf-8', newline='') as f:
writer = csv.DictWriter(f, self.csv_header)
if not self.is_writer_header:
writer.writeheader()
self.is_writer_header = True
writer.writerow(position) def run(self):
self.request_list_page(self.init_url)
while self.next_page:
self.request_list_page() if __name__ == '__main__':
lagou = LaGouSpider()
lagou.run()

5. Selenium 的 WebDriverWait

https://blog.csdn.net/duzilonglove/article/details/78455051

selenium知识点的更多相关文章

  1. 《手把手教你》系列基础篇(八十)-java+ selenium自动化测试-框架设计基础-TestNG依赖测试-番外篇(详解教程)

    1.简介 经过前边几篇知识点的介绍,今天宏哥就在实际测试中应用一下前边所学的依赖测试.这一篇主要介绍在TestNG中一个类中有多个测试方法的时候,多个测试方法的执行顺序或者依赖关系的问题.如果不用de ...

  2. 2019 To do List

    做好测试不是靠编程,而是靠的是严禁的作风,慎密的逻辑思维,适合的测试流程. 内心有些迷茫的时候,迷茫的是作为测试既然要学那么多编程,为什么不直接去干开发呢?学了编程,用不上,到底有什么用呢? 看了这句 ...

  3. selenium + python自动化测试unittest框架学习(四)python导入模块及包知识点

    在写脚本的时候,发现导入某些模块,经常报错提示导入模块失败,这里来恶补下python导入模块的知识点. 1.模块导入时文件查找顺序 在脚本中,import xxx模块时的具体步骤: (1)新建一个mo ...

  4. python爬虫知识点总结(八)Selenium库详解

    官方学习文档:http://selenium-python.readthedocs.io/api.html 一.什么是Selenium? 答:自动化测试工具,支持多种浏览器.用来驱动浏览器,发出指令让 ...

  5. 浅谈学习selenium的一些知识点的总结

    学习自动化测试,先得学习一门语言.自动化对语言要求掌握的程度不深,但必须得会基本的入门语法. 我学习的是python2,简单,易懂,上手快. 每天敲就是了. 我的学习路径是: 先学习一段时间pytho ...

  6. 关于python中selenium一些知识点

    selenium几种元素操纵方法 切换iframe层 #切换至xx iframe层 driver.switch_to.frame("name and id") # 切回主HTML层 ...

  7. python selenium 实战涉及很多知识点

    1.iframe的切入和切出 #切入 driver.switch_to.frame(driver.find_element_by_id('iFrame_1')) # 切换出来 driver.switc ...

  8. Selenium+java自动化测试常用知识点

    一.元素的定位 1.通过ID定位元素: findElement(By.id(element)); 2.通过元素的名称定位元素: findElement(By.name(element)); 3.通过元 ...

  9. Python爬虫学习(9):Selenium的使用

    1 简介以及安装 Selenium 是什么?一句话,自动化测试工具.它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,如果你在这些浏览器里面安装一个 Seleni ...

随机推荐

  1. Docker 杂记

    1.配置阿里云加速 :可以找到各种加速URL.比如 https://tnxkcso1.mirror.aliyuncs.com/ 2.windows 配置: 3.docker info可以看到新的配置已 ...

  2. 路由组件传参-props解耦方式(主要)

    在组件中使用 $route 会使之与其对应路由形成高度耦合,从而使组件只能在某些特定的 URL 上使用,限制了其灵活性. 使用 props 将组件和路由解耦: 取代与 $route 的耦合 const ...

  3. 【原创】大叔经验分享(81)marathon上app无法重启

    通过api调用marathon重启app后出现deployment,但是app不会重启,配置如下: "constraints": [ [ "hostname", ...

  4. hive面试题(免费拿走不谢)

    Hive 最常见的几个面试题 1.hive 的使用, 内外部表的区别,分区作用, UDF 和 Hive 优化(1)hive 使用:仓库.工具(2)hive 内部表:加载数据到 hive 所在的 hdf ...

  5. C++ STL 之 deque

    deque 和 vector 的最大差异? 一在于 deque 允许常数时间内对头端进行元素插入和删除操作. 二在于 deque 没有容量的概念,因为它是动态的以分段的连续空间组合而成,随时可以增加一 ...

  6. iOS AVPlayer 的使用实践

    前两天在网上看到一篇博客,介绍AVPlayer的使用,但是只简单介绍了一下单个的本地文件如何播放,心血来潮,就想着做一个类似于播放器的东西,能够实现播放网络歌曲,循环播放多首音乐,下面我们来实现一下 ...

  7. 在SqlServer和Oralce中创建索引

    给表名A的字段A增加索引 SqlServer: if exists (select 1 from sysobjects where name='表名A' and type='u')and exists ...

  8. linux——系统命令

    (1)   显示系统日期和时间:date 显示系统当前时间 例如:date (1)  切换用户:su 用户名 以其他用户身份使用系统,(类似windows10系统,有些程序以管理员身份执行) ① 从r ...

  9. scala学习(4)---Array定长数组操作

    ScalaArrayNote: https://www.jianshu.com/p/d906f00c05bf

  10. Graphic系统综合练习案例-绘制饼状图

    这里用一个案例来将之前学过的关于绘制相关的东东加强巩固一下,纯绘制,木有加点击效果,先来看下最终效果: github中这种百分比饼图的效果非常非常之多,实际在项目中开发当产品有这样类似的需求时做为开发 ...