python+selenium实现网页自动化与爬虫技术

一、python环境与selenium环境安装

二、搜索商品后点击搜索按钮提交

三、元素定位，找到对应信息，并保存

四、结果预览与总结

举例某购物网站，通过selenium与python，实现主页上商品的搜索，并将信息爬虫保存至本地excel表内。

一、python环境与selenium环境安装

python在官网下载并安装并且设置环境变量。

selenium通过命令行下，pip install selenium进行安装，python与selenium都建议使用3.0版本

这里使用chrome浏览器，下载chrome对应版本的webdrver驱动，将webdriver驱动放在python跟目录下。

chrome浏览器的版本通过这个方法查询:帮助-关于Google Chrome(G)

二、搜索商品后点击搜索按钮提交

这里需要用到selenium库、time库（其中sleep用于等待）以及xlwt（用于保存excel表）

 from selenium import  webdriver

 from time import sleep

 import xlwt

 #打开浏览器,这里用的chrome

 d=webdriver.Chrome()

 #设置窗口最大化

 d.maximize_window()

 #设置隐式等待

 d.implicitly_wait()

 #打开网页

 d.get("https://www.jd.com/")

 #使用元素定位id找到搜索框

 d.find_element_by_id("key").send_keys("洗发水")

 #使用xpath定位到搜索按钮

 d.find_element_by_xpath("/html/body/div[1]/div[4]/div/div[2]/div/div[2]/button").clic

三、元素定位，找到对应信息，并保存

 #初始化excel表

 excel=xlwt.Workbook(encoding="utf-8")

 #增加sheet页

 sheet=excel.add_sheet("sheet1",cell_overwrite_ok=True)

 #定义第1行的内容,以及初始化num,用于从第二行开始写入对应的数据

 sheet.write(,,'序号')

 sheet.write(,,'商品')

 sheet.write(,,'价格')

 num=

 #通过元素定位面找到,在页面上找到对应商品的各个元素位置

 goods=d.find_elements_by_xpath("/html/body/div[6]/div[2]/div[2]/div[1]/div/div[2]/ul/li")

 sleep()

 for good in goods:

     #分别找到商品与价格所在的元素,并且取其中的文本信息,并去空行

     price=good.find_element_by_xpath("div/div[3]/strong").text.replace("\n","-")

     goodtext=good.find_element_by_xpath("div/div[4]/a/em").text.replace("\n","-")

     sheet.write(num,,num)

     sheet.write(num,,goodtext)

     sheet.write(num,,price)

     num+=

     #print(goodtext,"|",price)

 #保存至excel表

 excel.save(r"C:\Users\Mr.White\Desktop\test001\jd.xls")

 #页面退出

 d.quit()

四、结果预览与总结

1、网页自动化过程中最主要的难度是元素定位，后面会专门去介绍一下元素定位

2、页面可能随着前端代码的变化，会使原本可以跑通的脚本失效，有一定维护成本，如何设计合理的自动化脚本就显得比较重要。

python+selenium实现网页自动化与爬虫技术的更多相关文章

【Selenium01篇】python+selenium实现Web自动化：搭建环境，Selenium原理，定位元素以及浏览器常规操作！
一.前言最近问我自动化的人确实有点多,个人突发奇想:想从0开始讲解python+selenium实现Web自动化测试,请关注博客持续更新! 二.话不多说,直接开干,开始搭建自动化测试环境这里以前在 ...
【Selenium02篇】python+selenium实现Web自动化：鼠标操作和键盘操作！
一.前言最近问我自动化的人确实有点多,个人突发奇想:想从0开始讲解python+selenium实现Web自动化测试,请关注博客持续更新! 这是python+selenium实现Web自动化第二篇博 ...
【Selenium05篇】python+selenium实现Web自动化：读取ini配置文件,元素封装,代码封装,异常处理,兼容多浏览器执行
一.前言最近问我自动化的人确实有点多,个人突发奇想:想从0开始讲解python+selenium实现Web自动化测试,请关注博客持续更新! 这是python+selenium实现Web自动化第五篇博 ...
【Selenium06篇】python+selenium实现Web自动化：日志处理
一.前言最近问我自动化的人确实有点多,个人突发奇想:想从0开始讲解python+selenium实现Web自动化测试,请关注博客持续更新! 这是python+selenium实现Web自动化第六篇博 ...
【Selenium03篇】python+selenium实现Web自动化：元素三类等待，多窗口切换，警告框处理，下拉框选择
一.前言最近问我自动化的人确实有点多,个人突发奇想:想从0开始讲解python+selenium实现Web自动化测试,请关注博客持续更新! 这是python+selenium实现Web自动化第三篇博 ...
【Selenium04篇】python+selenium实现Web自动化：文件上传，Cookie操作，调用 JavaScript，窗口截图
一.前言最近问我自动化的人确实有点多,个人突发奇想:想从0开始讲解python+selenium实现Web自动化测试,请关注博客持续更新! 这是python+selenium实现Web自动化第四篇博 ...
【Selenium07篇】python+selenium实现Web自动化：PO模型，PageObject模式！
一.前言最近问我自动化的人确实有点多,个人突发奇想:想从0开始讲解python+selenium实现Web自动化测试,请关注博客持续更新! 这是python+selenium实现Web自动化第七篇博 ...
Python HTMLTestRunner生成网页自动化测试报告时中文编码报错UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6
1. 由于使用Python Selenium做网页自动化测试时,有截取网页上的中文信息保存到测试结果中,最终出现编码错误如下: File "D:/PycharmProjects/AutoTe ...
python+selenium封装UI自动化框架
seleinum框架框架的思想: 解决我们测试过程中的问题:大量的重复步骤,用自动化来实现 1)配置和程序的分离 2)测试数据和程序的分离 3)不懂编程的人员可以方便使用:使用的 ...

随机推荐

python之序列化、OS、SYS、hashlib模块
一.序列化模块 1.序列化模块的用途将一种数据结构转换成特殊的序列(特殊字符串,bytes),并且还可以转换回去凡是数据通过网络传出去最终的格式必须bytes 2.json模块 json 是一种轻 ...
使用webhooks进行代码的自动化部署
AutoMaticDeployment---自动部署项目简介使用Github的webhooks进行代码的自动化部署本项目是个人最近搞的一个小工具,自己最近在用hexo部署个人博客(地址:http ...
SpringBoot安装与配置
1.环境准备 1.1.Maven安装配置 Maven项目对象模型(POM),可以通过一小段描述信息来管理项目的构建,报告和文档的项目管理工具软件. 下载Maven可执行文件 cd /usr/local ...
Golang校招简历项目-简单的分布式缓存
前言前段时间,校招投了golang岗位,但是没什么好的项目往简历上写,于是参考了许多网上资料,做了一个简单的分布式缓存项目. 现在闲下来了,打算整理下. github项目地址:https://git ...
HBase Shell Get 操作常用小技巧
在工作中,有时候只是想简单看下HBase表某些关键指标的值,这个时候总不能现写Java代码去查看,以下几个小技巧你可能会经常用到. 1. 某行有许多列,只想获取指定2~3列的数据 hbase> ...
Java内存模型和ConcurrentHashMap 1.7源码分析
简介 ConcurrentHashMap 是 util.concurrent 包的重要成员.本文将结合 Java 内存模型,分析 JDK 源代码,探索 ConcurrentHashMap 高并发的具体 ...
netcore webapi参数
1.参数带[FormBody]标签 2.ajax 请求 content-type:application/json 3.post时需要JSON.stringify 4.GET 时不需要JSON.st ...
Python常用模块之configparser
ConfigParser简介 ConfigParser 是用来读取配置文件的包.配置文件的格式如下:中括号“[ ]”内包含的为section.section 下面为类似于key-value 的配置内容 ...
【WPF学习】第六十四章构建基本的用户控件
创建一个简单用户控件是开始自定义控件的好方法.本章主要介绍创建一个基本的颜色拾取器.接下来分析如何将这个控件分解成功能更强大的基于模板的控件. 创建基本的颜色拾取器很容易.然而,创建自定义颜色拾取器仍 ...
三层架构之UI层
之前已经发表了BLL,DAL,MODEL,三个层的源码继续UI层: 先简单实现用户的登录及注册高级操作可按照上一篇文章进行源码完善如图所示↑ UI层目录文件 Reg.aspx 进行注册操作 & ...

python+selenium实现网页自动化与爬虫技术

python+selenium实现网页自动化与爬虫技术的更多相关文章

随机推荐

热门专题