使用rpa打开浏览器并执行js抓取页面元素详情步骤

这里我们专门开一个文章来写如何在rpa中执行js获取页面元素。

个人觉得，复杂点的需求用js会方便很多，所以后续的文章我都会重点使用js去获取页面元素。

好，正文开始，我们先看一下rpa为我们提供的自带的方便的抓取元素的方式，我们还是以小红书为例，还是以上一个例子为例，上个例子我们使用执行js的方式获取用户列表，这次我们新建一个流程：

使用自带的抓取方式作为对比，我们点击编辑->数据抓取：

点击选择目标：

这里局限性就来了，还选中了认证的图标，到时候我们看看输出的是什么。

提示我们需要再抓一下同样层级的元素：

我们选择第二个用户的名称：

然后就抓到数据了：

我们调试一下：

数据有了：

我们看看rpa的源码，可能不够直观吧，要是下次要改的话，都不知从何下手，还得重新选取。

所以这里如果你的需求只是简单获取列表数据，且并不会二次修改，那么就用自带的选取方式，但如果你需要更精准的数据获取方式，则推荐直接使用运行js的方式获取。

所以这里我们重点讲解下运行js的方式来精准的抓取数据。

在rpa中有提供一个执行js的方法：

可以设置是否同步执行以及js执行出错时是否还能往下执行等。

我们一般获取数据时都是使用同步js，使用默认配置即可，我们还是用小红书举例，我们这次获取小红书作者信息：

我们这里来获取这个小红书作者的昵称、小红书号、关注数、粉丝数、获赞数这五个数据。

我们先在浏览器中写js代码尝试获取，没问题再复制到rpa中。

我们按下f12，切换到console，并清空控制台：

用浏览器自带的工具确定下要抓取的元素：

为class为info-part的div，第一步先拿到整体块的元素：

我们再精细化到下一级元素：

再确定一下需要抓取的元素在那个div下：

我们先从昵称和小红书号开始：

昵称的div是：

js：

拿到了昵称，再是小红书号：

注意标签是span了，replace函数将【小红书：】删除，只保留账号。

接下来是关注数和粉丝数以及点赞数，我就一起获取了，先看看结构：

可以看到三个值所在的大的div叫user-interactions，该div下还有三个小div，就是存放三个数值的地方了：

我们直接用下标的方式取：

最后我们用一个函数返回这些五个字段：

结果：

这篇文章就到这里啦！如果你对文章内容有疑问或想要深入讨论，欢迎在评论区留言，我会尽力回答。同时，如果你觉得这篇文章对你有帮助，不妨点个赞并分享给其他同学，让更多人受益。

想要了解更多相关知识，可以查看我以往的文章，其中有许多精彩内容。记得关注我，获取及时更新，我们可以一起学习、讨论技术，共同进步。

感谢你的阅读与支持，期待在未来的文章中与你再次相遇！

使用rpa打开浏览器并执行js抓取页面元素详情步骤的更多相关文章

js 抓取页面数据
数据抓取主要思路和原理在根节点document中监听所有需要抓取的事件在元素事件传递中,捕获阶段获取事件信息,进行埋点通过getBoundingClientRect() 方法可获取元素的大小和 ...
Node.js 抓取电影天堂新上电影节目单及ftp链接
代码地址如下:http://www.demodashi.com/demo/12368.html 1 概述本实例主要使用Node.js去抓取电影的节目单,方便大家使用下载. 2 node packag ...
爬虫：selenium + phantomjs 解决js抓取问题(一)
selenium模块主要用来做测试,模拟键盘.鼠标来操作浏览器. phantomjs 就像一个无界面的浏览器一样. 两个结合能很好的解决js抓取的问题. 测试代码: #coding=utf-8 fro ...
基于puppeteer模拟登录抓取页面
关于热图在网站分析行业中,网站热图能够很好的反应用户在网站的操作行为,具体分析用户的喜好,对网站进行针对性的优化,一个热图的例子(来源于ptengine) 上图中能很清晰的看到用户关注点在那,我们不 ...
爬虫抓取页面数据原理（php爬虫框架有很多）
爬虫抓取页面数据原理(php爬虫框架有很多 ) 一.总结 1.php爬虫框架有很多,包括很多傻瓜式的软件 2.照以前写过java爬虫的例子来看,真的非常简单,就是一个获取网页数据的类或者方法(这里的话 ...
用PHP抓取页面并分析
在做抓取前,记得把php.ini中的max_execution_time设置的大点,不然会报错的.
php抓取页面的几种方式
在做一些天气预报或者RSS订阅的程序时,往往需要抓取非本地文件,一般情况下都是利用php模拟浏览器的访问,通过http请求访问url地址, 然后得到html源代码或者xml数据,得到数据我们不能直接 ...
CasperJS基于PhantomJS抓取页面
CasperJS基于PhantomJS抓取页面 Casperjs是基于Phantomjs的,而Phantom JS是一个服务器端的 JavaScript API 的 WebKit. CasperJS是 ...
php抓取页面的几种方法详解
本篇文章是对php抓取页面的几种方法进行了详细的分析介绍,需要的朋友参考下在做一些天气预报或者RSS订阅的程序时,往往需要抓取非本地文件,一般情况下都是利用php模拟浏览器的访问,通过http请求 ...
Java爬虫系列二：使用HttpClient抓取页面HTML
爬虫要想爬取需要的信息,首先第一步就要抓取到页面html内容,然后对html进行分析,获取想要的内容.上一篇随笔<Java爬虫系列一:写在开始前>中提到了HttpClient可以抓取页面内 ...

随机推荐

【k哥爬虫普法】爬虫第一案，侵犯个人隐私，“入侵”短视频服务器！
我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K 哥特设了"K哥爬虫普法"专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识, ...
C# 输入指定日期获取当前年的第一天、当前年的最后天、某月的第一天、某月的最后一天
方法 /// <summary> /// 取得当前年的第一天 /// </summary> /// <param name="datetime"> ...
验证码识别服务2Captcha框架
2Captcha是一个自动验证码识别服务,主要用于解决各种互联网服务中的验证码问题.在许多网站注册账户或进行敏感操作时,为了验证用户是真实的而不是自动化程序,会出现验证码.用户必须正确输入验证码,才能 ...
构建LVS负载均衡集群
LVS即Linux虚拟服务器,目前 LVS 已经被集成到 Linux 内核模块中,该项目在 Linux 内核实现了基于 IP 的数据请求负载均衡调度方案,LVS集群采用IP负载均衡技术和基于内容请求分 ...
python-ssh链接linux查询日志，并按日志等级在控制台分颜色输出日志
import paramiko # unicode_utils.py def to_str(bytes_or_str): """ 把byte类型转换为str :param ...
【进阶篇】Java 实际开发中积累的几个小技巧（一）
目录前言一.枚举类的注解二.RESTful 接口三.类属性转换四.Stream 流五.判空和断言 5.1判空部分 5.2断言部分文章小结前言笔者目前从事一线 Java 开发今年是第 ...
Mysql 创建外键、索引的问题
总结: 创建外键的列,要求必须创建索引,通常我们只需要创建外键就可,索引他会自动创建.若是索引那里已经存在了组合索引,那么组合索引前面的第一列已经有了索引,所以创建外键的时候不会自动创建,但是后面的列 ...
Spring boot 的定时任务。
@Scheduled(fixedRate=2000):上一次开始执行时间点后2秒再次执行: @Scheduled(fixedDelay=2000):上一次执行完毕时间点后2秒再次执行: @Schedu ...
深入研究Delimiter，发现Delimiter 是自动合并重复的。
即使加上: MyList.StrictDelimiter := True; 也自动合并相邻的重复的.这点有好处也有坏处,坏处暂时还没有想到. -------------- 浙江省绍兴市越城区 ...
qwb2023落荒而逃版
前言 qwb2023 .12.15 被打废了,N1决赛和qwb,有一个pwn可以做的但是已经在做misc看都不看--无语了. Pyjail ! It's myFILTER !!!|SOLVED|N1n ...

使用rpa打开浏览器并执行js抓取页面元素详情步骤

使用rpa打开浏览器并执行js抓取页面元素详情步骤的更多相关文章

随机推荐

热门专题