web scraper

https://www.jianshu.com/p/76cad8e963b5

:nth-of-type(-n+100)

元素名后加个 nth-of-type(-n+100)，暂时只抓取前 100 条数据。

:nth-of-type(-n+N) 控制加载数量时，其实相当于在这个网页设立一个计数器，当数据一直累加到我们想要的数量时，就会停止抓取。

通过 Element Click 点击分页器翻页，只适用于网页没有刷新的情况,但是对于使用翻页器的网页，每次的翻页相当于刷新当前网页，这样每次都会设立一个计数器。https://sspai.com/post/57638

比如说你想抓取 1000 条数据，但是第 1 页网页只有 20 条数据，抓到最后一条了，还差 980 条；然后一翻页，又设立一个新的计数器，抓完第 2 页的最后一条数据，还差 980，一翻页计数器就重置，又变成 1000 了......所以这个控制数量的方法就失效了。

所以结论就是，如果翻页器类型的网页想提前结束抓取，只有断网的这种方法。

创建详情页子选择器

当你点击链接后就会发现，浏览器会在一个新的 Tab 页打开详情页，但是 Web Scraper 的选择窗口开在列表页，无法跨页面选择想要的数据。

处理这个问题也很简单，你可以复制详情页的链接，拷贝到列表页所在的 Tab 页里，然后回车重新加载，这样就可以在当前页面选择了。

抓取前我们要把等待时间调整得大一些，默认时间是 2000 ms，我这里改成了 5000 ms。

P 键，就可以匹配到标题的父标签

S：Select，按下键盘的 S 键，选择选中的元素

P：Parent，按下键盘的 P 键，选择选中元素的父节点

C：Child，按下键盘的 C 键，选择选中元素的子节点

Click type

点击类型，click more 表示点击多次，因为我们要抓取批量数据，这里就选择 click more，还有一个 click once 选项，点击一次

2.Click element uniqueness

这个选项是控制 Web Scraper 什么时候停止抓取数据的。比如说 Unique Text，表示文字改变时停止抓取数据。

我们都知道，一个网站的数据不可能是无穷无尽的，总有加载完的时候，这时候「加载更多」按钮文字可能就变成「没有更多」、「没有更多数据」、「加载完了」等文字，当文字变动时，Web scraper 就会知道没有更多数据了，会自动停止抓取数据。

3.Multiple

这个我们的老朋友了，表示是否多选，这里我们要抓取多条数据，当然要打勾。

4.Discard initial elements

是否丢弃初始元素，这个主要是去除一些网站的重复数据用的，不是很重要，我们这里也用不到，直接选择 Never discard，从不丢弃数据。

5.Delay

延迟时间，因为点击加载更多后，数据加载需要一段时间，delay 就是等待数据加载的时间。一般我们设置要大于等于 2000，因为延迟 2s 是一个比较合理的数据，如果网络不好，我们可以设置更大的数字。

container注意把 Type 类型改为 Element（元素），因为在 Web Scraper 里，只有元素类型才能包含多个内容。

因为我们是在 container 内选择文字的，一个 container 内只有一个电影名，所以多选不要勾选，要不然会抓取失败。

【也就是说在选择容器的时候，要勾选multiple，意味着爬取所有的容器，但是后面的节点只是取每一个节点里面的一个，所以不能勾选多选】

Web Scraper 对中文关键字索引的支持不太友好，所以会抛出一些诡异的 bug，因此我并不建议大家用它的 Table 功能。

如果真的想抓取表格数据，我们可以用之前的方案，先创建一个类型为 Element 的 container，然后在 container 里再手动创建子选择器，这样就可以规避这个问题。

要借助 Link 选择器来辅助我们翻页,Parent Selectors ——父选择器。next_page 这次要有两个父节点——_root 和 next_page，键盘按 shift 再鼠标点选就可以多选了,保存 next_page 选择器后，在它的同级下再创建 container 节点，用来抓取电影数据

翻页选择器节点 next_page 和数据选择器节点 container 是同一级，两个节点的父节点都是两个：_root 和 next_page：，这样解决了翻页的时候页面重新刷新的问题相当于递归的思想了

web scraper的更多相关文章

Web::Scraper 页面提取分析
一组用来提取HTML文档中元素内容的工具集,它能够理解HTML和CSS选择器以及XPath表达式. 语法 use URI; use Web::Scraper; # First, create your ...
web scraper 抓取网页数据的几个常见问题
如果你想抓取数据,又懒得写代码了,可以试试 web scraper 抓取数据. 相关文章: 最简单的数据抓取教程,人人都用得上 web scraper 进阶教程,人人都用得上如果你在使用 web s ...
web scraper 抓取分页数据和二级页面内容
如果是刚接触 web scraper 的,可以看第一篇文章. web scraper 是一款免费的,适用于普通用户(不需要专业 IT 技术的)的爬虫工具,可以方便的通过鼠标和简单配置获取你所想要数据. ...
使用 Chrome 浏览器插件 Web Scraper 10分钟轻松实现网页数据的爬取
web scraper 下载:Web-Scraper_v0.2.0.10 使用 Chrome 浏览器插件 Web Scraper 可以轻松实现网页数据的爬取,不写代码,鼠标操作,点哪爬哪,还不用考虑爬 ...
web scraper——简单的爬取数据【二】
web scraper——安装[一] 在上文中我们已经安装好了web scraper现在我们来进行简单的爬取,就来爬取百度的实时热点吧. http://top.baidu.com/buzz?b=1&a ...
web scraper——安装【一】
准备工作工欲善其事必先利其器,既然是要安装web scraper一些***的工具是必然不可缺少的,如果没有的话,先下载个蓝灯用用吧. 蓝灯最新版下载地址下载安装完成后双击打开即可,这时候会弹出一个 ...
不写代码也能爬虫Web Scraper
https://www.jianshu.com/p/d0a730464e0c web scraper中文网 http://www.iwebscraper.com/category/%E6%95%99% ...
简易数据分析 02 | Web Scraper 的下载与安装
这是简易数据分析系列的第 2 篇文章. 上篇说了数据分析在生活中的重要性,从这篇开始,我们就要进入分析的实战内容了.数据分析数据分析,没有数据怎么分析?所以我们首先要学会采集数据. 我调研了很多采集数 ...
简易数据分析 04 | Web Scraper 初尝--抓取豆瓣高分电影
这是简易数据分析系列的第 4 篇文章. 今天我们开始数据抓取的第一课,完成我们的第一个爬虫.因为是刚刚开始,操作我会讲的非常详细,可能会有些啰嗦,希望各位不要嫌弃啊:) 有人之前可能学过一些爬虫知识, ...
Web Scraper 翻页——控制链接批量抓取数据
![](https://image-1255652541.cos.ap-shanghai.myqcloud.com/images/20190708214014.png) 这是简易数据分析系列的第 5 ...

随机推荐

Vue3手册译稿 - 深入组件 - 自定义事件
本章节需要掌握组件基础 emit我译成发射,觉得发射这个词比较形象的形容将子组件事件发射出来的一个动作. 事件名像组件和props,事件名也会进行自动转换,如果你在子组件里发射一个驼峰命名的事件,你 ...
vps-java环境配置
昨天准备用vps打一台反序列化的机子要java环境,java环境安装了但是javac一直用不了,鼓捣了一段时间把配置文件给搞没了,只好重装vps,找了很多帖子才搞定,为了防止下次继续出现这种情况又要重 ...
Windows下C++/Fortran调用.exe可执行文件
目录软件环境 Windows下CMake编译配置设置项目的generator Command Line CMake GUI PreLoad.cmake 设置make 示例程序 CMake 设置Fo ...
Nginx错误日志（error_log）配置及信息详解
Nginx错误日志信息介绍 Nginx的错误信息是调试Nginx服务的重要手段,属于核心功能模块(ngx_core_module)的参数,该参数的名字为error_log,可以放在Main区块中全局配 ...
面试题：Linux 中一个文件的 MAC 代表什么意思
查看文件状态 stat ls 命令能够查看文件的类型.时间.属主.属组,大小以及最近的修改时间等信息,但是还有一些文件的扩展属性,是使用 ls 命令无法查看到的 stat 命令则用于显示文件的详细属性 ...
从零玩转第三方登录之QQ登录
从零玩转第三方登录之QQ登录前言在真正开始对接之前,我们先来聊一聊后台的方案设计.既然是对接第三方登录,那就免不了如何将用户信息保存.首先需要明确一点的是,用户在第三方登录成功之后, 我们能拿到的 ...
《构建之法》& CI/CD调研
项目内容这个作业属于哪个课程 2021春季软件工程(罗杰任健) 这个作业的要求在哪里 2021年软工-个人阅读作业2 我在这个课程的目标是提升软件开发能力与团队意识这个作业在哪个具体方面帮助 ...
详细Tomcat安装及问题排查
一.安装 1.下载官网:https://tomcat.apache.org/ 2.将下载后的包解压到目录中会出现以下页面 3.设置环境变量,向path中添加tomcat的bin目录地址 4.cmd进入 ...
内网渗透-windows认证
前言:全国HW刚结束,加强一波内网概念,去年11月红队成绩并不理想,这次必拿下好成绩.冲!!! 0x00 本地认证本地认证基础知识在本地登录Windows的情况下,操作系统会使用用户输入的密码作为 ...
基于MATLAB的手写公式识别(4)
啊啊啊~ 目的 1.考虑图像预处理的合理性和结果.能达到什么样的结果,该结果是否满足我的需要,如果多余是否有删除的必要? 2.切割问题,他是怎样实现字符的切割的?字符之间识别的依据和划定该依据的标准是 ...

web scraper

创建详情页子选择器

web scraper的更多相关文章

随机推荐

热门专题