这是简易数据分析系列的第 15 篇文章。

年末事情比较忙,很久不更新了,后台一直有读者催更,我看了一些读者给我的私信,发现一些通用的问题,所以单独写篇文章,介绍一些 Web Scraper 的进阶用法。

今天我们就来学习一些 CSS 选择器的知识,辅助 Web Scraper 更好的定位要选择的元素。

一、定位 HTML 节点

HTML 是什么?它是一个网页的骨架,是最最基础的东西。比如说你现在看的这篇文章,其实就是一个网页,每一行字都是 HTML 里的一个 <p> 标签。

网页就是由一行一行的 HTML 标签垒起来的,所以我们用 Web Scraper 的 Selector 选择的元素,本质上都是 HTML 标签,都是一个一个的 HTML 节点。

使用 Web Scraper 的 Selector 自动选择元素时,有时候选的节点不准,抓不到数据,这时候就要我们手动调节 Selector 生成的代码。那么第一个问题就来了,如何在网页里定位我们需要的 HTML 节点?

我们按 F12 打开网页的调试面板时,调试面板左上角有个箭头,我们点击一下,等箭头变成蓝色时,移动到我们要抓取节点的位置,然后再点击一下,就会自动定位这个 HTML 节点的位置。

下面请我们的老朋友——豆瓣电影TOP250,来演示一下如何定位。比如说我们想定位《肖申克的救赎》的电影名字,按照上面的步骤走一遍流程,动图如下:

是不是非常的简单?借助这个小箭头,我们可以很轻松的定位 HTML 节点。

二、CSS 选择器

CSS 是个什么东西?先不要管它为什么叫 CSS,这不重要。我们只要关注 CSS 是干什么的就行了。

有一个非常形象的比喻:HTML 是骨架,CSS 是衣服。如果世界上只有 HTML,那网页就全是千篇一律的 word 文档了,只有加上 CSS 的修饰,才有现在绚丽多彩的网页。

CSS 干的活说起来也简单,比如说改个字号大小啊,加个背景颜色啊,加些网页特效啊,不过这些对于 Web Scraper 来说都不需要,因为 Web Scraper 是个爬虫工具,关注点是数据,而不是设计。

CSS 里用来装饰的特性我们是用不到的,但是 CSS 里的选择器我们还是用得到的。Web Scraper 里用来选择元素的 Selector,背后依赖的的技术就是 CSS 选择器

CSS 选择器,官方定义了 50 多种,但是经过我的实践总结,Web Scraper 用的最多的只有 6 种,掌握这 6 种选择器,就可以解决 99% 的选择问题。

为了学习方便,我这里创建了一个简单的网页,专门用于 CSS 选择器的教学。

网页结构非常简单,用几个标签描述了一个五口之家:父亲、母亲、姐姐、哥哥和弟弟,还有一把玩具枪。我们就通过这个网页来学习 CSS 选择器

1.标签选择器

在这个家庭里,如果我想把所有的家庭成员选中,观察网页结构,你会发现五个人都被 <p> 标签包住了,所以我们直接在 Selector 中输入字符 p,就可以选择所有的家庭成员:

同理,如果我们要选择玩具枪,发现它被 <span> 标签包裹着,我们输入 span,就能选择玩具枪:

2.class 选择器

我们想选择父母怎么办?观察发现,父母的 <p> 标签上,有着 class="parent" 这个属性,我们可以利用 CSS 的 class 选择器,所以我们输入 .parent(注意: parent 前面有个小数点「.」),表示选中所有的有着 class="parent" 属性的标签,在这个例子里就可以选中父母:

当然,你也可以输入 p.parent,表示选中所有的有着 class="parent" 属性的 <p> 标签,一样可以选中父母。

3.id 选择器

如果你想选中玩具枪,除了前面直接输入 span,我们观察可以发现,span 上还有一个 id="toy" 属性。我们可以利用 CSS 选择器里的 id 选择器,可以输入 #toy(注意: toy 前面有个井号「#」),选中玩具枪:

4.属性选择器

HTML 是一个非常自由的文档,除了官方提供的一些属性,例如 class 和 id,我们还可以加一些自定义的属性。

比如说姐姐和哥哥,两个人都在跳舞,观察法相两个人的 <p> 标签上都加入了 dance 属性,所以我们可以通过输入 p[dance],通过属性选择这两个人:

其实前面的 class 选择器和 id 选择器,还可以写成 p[class=parent]span[id=toy],道理都是一样的。

5.后代元素选择器

HTML 是一个可以互相嵌套的文档结构,我们可以先确定父元素的位置,然后再在父元素里定位子元素。

举一个简单的例子,在前面定位玩具枪时,我们可以通过 id 选择器定位,也可以通过 span 元素定位,如果我们想通过父元素来定位该怎么做呢?

这时候后代元素选择器就该出场了。我们先通过 div.family 选择父元素,然后通过 div.family span 选择玩具枪(注意:div.familyspan 中间的空格不能丢):

同理,div.family div spandiv.family span#toy 都可以选中玩具枪。

6.直接指定子元素位置

:nth-of-type(n) 是一个非常有用的元素选择器,我们可以通过它直接指定元素。

比如说我们想选择弟弟,你会发现之前介绍的 5 种方法,都没办法直接选中他。这时候用 :nth-of-type(n) 就非常的简单了:弟弟是所有 p 标签的第 5 个元素,所以用 p:nth-of-type(5) 就可以直接选中。

三、实战

上文的知识密度还是有些大的,熟练使用还是需要一些刻意练习。我们这次就用多种姿势选择豆瓣电影的评分。

首先我们可以使用 class 选择器。输入 span.rating_num,选择评分:

然后我们可以试试属性选择器,定位 property="v:average" 这个自定义属性。输入 span[property='v:average'],选择评分:

我们还可以利用后代元素选择器定位子元素,然后直接指定子元素位置。输入 div.star span:nth-of-type(2) ,选择评分:

这个只是一次小小的实战练习,如果要较好的掌握,还需要多加练习。有时间的话还可以去

https://www.runoob.com/cssref/css-selectors.html

这个网页看看本文没有介绍的其他 CSS 选择器,说不定就在项目中用到了。

四、推荐阅读

浏览器中那些不为人知的使用技巧 | 简易数据分析 03

菜鸟教程:HTML 教程

菜鸟教程:CSS 选择器

5.联系我

因为文章发在各大平台上,账号较多不能及时回复评论和私信,有问题可关注公众号 ——「卤代烃实验室」,关注上车防失联。

简易数据分析 15 | Web Scraper 高级用法——CSS 选择器的使用的更多相关文章

  1. Web Scraper 高级用法——抓取属性信息 | 简易数据分析 16

    这是简易数据分析系列的第 16 篇文章. 这期课程我们讲一个用的较少的 Web Scraper 功能--抓取属性信息. 网页在展示信息的时候,除了我们看到的内容,其实还有很多隐藏的信息.我们拿豆瓣电影 ...

  2. Web Scraper 翻页——控制链接批量抓取数据(Web Scraper 高级用法)| 简易数据分析 05

    这是简易数据分析系列的第 5 篇文章. 上篇文章我们爬取了豆瓣电影 TOP250 前 25 个电影的数据,今天我们就要在原来的 Web Scraper 配置上做一些小改动,让爬虫把 250 条电影数据 ...

  3. 简易数据分析 04 | Web Scraper 初尝--抓取豆瓣高分电影

    这是简易数据分析系列的第 4 篇文章. 今天我们开始数据抓取的第一课,完成我们的第一个爬虫.因为是刚刚开始,操作我会讲的非常详细,可能会有些啰嗦,希望各位不要嫌弃啊:) 有人之前可能学过一些爬虫知识, ...

  4. 简易数据分析 07 | Web Scraper 抓取多条内容

    这是简易数据分析系列的第 7 篇文章. 在第 4 篇文章里,我讲解了如何抓取单个网页里的单类信息: 在第 5 篇文章里,我讲解了如何抓取多个网页里的单类信息: 今天我们要讲的是,如何抓取多个网页里的多 ...

  5. 简易数据分析 08 | Web Scraper 翻页——点击「更多按钮」翻页

    这是简易数据分析系列的第 8 篇文章. 我们在Web Scraper 翻页--控制链接批量抓取数据一文中,介绍了控制网页链接批量抓取数据的办法. 但是你在预览一些网站时,会发现随着网页的下拉,你需要点 ...

  6. 简易数据分析 09 | Web Scraper 自动控制抓取数量 & Web Scraper 父子选择器

    这是简易数据分析系列的第 9 篇文章. 今天我们说说 Web Scraper 的一些小功能:自动控制 Web Scraper 抓取数量和 Web Scraper 的父子选择器. 如何只抓取前 100 ...

  7. 简易数据分析 10 | Web Scraper 翻页——抓取「滚动加载」类型网页

    这是简易数据分析系列的第 10 篇文章. 友情提示:这一篇文章的内容较多,信息量比较大,希望大家学习的时候多看几遍. 我们在刷朋友圈刷微博的时候,总会强调一个『刷』字,因为看动态的时候,当把内容拉到屏 ...

  8. 简易数据分析 11 | Web Scraper 抓取表格数据

    这是简易数据分析系列的第 11 篇文章. 今天我们讲讲如何抓取网页表格里的数据.首先我们分析一下,网页里的经典表格是怎么构成的. First Name 所在的行比较特殊,是一个表格的表头,表示信息分类 ...

  9. 简易数据分析 12 | Web Scraper 翻页——抓取分页器翻页的网页

    这是简易数据分析系列的第 12 篇文章. 前面几篇文章我们介绍了 Web Scraper 应对各种翻页的解决方法,比如说修改网页链接加载数据.点击"更多按钮"加载数据和下拉自动加载 ...

随机推荐

  1. 【Leetcode链表】环形链表 II(142)

    题目 给定一个链表,返回链表开始入环的第一个节点. 如果链表无环,则返回 null. 为了表示给定链表中的环,我们使用整数 pos 来表示链表尾连接到链表中的位置(索引从 0 开始). 如果 pos ...

  2. 高可用Kubernetes集群原理介绍

    ■ 文/ 天云软件 云平台开发工程师 张伟 1. 背景 Kubernetes作为容器应用的管理中心,对集群内部所有容器的生命周期进行管理,结合自身的健康检查及错误恢复机制,实现了集群内部应用层的高可用 ...

  3. vue单页面项目返回上一页无效,链接变化了,但是页面没有变化

    在最近的项目中,返回上一页没有效果,经过好久的排查才发现问题,是路由守卫写法不规范导致. 在项目中用路由守卫做了登录拦截,没登录的跳转到登录页面.页面跳转和拦截都没问题,但是返回上一页就不行了,也没有 ...

  4. 【BootStrap】--具有增删改查功能的表格Demo

    [BootStrap]--具有增删改查功能的表格Demo 目录(?)[+] 前言 版本一 样式 代码 版本二 样式 代码 版本三 样式 代码 总结 前言 bootstrap的表格样式,有类似EasyU ...

  5. WPF Canvas实现进度条

    原文:WPF Canvas实现进度条 先看效果图: 思路: 一个Canvas做背景,一个Canvas用来显示进度,图片放在显示进度的Canvas中,靠右设置为图片本身宽度一半的距离,视觉上实现以图片中 ...

  6. SDO_RELATE和SDO_GEOM.RELATE

    SDO_RELATE需要事先建立索引,而SDO_GEOM.RELATE不用. SDO_RELATE返回True或False, SDO_GEOM.RELATE除可返回True或False外,还可返回关系 ...

  7. 阿里云CDN技术掌舵人文景:相爱相杀一路狂奔的这十年

    导读:提到阿里云CDN,不得不提技术掌舵人姚伟斌(文景),虽然他不是团队中最“老”的同学,但他却历经了淘宝业务发展最为飞速的几年,见证了从最初服务淘宝和集团内部的CDN,到如今国内服务客户最多的云CD ...

  8. @codechef - SERSUM@ Series Sum

    目录 @description@ @solution@ @part - 1@ @part - 2@ @part - 3@ @accepted code@ @details@ @description@ ...

  9. 2015年热门的国产开源软件TOP 50

    2015年热门的国产开源软件TOP 50 开源中国在 2015 年得到了快速的发展,单开源软件收藏量就接近 40000 款,其中不乏优质的国产开源项目.本文从软件的收藏.下载.访问等多角度挑选出了 2 ...

  10. hdu 4419 Colourful Rectangle (离散化扫描线线段树)

    Problem - 4419 题意不难,红绿蓝三种颜色覆盖在平面上,不同颜色的区域相交会产生新的颜色,求每一种颜色的面积大小. 比较明显,这题要从矩形面积并的方向出发.如果做过矩形面积并的题,用线段树 ...