前言

cheerio是一款非常实用的nodejs第三方包,适用于服务端(nodejs端)处理html。它有着与jquery及其相似(几乎是一致)的api,速度飞快,使用灵活,而且不仅能够处理html,同样也能处理xml。

本文主要的参考文档就是cheerio的官方文档,基本上就是它的翻译。

APIs

cheerio文档的api我将其分为以下几个方面,包括

  • 加载(loading)
  • 选择器(selectors)
  • 属性操作(attributes)
  • 结构推导(traversing)
  • 结构操作(manipulation)
  • 实用方法(Miscellaneous & Utilities)

在具体讲述各个api之前,我们给出一份html代码,这份html代码将会是我们下面所有api操作的示例代码。

1
2
3
4
5
<ul id="fruits">
<li class="apple">Apple</li>
<li class="orange">Orange</li>
<li class="pear">Pear</li>
</ul>

加载(loading)

在使用cheerio进行各种操作之前,我们需要首先加载一份html得到一个cherrio对象。比如

1
2
var cheerio = require('cheerio');
var $ = cheerio.load('<ul>...</ul>');

因为cheerio与jquery有着极其相似的语法,所以我们一般将得到的cheerio对象命名为$,装作它就是jquery对象,反正基本上用法都一样。

除了.load()方法之外,我们还可以使用$( selector, [context], [root] )这个api来获得部分html节点作为cheerio对象。比如

1
2
3
var $ = require('cheerio');
var t1 = $('ul', '<ul id = "fruits">...</ul>');
var t2 = $('li', 'ul', '<ul id = "fruits">...</ul>');

其中第一个参数就是我们获取的目标参数。所以t1得到是ul标签封装的cheerio对象,t2得到是3个li标签封装的cheerio对象的集合。

此外,我们在加载html时还可以设置一些配置参数,比如

1
2
3
4
$ = cheerio.load('<ul id = "fruits">...</ul>', {
ignoreWhitespace: true,
xmlMode: true
});

关于cheerio的配置,一般我们用的较少,它默认的配置如下,

1
2
3
4
5
{
ignoreWhitespace: false, // 是否忽略空白符
xmlMode: false, // 是否是解析xml文档
lowerCaseTags: false // 是否采用xml模式处理。这将会影响部分tag的处理。
}

关于cheerio配置的更多内容,请参考这里这里

选择器(selectors)

cheerio的选择器基本上跟jquery拥有一致的用法。如果你熟悉jquery,那你将会倍感亲切。

1
$(selector, [context], [root])

其中selector是目标选择器,context是目标选择器的上下文,root是上下文context的上下文。selectorcontext可以是字符串表达式、dom元素、dom元素集合、cheerio对象,而root一般都是html文档字符串。

一般地,我们通过cheerio操作html,都是以上面的这个api得到目标元素的cheerio对象开始,然后再进行各种操作。比如

1
2
3
4
5
$('.apple', '#fruits').text(); //=> Apple

$('ul .pear').attr('class'); //=> pear

$('li[class=orange]').html(); //=> <li class="orange">Orange</li>

属性操作(attributes)

cheerio提供了操作元素属性的一系列方法。

.attr(name[, value])

这个方法很简单,第二个参数是可选的。当只有第一个参数时表示获取属性的值,当有带有第二个参数时,表示设置属性的值。

1
2
3
4
$('ul').attr('id'); //=> fruits

$('.apple').attr('id', 'favorite').html();
//=> <li class="apple" id="favorite">Apple</li>

.removeAttr(name)

通过name移除某一个属性,同时返回被移除的这个元素。

1
2
$('.pear').removeAttr('class').html();
//=> <li>Pear</li>

.hasClass(className)

判断某元素的class中是否包含className

1
2
3
4
5
$('.pear').hasClass('pear'); //=> true

$('apple').hasClass('fruit'); //=> false

$('li').hasClass('pear'); //=> true

.addClass(className)

给某元素添加一个名为className的样式名。

1
2
3
4
5
$('.pear').addClass('fruit').html();
//=> <li class = "pear fruit">Pear</li> $('.apple').addClass('fruit red').html();
//=> <li class = "apple fruit red">Apple</li>

.removeClass(className)

将某元素上名为className的样式名移除。如果不存在className,则移除所有的样式名。

1
2
3
4
5
$('.pear').removeClass('pear').html();
//=> <li class="">Pear</li> $('.apple').addClass('red').removeClass().html();
//=> <li class="">Apple</li>

结构推导(traversing)

可以像使用jquery那样使用cheerio,通过某一个元素来获取它的父元素、子元素、兄弟元素等等。

.find(selector)

在某元素下查询满足选择条件的元素。

1
$('#fruits').find('li').length; //=> 3

.parent()

获取某元素的父元素。

1
$('.pear').parent().attr('id'); //=> fruits

.next()

获取某元素的下一个兄弟元素。

1
$('.apple').next().hasClass('orange'); //=> true

.perv()

获取某元素的上一个兄弟元素。

1
$('.orange').prev().hasClass('apple'); //=> true

.siblings()

获取某元素的所有同级元素。(当然除了它自己)

1
$('.pear').siblings().length; //=> 2

.children([selector])

获取某元素的孩子节点。可以传入参数在所有的孩子节点中进行筛选。

1
2
3
$('#fruits').children().length; //=> 3

$('#fruits').children('.pear').text(); //=> Pear

.each(function(index, element){...})

和jquery类似的each迭代器,对每一个元素进行处理。

1
2
3
4
5
6
7
var fruits = [];

$('li').each(function(i, elem) {
fruits[i] = $(this).text();
}); fruits.join(', '); //=> Apple, Orange, Pear

.map(function(index, element){...})

和jquery类似的each迭代器,对每一个元素进行处理并返回一个值。

1
2
3
4
$('li').map(function(i, el) {
// this === el
return $(this).attr('class');
}).get().join(', '); //=> apple, orange, pear

.filter(selector) & .filter(function(index))

在cheerio对象集合中进行条件筛选。

1
2
3
4
5
6
$('li').filter('.orange').attr('class'); //=> orange

$('li').filter(function(i, el) {
// this === el
return $(this).attr('class') === 'orange';
}).attr('class') //=> orange

.first()

获取cheerio集合中的第一个cheerio对象。

1
$('#fruits').children().first().text(); //=> Apple

.last()

获取cheerio集合中的最后一个cheerio对象。

1
$('#fruits').children().last().text(); //=> Pear

.eq(i)

根据索引获取cheerio集合中的某一个对象。参数可以使负数,表示从尾部开始索引。

1
2
3
$('li').eq(0).text(); //=> Apple

$('li').eq(-1).text(); //=> Pear

结构操作(manipulation)

cheerio提供一系列修改dom结构的方法。

.append(content, [content, ...])

content插入到某元素中作为该元素的最后一个子元素。

1
2
3
4
5
6
7
8
$('ul').append('<li class = "plum">Plum</li>');
$.html();
// <ul id = "fruits">
// <li class = "apple">Apple</li>
// <li class = "orange">Orange</li>
// <li class = "pear">Pear</li>
// <li class = "plum">Plum</li>
// </ul>

.prepend(content, [content, ...])

content插入到某元素中作为该元素的第一个子元素。

1
2
3
4
5
6
7
8
$('ul').prepend('<li class = "plum">Plum</li>');
$.html();
// <ul id = "fruits">
// <li class = "plum">Plum</li>
// <li class = "apple">Apple</li>
// <li class = "orange">Orange</li>
// <li class = "pear">Pear</li>
// </ul>

.after(content, [content, ...])

content插入到某元素的后面,并作为其后面第一个兄弟节点。

1
2
3
4
5
6
7
8
$('.apple').after('<li class = "plum">Plum</li>');
$.html();
// <ul id = "fruits">
// <li class = "apple">Apple</li>
// <li class = "plum">Plum</li>
// <li class = "orange">Orange</li>
// <li class = "pear">Pear</li>
// </ul>

.before(content, [content, ...])

content插入到某元素的前面,并作为其前面的第一个兄弟节点。

1
2
3
4
5
6
7
8
$('.apple').before('<li class = "plum">Plum</li>');
$.html();
// <ul id = "fruits">
// <li class = "plum">Plum</li>
// <li class = "apple">Apple</li>
// <li class = "orange">Orange</li>
// <li class = "pear">Pear</li>
// </ul>

.remove([selector])

移除某一个节点以及他们的孩子节点。

1
2
3
4
5
6
$('.pear').remove();
$.html();
// <ul id = "fruits">
// <li class = "apple">Apple</li>
// <li class = "orange">Orange</li>
// </ul>

.replaceWith(content)

替换匹配的节点。

1
2
3
4
5
6
7
8
var plum = $('<li class = "plum">Plum</li>');
$('.pear').replaceWith(plum);
$.html();
// <ul id = "fruits">
// <li class = "apple">Apple</li>
// <li class = "orange">Orange</li>
// <li class = "plum">Plum</li>
// </ul>

.empty()

清空一个节点,移除其所有的孩子节点。

1
2
3
$('ul').empty();
$.html();
// <ul id = "fruits"></ul>

.html([htmlString])

获取某节点的html字符串。如果传入参数,则设置该元素的html结构。

1
2
3
4
$('.orange').html(); //=> Orange

$('#fruits').html('<li class = "mango">Mango</li>').html();
//=> <li class="mango">Mango</li>

.text([textString])

获取某节点的纯文本。

1
2
3
4
5
6
7
$('.orange').text();
//=> Orange $('ul').text();
//=> Apple
// Orange
// Pear

实用方法(Miscellaneous & Utilities)

.toArray()

将cheerio对象集合转换成真正的数据结构。

1
2
$('li').toArray();
//=> [ {...}, {...}, {...} ]

.clone()

克隆一个节点。

1
var moreFruit = $('#fruits').clone();

$.root

对某一cheerio对象的根节点进行相关操作。

1
2
$.root().append('<ul id="vegetables"></ul>').html();
//=> <ul id="fruits">...</ul><ul id="vegetables"></ul>

$.contains(container, contained)

检查container中是否是否包含contained元素。

1
$.contains('#fruits', '.pear'); // => true

End! All rights reserved @gejiawen.

通读Cheerio文档的更多相关文章

  1. 通读cheerio API ——NodeJs中的jquery

    通读cheerio API ——NodeJs中的jquery 所谓工欲善其事,必先利其器,所以通读了cheerio的API,顺便翻译了一遍,有些地方因为知道的比较少,不知道什么意思,保留了英文,希望各 ...

  2. IO流-ZIP文档

    java中通常使用ZipInputStream来读ZIP文档 ZIP文档(通常)以压缩格式存储了一个或多个文件,每个ZIP文档都有一个包含诸如文件 名字和所使用的压缩方法等信息的头.在Java中,可以 ...

  3. [转]支付宝接口程序、文档及解读(ASP.NET)

    本文转自:http://www.cnblogs.com/blodfox777/archive/2009/11/03/1595223.html 最近需要为网站加入支付宝的充值接口,而目前关于支付宝接口开 ...

  4. [ Laravel 5.5 文档 ] 快速入门 —— 目录结构篇

    简介 Laravel 默认的目录结构试图为不管是大型应用还是小型应用提供一个良好的起点.当然,你也可以按照自己的喜好重新组织应用的目录结构,因为 Laravel 对于指定类在何处被加载没有任何限制 — ...

  5. 20165234 [第二届构建之法论坛] 预培训文档(Java版) 学习总结

    [第二届构建之法论坛] 预培训文档(Java版) 学习总结 我通读并学习了此文档,并且动手实践了一遍.以下是我学习过程的记录~ Part1.配置环境 配置JDK 原文中提到了2个容易被混淆的概念 JD ...

  6. 通读cheerio API

    所谓工欲善其事,必先利其器,所以通读了cheerio的API,顺便翻译了一遍,有些地方因为知道的比较少,不知道什么意思,保留了英文,希望各位不吝告诉我,然后一起把这个翻译完成. ###cheerio ...

  7. 通读cheerio API-网络爬虫

    所谓工欲善其事,必先利其器,所以通读了cheerio的API,顺便翻译了一遍,有些地方因为知道的比较少,不知道什么意思,保留了英文,希望各位不吝告诉我,然后一起把这个翻译完成. ###cheerio ...

  8. 9、perldoc文档阅读器

    转载:http://www.cnblogs.com/nkwy2012/p/6016320.html 一般来说,将文档的名称作为参数传递给perldoc命令,即可查阅该文档.比如下面,给定文档名称per ...

  9. 支付宝接口程序、文档及解读(ASP.NET)

    最近需要为网站加入支付宝的充值接口,而目前关于支付宝接口开发的资料比较杂乱,这里就我此次开发所用到的资料进行汇总整理,希望能够帮助需要的朋友. 开发步骤: 1. 确定签约类型 支付宝的接口有多种类型, ...

随机推荐

  1. C#写的COM组件注册问题兼论微软Regasm注册的BUG

    工作中自己用C#写了专门读写EXCEL(不需要OFFICE环境,直接读原始文件,速度快)的COM组件,在使用过程中,发现原先的注册程序是有问题的.网上也有同样的网友碰到这个问题,但都没找到合适的解决办 ...

  2. svn : Can not Parse lock / entries hashfile错误解决办法

    svn服务器死机重启之后,锁定文件的时候出下面的提示: Malformed file svn: Can't parse lock/entries hashfile '/data/svn/svnroot ...

  3. ios之快速枚举

    for(UIView * subView in self.view.subviews) { if([subView isKindOfClass:[XYZSeniorQueryView class]]) ...

  4. cocos2d-x getVisibleOrigin

    getVisibleSize:表示获得视口(可视区域)的大小,如果DesignResolutionSize跟屏幕尺寸一样大,则getVisibleSize等于getWinSize.getVisible ...

  5. MySQL递归查询树状表的子节点、父节点具体实现

    mysql版本(5.5.6等等)尚未支持循环递归查询,和sqlserver.oracle相比,mysql难于在树状表中层层遍历的子节点.本程序重点参考了下面的资料,写了两个sql存储过程,子节点查询算 ...

  6. 用ImageSwitcher实现显示图片(更改图片时有动画效果)

    ImageView和ImageSwitcher都是用来显示图片的.只不过后者在更新显示的图片的时候可以有动画效果. 注意点: 1.ImageSwitcher初始化需要定义一个ViewFactory,该 ...

  7. Eclipse with ADT的安装和使用

    我们从安卓官方网站下载下来的eclipse是捆绑好了ADT的,所以不用自己安装插件. 我现在在这个目录下简历一个空的文件夹--virtual,用来来存放虚拟机. 然后,在我的电脑上右键->属性, ...

  8. html效果增强

    1:提示框 http://keleyi.com/keleyi/phtml/jqplug/ 2:loading效果 <script>function showPage(){    $('#d ...

  9. Java中的Future模式原理自定义实现

    摘要:Future模式类似于js中的ajax等,是一个异步获取数据的机制,这里我把自己的一些形象理解通过代码实现了一下.该机制可以形象的理解为:调用获取数据的方法,首先获得一个没有装数据的空箱子(这个 ...

  10. 深入理解多线程(三)—— Java的对象头

    上一篇文章中我们从HotSpot的源码入手,介绍了Java的对象模型.这一篇文章在上一篇文章的基础上再来介绍一下Java的对象头.主要介绍一下对象头的作用,结构以及他和锁的关系. Java对象模型回顾 ...