nodejs中使用cheerio爬取并解析html网页

转 https://www.jianshu.com/p/8e4a83e7c376

cheerio用于node环境，用法与语法都类似于jquery。jquery本身也可以用于node，在借助于第三方库jsdom的情况下，详见：https://www.npmjs.com/package/jquery

安装

npm install cheerio

使用

const cheerio = require('cheerio')

const $ = cheerio.load('<h2 class="title">Hello world</h2>')

$('h2.title').text('Hello there!')

$('h2').addClass('welcome')

$.html()

//=> <html><head></head><body><h2 class="title welcome">Hello there!</h2></body></html>

运用

场景

取出这个网址中的文章列表：https://support.fcoin.com/hc/zh-cn/sections/360000782633-最新公告

分析html源码

重点关注class="article-list-link"的<a>，提取它里attr属性与text内容，就算完成目标了。

<ul class="article-list">

            <li class="article-list-item ">

              <a href="/hc/zh-cn/articles/360006803454-FT%E9%A2%84%E5%85%88%E5%8F%91%E8%A1%8C%E9%83%A8%E5%88%86%E5%AE%9E%E8%A1%8C-%E8%A7%A3%E5%86%BB%E5%8D%B3%E9%94%81%E4%BB%93-%E5%8E%9F%E5%88%99%E7%9A%84%E5%85%AC%E5%91%8A" class="article-list-link">FT预先发行部分实行“解冻即锁仓”原则的公告</a>

            </li>

            <li class="article-list-item ">

              <a href="/hc/zh-cn/articles/360006823933-%E5%85%B3%E4%BA%8EFInsur%E8%BF%90%E4%BD%9C%E6%9C%BA%E5%88%B6%E7%9A%84%E4%B8%80%E7%B3%BB%E5%88%97%E8%AF%B4%E6%98%8E" class="article-list-link">关于FInsur运作机制的一系列说明</a>

            </li>

...

代码与注释说明

var request = require('request')

const cheerio = require('cheerio')

var http = (uri) => {

  return new Promise((resolve, reject) => {

    request({

      uri: uri,

      method: 'GET'

    }, (err, response, body) => {

      if (err) {

        console.log(err)

      }

      resolve(body)

    })

  })

}

(function () {

  // 定义目标网址

  var target = 'https://support.fcoin.com/hc/zh-cn/sections/360000782633-%E6%9C%80%E6%96%B0%E5%85%AC%E5%91%8A'

  // 使用request.js库发送get请求

  http(target).then(html => {

    // 载入并初始化cheerio

    const $ = cheerio.load(html)

    // 取出目标节点，即带article-list-link css类的<a>

    var linksDom = $('a.article-list-link')

    // 遍历dom集数组

    linksDom.each((index, item) => {

      // 取出title，注意这里使用了$(item)，而不是item本身

      var title = $(item).text()

      // 类似地，取出链接地址

      var url = $(item).attr('href')

      // 解码可选，为了让结果显示中文汉字更直观

      url = decodeURIComponent(url)

      // 由于href使用的是相对于根目标的路径，因而从目标网址中提取域名前缀拼接上

      url = target.match(/(\w+:\/\/[^/:]+)([^# ]*)/)[1] + url

      // 输出到控制台预览结果

      console.log(title)

      console.log(url)

    })

  })

})()

预览结果

result.png

对比说明

相比纯正则表达式解析，使用cheerio轻松，语义也清晰，特别适合html文本这种特定环境下使用。

nodejs中使用cheerio爬取并解析html网页的更多相关文章

Python 网络爬虫 006 (编程) 解决下载（或叫：爬取）到的网页乱码问题
解决下载(或叫:爬取)到的网页乱码问题使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyCharm 20 ...
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息 2018-07-21 23:53:02 larger5 阅读数 4123更多分类专栏: 网络爬虫版权声明: ...
nodejs爬虫笔记(三)---爬取YouTube网站上的视频信息
思路:通过笔记(二)中代理的设置,已经可以对YouTube的信息进行爬取了,这几天想着爬取网站下的视频信息.通过分析YouTube,发现可以从订阅号入手,先选择几个订阅号,然后爬取订阅号里面的视频分类 ...
R中使用rvest爬取数据小试
总结R中使用 xpath 和 css selectors 获取标签内容(xpath功能强大,而CSS选择器通常语法比较简洁,运行速度更快些) 例:抓取下面标签的内容: <h3 class=&qu ...
使用nodejs的puppeteer库爬取瓜子二手车网站
const puppeteer = require('puppeteer'); (async () => { const fs = require("fs"); const ...
阿狸V任务页面爬取数据解析
需求: 爬取:https://v.taobao.com/v/content/video 所有主播详情页信息首页分析分析可以得知数据是通过ajax请求获取的. 分析请求头详情页分析详情页和详情页 ...
Python爬虫初探 - selenium+beautifulsoup4+chromedriver爬取需要登录的网页信息
目标之前的自动答复机器人需要从一个内部网页上获取的消息用于回复一些问题,但是没有对应的查询api,于是想到了用脚本模拟浏览器访问网站爬取内容返回给用户.详细介绍了第一次探索python爬虫的坑. 准 ...
长安铃木经销商爬取（解析xml、post提交、python中使用js代码）
1.通过火狐浏览器,查找大长安铃木官网中关于经销商的信息主要在两个网页中 http://www.changansuzuki.com/khfw/xml/pro.xml 地域信息 http://www. ...
python中使用tabula爬取pdf数据并导出表格
Tabula是专门用来提取PDF表格数据的,同时支持PDF导出CSV.Excel格式. 首先安装tabula-py: tabula-py依赖库包括Java.pandas.numpy所以需要保证运行环境 ...

随机推荐

jmeter使用小结
写这篇短文主要想详细介绍一下jmeter中取样器.逻辑控制器.前置处理器.后置处理器.定时器.配置元件等,可能看起来比较繁杂,其实里面很多操作是类似的,一篇总结和记录的博客: jmeter官方用户手册 ...
mac php Swoole入门
一. swoole 扩展安装安装前必须保证系统已经安装了下列软件 php-7.0 或更高版本 gcc-4.8 或更高版本 make autoconf pcre (CentOS系统可以执行命令:yum ...
windows创建虚拟环境
mkvirtualenv --no-site-packages --python=C:\Python36\python.exe MyCrawler
记python 使用腾讯ocr 识别代码报错 CERTIFICATE_VERIFY_FAILED
腾讯提供的demo测试通过写入到代码出现 ClientNetworkError? [TencentCloudSDKException] code:ClientNetworkError messag ...
第一篇 -- XML基础
一.XML简介 XML是一种标记语言,用于描述数据,它提供一种标准化的方式来来表示文本数据.XML文档以.xml为后缀.需要彻底注意的是XML是区分大小写的. 先从一个简单的XML例子来了解下xml基 ...
P5021 赛道修建[贪心+二分]
题目描述 C 城将要举办一系列的赛车比赛.在比赛前,需要在城内修建 mm 条赛道. C 城一共有 nn 个路口,这些路口编号为 1,2,-,n1,2,-,n,有 n-1n−1 条适合于修建赛道的双向通 ...
Caused by: com.mysql.jdbc.exceptions.jdbc4.MySQLIntegrityConstraintViolationException: Column 'org_mer_id' in where clause is ambiguous
### Error querying database. Cause: com.mysql.jdbc.exceptions.jdbc4.MySQLIntegrityConstraintViolatio ...
项目Beta冲刺（团队3/7)
项目Beta冲刺(团队) --3/7 作业要求: 项目Beta冲刺(团队) 1.团队信息团队名 :男上加男成员信息 : 队员学号队员姓名个人博客地址备注 221600427 Alicesft ...
洛谷P5092 [USACO2004OPEN]Cube Stacking 方块游戏 (带权并查集)
题目描述约翰和贝茜在玩一个方块游戏.编号为 1\ldots n 1-n 的 n n ( 1 \leq n \leq 30000 1≤n≤30000 )个方块正放在地上,每个构成一个立方柱. 游戏开始 ...
SpringBoot——报错总结
前言记录SpringBoot的相关报错信息错误无法引入@ResponseBody和@RequestMapping("/") <dependency> <gr ...

nodejs中使用cheerio爬取并解析html网页

nodejs中使用cheerio爬取并解析html网页

安装

使用

运用

场景

分析html源码

代码与注释说明

预览结果

对比说明

nodejs中使用cheerio爬取并解析html网页的更多相关文章

随机推荐

热门专题