node - 简单的爬虫案例

cherrio模块

安装

cnpm install cherrio

使用方法

const cheerio = require('cheerio')

const $ = cheerio.load('<h2 class="title">Hello world</h2>')

$('h2.title').text('Hello there!')

$('h2').addClass('welcome')

$.html()

//=> <html><head></head><body><h2 class="title welcome">Hello there!</h2></body></html>

request模块

var request = require('request');

request('http://www.google.com', function (error, response, body) {

  console.log('error:', error); // Print the error if one occurred

  console.log('statusCode:', response && response.statusCode); // Print the response status code if a response was received

  console.log('body:', body); // Print the HTML for the Google homepage.

});

爬虫系统 request cheerio

爬取一个网站的内容信息
分析内容
储存数据下载图片

简单的爬虫

//发起服务端请求 请求一个网页

const request = require('request')

const  fs= require('fs')

const path= require('path')

const cheerio = require('cheerio')

//以百度为例

let url ='https://www.baidu.com/'

request(url,(err,response,body)=>{

 console.log(err)

 //把爬取到的body 写入新文件中

  fs.writeFile(path.join(__dirname,'./baidu.html'),body,(err)=>{

    if(err){

      console.log('爬取失败')

    }else{

      console.log('爬取成功')

    }

  })

//根据一个网址 下载对应的网页文件

const $ = cheerio.load(body)

let imgs = []

// 用正则判断数组中的路径是否存在https

var Reg = /(http[s]?|ftp)/;

$('img').each((index, ele) => {  // 遍历所有

    var src = $(e).attr('src');

    if (!Reg.test(src)) {

        src = src.replace(/\/{2}/, 'https://') //正则判断

    }

    imgs.push(src)

})

// 下载数组里的图片

for (let index = 0; index < imgs.length; index++) {

    if (imgs[index].indexOf('png') !== -1) {

        request(imgs[index]).pipe(fs.createWriteStream(`./img/${index}.png`))    //用下标命名，要建好img文件夹

    };

}

})

node - 简单的爬虫案例的更多相关文章

node 简单的爬虫
基于express爬虫, 1,node做爬虫的优势首先说一下node做爬虫的优势第一个就是他的驱动语言是JavaScript.JavaScript在nodejs诞生之前是运行在浏览器上的脚本语言, ...
简单python爬虫案例(爬取慕课网全部实战课程信息)
技术选型下载器是Requests 解析使用的是正则表达式效果图: 准备好各个包 # -*- coding: utf-8 -*- import requests #第三方下载器 import re ...
NodeJs实现简单的爬虫
1.爬虫:爬虫,是一种按照一定的规则,自动地抓取网页信息的程序或者脚本:利用NodeJS实现一个简单的爬虫案例,爬取Boss直聘网站的web前端相关的招聘信息,以广州地区为例: 2.脚本所用到的nod ...
每天几分钟跟小猫学前端之node系列：用node实现最简单的爬虫
先来段求分小视频: https://www.iesdouyin.com/share/video/6550631947750608142/?region=CN&mid=6550632036246 ...
用node.js从零开始去写一个简单的爬虫
如果你不会Python语言,正好又是一个node.js小白,看完这篇文章之后,一定会觉得受益匪浅,感受到自己又新get到了一门技能,如何用node.js从零开始去写一个简单的爬虫,十分钟时间就能搞定, ...
Python 简单爬虫案例
Python 简单爬虫案例 import requests url = "https://www.sogou.com/web" # 封装参数 wd = input('enter a ...
纯手工打造简单分布式爬虫(Python)
前言这次分享的文章是我<Python爬虫开发与项目实战>基础篇第七章的内容,关于如何手工打造简单分布式爬虫 (如果大家对这本书感兴趣的话,可以看一下试读样章),下面是文章的具体内容. ...
nodejs实现最简单的爬虫
本文将以抓取百度搜索结果中关键词的相关搜索为例子,教会大家以nodejs制作最简单的爬虫: 开始之前呢,先来个公众号求粉: 将使用的node模块及属性介绍: request: ...
视频博文结合的教程：用nodejs实现简单的爬虫
教学视频地址: https://v.qq.com/x/page/b0643tut4ze.html 前言本喵最近工作中需要使用node,并也想晋升为全栈工程师,所以开始了node学习之旅,在学习过 ...

随机推荐

通过模拟Mybatis动态代理生成Mapper代理类，讲解Mybatis核心原理
本文将通过模拟Mybatis动态代理生成Mapper代理类,讲解Mybatis原理 1.平常我们是如何使用Mapper的先写一个简单的UserMapper,它包含一个全表查询的方法,代码如下 pub ...
android:整理drawable（shapdrawable）（二）
前言 bitmapdrawable 与nithpathdrawable 完结,接下来是shapedrawable. shapedrawable是使用频率最高的drawable 可见其重要性. shap ...
异数OS 织梦师-水母（一）--消息队列篇
异数OS 织梦师-水母(一)–消息队列篇本文来自异数OS社区 github: https://github.com/yds086/HereticOS 异数OS社区QQ群: 652455784 异数O ...
iocp性能分析
网络上找iocp性能分析的文章很少,因工作关系,花了点时间特意从客观数据和理论角度分析了下iocp的性能环境 CPU i7 4核8线程 1G网卡,echo方式测试(一个客户机模拟多个客户端模式,模拟 ...
TryCatchFinallyReturn
public class TryCatchFinallyReturnTest { public int test(){ try { int i=1; int j=2/i; return 1; }cat ...
vuex 基本语法
VUEX 的核心概念 1 .State (常用):2.Getters :3.Mutations(常用):4.Actions :5.Modules: 1.State是唯一的数据源,单一的状态树 cons ...
Qt Installer Framework翻译(7-4)
组件脚本对于每个组件,您可以指定一个脚本,来准备要由安装程序执行的操作.脚本格式必须与QJSEngine兼容. 构造脚本必须包含安装程序在加载脚本时创建的Component对象. 因此,脚本必须至 ...
FileZilla 报错“the server's certificate is unknown”
FileZilla 是非常好用的一款FTP SFTP 管理工具. 但是filezilla会报错“the server's certificate is unknown” 并且会在window中看到以下 ...
异想家Win7系统安装的软件与配置
C盘推荐一个硬盘,256G以上,安装好驱动,激活Win7,备份一次系统(纯净)! 1.Mac.Linux时间同步(双系统时配置): 开始->运行->CMD,打开命令行程序(以管理员方式打开 ...
Golang - 指针与引用
Golang有指针 , 那么一切数据都是值传递吗 ? 都需要用户进行指针传递吗, 其实不然, 对于Go语言, 虽然有指针, 但是其也有引用传递. 是不是很绕, 因为引用传递就是指针传递哇 . 我们 ...

node - 简单的爬虫案例

cherrio模块

安装

使用方法

request模块

爬虫系统 request cheerio

简单的爬虫

node - 简单的爬虫案例的更多相关文章

随机推荐

热门专题