node 利用http和cheerio编写简易爬虫

首先cnpm init创建一个package.json

引入cheerio模块 cnpm install --save cheerio

然后开始编写代码

let cheerio = require('cheerio'),

    http = require('http'),

    fs = require('fs'),

    url = 'http://so.8264.com/cse/search?q=2&s=9963133823733045431&p=',

    page = 1

http.get(url + page, function (res) {

    let html = ''; //用来存储请求网页的整个html内容

    res.setEncoding('utf-8'); //防止中文乱码

    //监听data事件，每次取一块数据

    res.on('data', function (chunk) {

        html += chunk;

    });

    //监听end事件，如果整个网页内容的html都获取完毕，就执行回调函数

    res.on('end', function () {

        // console.log(html)

        var $ = cheerio.load(html, {

                decodeEntities: false

            }),

            Arr = []

        //采用cheerio模块解析    html

        $('.result').each(function (index, element) {

            const _t = $(this)

            Arr.push({

                'title': _t.find('.c-title').text().trim(),

                'src': _t.find('a').attr('href').trim(),

                'img': _t.find('img').length > 0 ? _t.find('img').attr('src').trim() : '',

                'describe': _t.find('.c-abstract').text().trim()

            })

        })

        let writerStream = fs.createWriteStream('output.txt');

        writerStream.write(JSON.stringify(Arr), 'UTF8');

        writerStream.end();

    });

}).on('error', function (err) {

    console.log(err);

});

node 利用http和cheerio编写简易爬虫的更多相关文章

第三百五十七节，Python分布式爬虫打造搜索引擎Scrapy精讲—利用开源的scrapy-redis编写分布式爬虫代码
第三百五十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—利用开源的scrapy-redis编写分布式爬虫代码 scrapy-redis是一个可以scrapy结合redis搭建分布式爬虫的开 ...
三十六 Python分布式爬虫打造搜索引擎Scrapy精讲—利用开源的scrapy-redis编写分布式爬虫代码
scrapy-redis是一个可以scrapy结合redis搭建分布式爬虫的开源模块 scrapy-redis的依赖 Python 2.7, 3.4 or 3.5,Python支持版本 Redis & ...
手把手教你学node.js之使用 superagent 与 cheerio 完成简单爬虫
使用 superagent 与 cheerio 完成简单爬虫目标建立一个 lesson 3 项目,在其中编写代码. 当在浏览器中访问 http://localhost:3000/ 时,输出 CNo ...
利用简易爬虫完成一道基础CTF题
利用简易爬虫完成一道基础CTF题声明:本文主要写给新手,侧重于表现使用爬虫爬取页面并提交数据的大致过程,所以没有对一些东西解释的很详细,比如表单,post,get方法,感兴趣的可以私信或评论给我.如 ...
【重学Node.js 第4篇】实现一个简易爬虫&启动定时任务
实现一个简易爬虫&启动定时任务课程介绍看这里:https://www.cnblogs.com/zhangran/p/11963616.html 项目github地址:https://gith ...
使用 HttpClient 和 HtmlParser 实现简易爬虫
这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用,在此基础上实现了一个简易的网络爬虫 (Crawler),来说明如何使用 HtmlParser 根据需要处理 Inte ...
[转]使用 HttpClient 和 HtmlParser 实现简易爬虫
http://www.ibm.com/developerworks/cn/opensource/os-cn-crawler/ http://blog.csdn.net/dancen/article/d ...
Web Scraper 翻页——利用 Link 选择器翻页 | 简易数据分析 14
这是简易数据分析系列的第 14 篇文章. 今天我们还来聊聊 Web Scraper 翻页的技巧. 这次的更新是受一位读者启发的,他当时想用 Web scraper 爬取一个分页器分页的网页,却发现我之 ...
NodeJS概述2-事件插件-简易爬虫
事件 events 模块原生事件写法 /* * 1. 事件分类 * DOM0级事件 - on + eventType * DOM2级事件 - 事件监听 * 2. 事件构成部分有哪些? dom.o ...

随机推荐

JAVA对字符串的压缩与解压缩
import java.io.ByteArrayInputStream;import java.io.ByteArrayOutputStream;import java.io.IOException; ...
java利用递归实现汉诺塔算法
package 汉诺塔; //引入Scanner包,用于用户输入 import java.util.Scanner; public class 汉诺塔算法 { public static void m ...
sqlserver 清除日志
要使用Master数据库执行 DUMP TRANSACTION 数据库名 WITH NO_LOG 2.再打开企业管理器--右键你要压缩的数据库--所有任务--收缩数据库--收缩文件--选择日志文件-- ...
flex 分页
<?xml version="1.0" encoding="utf-8"?><s:Group xmlns:fx="http://ns ...
删除重复的feature vba VS 删除重复的feature python
VBA: Sub deleteDuplicatedFeature() Dim app As IApplication Set app = Application Dim pMxDocument As ...
Icicle partition
<!DOCTYPE html> <html> <head> <title>Icicle</title> <script type=&q ...
[转载]HTML5游戏前端开发秘籍
http://isux.tencent.com/html5-game-development-cheats.html 转载至腾讯ISUX HTML5游戏前端开发秘籍本文由米随随编写 QQ空间Andr ...
Spring Boot 应用系列 2 -- Spring Boot 2 整合MyBatis和Druid
本系列将分别演示单数据源和多数据源的配置和应用,本文先演示单数据源(MySQL)的配置. 1. pom.xml文件配置需要在dependencies节点添加:  ...
一个初学者的指南，使用D3做数据绑定
一个初学者的指南,使用D3做数据绑定 D3.js 是个强大的数据可视化库,可以做出惊艳的图表.比如:气泡图,线图和条形图--只需要很少行的代码随着初学者对JavaScript的理解,可以将数组或者对 ...
SQL笔记---分页
随用随想,随用随记. 通过实际应用掌握SQL语句. 一. SQL分页 1. 第一种方法:利用ID大于多少进行筛选 SELECT TOP 20 *FROM dbo.WMS_Stock ...

node 利用http和cheerio编写简易爬虫

node 利用http和cheerio编写简易爬虫的更多相关文章

随机推荐

热门专题