node 利用http和cheerio编写简易爬虫

首先cnpm init创建一个package.json

引入cheerio模块 cnpm install --save cheerio

然后开始编写代码

let cheerio = require('cheerio'),

    http = require('http'),

    fs = require('fs'),

    url = 'http://so.8264.com/cse/search?q=2&s=9963133823733045431&p=',

    page = 1

http.get(url + page, function (res) {

    let html = ''; //用来存储请求网页的整个html内容

    res.setEncoding('utf-8'); //防止中文乱码

    //监听data事件，每次取一块数据

    res.on('data', function (chunk) {

        html += chunk;

    });

    //监听end事件，如果整个网页内容的html都获取完毕，就执行回调函数

    res.on('end', function () {

        // console.log(html)

        var $ = cheerio.load(html, {

                decodeEntities: false

            }),

            Arr = []

        //采用cheerio模块解析    html

        $('.result').each(function (index, element) {

            const _t = $(this)

            Arr.push({

                'title': _t.find('.c-title').text().trim(),

                'src': _t.find('a').attr('href').trim(),

                'img': _t.find('img').length > 0 ? _t.find('img').attr('src').trim() : '',

                'describe': _t.find('.c-abstract').text().trim()

            })

        })

        let writerStream = fs.createWriteStream('output.txt');

        writerStream.write(JSON.stringify(Arr), 'UTF8');

        writerStream.end();

    });

}).on('error', function (err) {

    console.log(err);

});

node 利用http和cheerio编写简易爬虫的更多相关文章

第三百五十七节，Python分布式爬虫打造搜索引擎Scrapy精讲—利用开源的scrapy-redis编写分布式爬虫代码
第三百五十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—利用开源的scrapy-redis编写分布式爬虫代码 scrapy-redis是一个可以scrapy结合redis搭建分布式爬虫的开 ...
三十六 Python分布式爬虫打造搜索引擎Scrapy精讲—利用开源的scrapy-redis编写分布式爬虫代码
scrapy-redis是一个可以scrapy结合redis搭建分布式爬虫的开源模块 scrapy-redis的依赖 Python 2.7, 3.4 or 3.5,Python支持版本 Redis & ...
手把手教你学node.js之使用 superagent 与 cheerio 完成简单爬虫
使用 superagent 与 cheerio 完成简单爬虫目标建立一个 lesson 3 项目,在其中编写代码. 当在浏览器中访问 http://localhost:3000/ 时,输出 CNo ...
利用简易爬虫完成一道基础CTF题
利用简易爬虫完成一道基础CTF题声明:本文主要写给新手,侧重于表现使用爬虫爬取页面并提交数据的大致过程,所以没有对一些东西解释的很详细,比如表单,post,get方法,感兴趣的可以私信或评论给我.如 ...
【重学Node.js 第4篇】实现一个简易爬虫&启动定时任务
实现一个简易爬虫&启动定时任务课程介绍看这里:https://www.cnblogs.com/zhangran/p/11963616.html 项目github地址:https://gith ...
使用 HttpClient 和 HtmlParser 实现简易爬虫
这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用,在此基础上实现了一个简易的网络爬虫 (Crawler),来说明如何使用 HtmlParser 根据需要处理 Inte ...
[转]使用 HttpClient 和 HtmlParser 实现简易爬虫
http://www.ibm.com/developerworks/cn/opensource/os-cn-crawler/ http://blog.csdn.net/dancen/article/d ...
Web Scraper 翻页——利用 Link 选择器翻页 | 简易数据分析 14
这是简易数据分析系列的第 14 篇文章. 今天我们还来聊聊 Web Scraper 翻页的技巧. 这次的更新是受一位读者启发的,他当时想用 Web scraper 爬取一个分页器分页的网页,却发现我之 ...
NodeJS概述2-事件插件-简易爬虫
事件 events 模块原生事件写法 /* * 1. 事件分类 * DOM0级事件 - on + eventType * DOM2级事件 - 事件监听 * 2. 事件构成部分有哪些? dom.o ...

随机推荐

Unicode、UTF－8 和 ISO8859-1
Unicode.UTF-8 和 ISO8859-1到底有什么区别 1.本文主要包括以下几个方面:编码基本知识,java,系统软件,url,工具软件等. 在下面的描述中,将以"中文" ...
PHP 用 ZipArchive 打包指定文件到zip供用户下载
Ubuntu需安装zlib sudo apt-get install ruby sudo apt-get install zlib1g zlib1g.dev Windows需开启php_zip.d ...
Find the squareroot
https://github.com/Premiumlab/Python-for-Algorithms--Data-Structures--and-Interviews/blob/master/Moc ...
this.closest()在IE中报错的原因及解决办法
closest()定义在jquery中,不能在原生的js中使用解决方法:将this.closest()换成$(this).closest()即可
Linux应用开发入门(转)
今天偶然看到这篇文章,做个入门了解还是不错的. 前一阵子在QQ上和朋友聊天的时候,总会看到有人说Linux上的应用程序开发是高手才可以完成的,而且这种“迷信”在目前似乎还很普遍.然而,情况并不是这样的 ...
如何优化Mysql数据库
1.添加主键ID 2.尽量避免使用select * form table 3.创建索引对于查询占主要的应用来说,索引显得尤为重要.很多时候性能问题很简单的就是因为我们忘了添加索引而造成的,或 ...
2018.10.16 uoj#340. 【清华集训2017】小 Y 和恐怖的奴隶主（矩阵快速幂优化dp）
传送门一道不错的矩阵快速幂优化dpdpdp. 设f[i][j][k][l]f[i][j][k][l]f[i][j][k][l]表示前iii轮第iii轮还有jjj个一滴血的,kkk个两滴血的,lll个 ...
2018.09.08 bzoj1531: [POI2005]Bank notes（二进制拆分优化背包）
传送门显然不能直接写多重背包. 这题可以用二进制拆分/单调队列优化(感觉二进制好写). 所谓二进制优化,就是把1~c[i]拆分成20,21,...2t,c[i]−2t+1+1" role= ...
arduino 中通过寄存器地址访问寄存器内容
void call_func( void (*func)(void)){ (*func)(); } void setup() { // put your setup code here, to run ...
if_elseif
用MATLAB写了个这样的程序 if ((0 < pwr <=2) ) wf_temp1 = round(temp_wf0/2^7); elseif( (2 < pwr<= 4 ...

node 利用http和cheerio编写简易爬虫

node 利用http和cheerio编写简易爬虫的更多相关文章

随机推荐

热门专题