nodejs爬虫系统

其中express是服务端框架
request相当于前端的ajax请求
cheerio相当于jq

开始

首先我们先新建一个 crawler目录

执行 npm install express -g 命令和 npm install express-generator -g 命令

接着 cd crawler 进入crawler目录执行 npm install request --save-dev 和 npm install cheerio --save-dev

然后在我们的目录下建立express项目直接命令行执行 express

OK 我们的项目目录变成这个样子：

接下来

我们首先安装下项目的依赖，执行 npm install 就OK

那这样我们的前期工作就做好了。

接着

我们打开app.js

我们来修改他。

如下：

 var express = require('express');

 var app = express();

 app.get('/', function(req, res) {

   res.send('hello express');

 });

 app.listen(3000, function() {

   console.log('listening on 3000');

 });

终端执行 supervisor app.js

（注：supervisor是nodejs中监控进程用的。比如我们修改了app.js 那么supervisor就会自动去重启这个文件，不需要我们手动去node app.js，用户可以通过 npm install supervisor -g 来安装。这个也是我们在nodejs开发中常用到的一个工具）

OK。

我们打开127.0.0.1:3000

看到页面上输出了 hello express。一切正常

就下来我们看下request。我们去到npm 里面 request的官网

https://www.npmjs.com/package/request

看到关于他的使用，我们把它趴下来：

修改我们的app.js

 var express = require('express');

 var app = express();

 var request = require('request');

 app.get('/', function(req, res) {

   request('http://www.cnblogs.com/galenyip', function (error, response, body) {

     if (!error && response.statusCode == 200) {

       console.log(body);// Show the HTML for the Google homepage.

       res.send('hello express');

     }

   });

 });

 app.listen(3000, function() {

   console.log('listening on 3000');

 });

地址修改成我的博客地址吧。来爬爬我这个博客

OK，刷新我们的页面。等一会，会看到终端打印出了html相关信息。

接着，

我们用上 cheerio

在app.js中我们就入 var cherrio = require('cherrio');

 var express = require('express');

 var app = express();

 var request = require('request');

 var cheerio = require('cheerio');

 app.get('/', function(req, res) {

   request('http://www.cnblogs.com/galenyip', function (error, response, body) {

     if (!error && response.statusCode == 200) {

       $ = cheerio.load(body); //拿到body，作为选择器

     }

   });

 });

 app.listen(3000, function() {

   console.log('listening on 3000');

 });

同时，我们可以看到 cheerio.load(body)就是我们拿到的页面，把它作为总的选择器。

之后的，我们就可以像操作jq一样操作这个页面了。

具体的api可以到官网：

https://www.npmjs.com/package/cheerio

它的api跟jq很像，那这个就不做介绍了

其实，我们的整个爬虫就差不多了。

剩下的就是看客们根据自己的需要，去抓取页面的dom，筛选等等等等。。。。

好了。

大体就这么多了。

有不懂的，或者纰漏的，大家可以在评论里面交流拍砖。

nodejs爬虫系统的更多相关文章

NodeJS爬虫系统初探
NodeJS爬虫系统 NodeJS爬虫系统 0. 概论爬虫是一种自动获取网页内容的程序.是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上是针对爬虫而做出的优化. robots.txt是一个文本文 ...
nodejs爬虫--抓取CSDN某用户全部文章
最近正在学习node.js,就像搞一些东西来玩玩,于是这个简单的爬虫就诞生了. 准备工作 node.js爬虫肯定要先安装node.js环境创建一个文件夹在该文件夹打开命令行,执行npm init初 ...
【nodejs 爬虫】使用 puppeteer 爬取链家房价信息
使用 puppeteer 爬取链家房价信息目录使用 puppeteer 爬取链家房价信息页面结构爬虫库 pupeteer 库实现打开待爬页面遍历区级页面方法一方法二遍历街道页面遍 ...
NodeJS 爬虫爬取LOL英雄联盟的英雄信息，批量下载英雄壁纸
工欲善其事,必先利其器,会用各种模块非常重要. 1.模块使用 (1)superagent:Nodejs中的http请求库(每个语言都有无数个,java的okhttp,OC的afnetworking) ...
Nodejs爬虫进阶教程之异步并发控制
Nodejs爬虫进阶教程之异步并发控制之前写了个现在看来很不完美的小爬虫,很多地方没有处理好,比如说在知乎点开一个问题的时候,它的所有回答并不是全部加载好了的,当你拉到回答的尾部时,点击加载更多,回 ...
用python3.x与mysql数据库构建简单的爬虫系统（转）
这是在博客园的第一篇文章,由于本人还是一个编程菜鸟,也写不出那些高大上的牛逼文章,这篇文章就是对自己这段时间学习python的一个总结吧. 众所周知python是一门对初学编程的人相当友好的编程语言, ...
nodejs爬虫——汽车之家所有车型数据
应用介绍项目Github地址:https://github.com/iNuanfeng/node-spider/ nodejs爬虫,爬取汽车之家(http://www.autohome.com.cn ...
nodejs爬虫笔记(三)---爬取YouTube网站上的视频信息
思路:通过笔记(二)中代理的设置,已经可以对YouTube的信息进行爬取了,这几天想着爬取网站下的视频信息.通过分析YouTube,发现可以从订阅号入手,先选择几个订阅号,然后爬取订阅号里面的视频分类 ...
nodejs爬虫笔记(二)---代理设置
node爬虫代理设置最近想爬取YouTube上面的视频信息,利用nodejs爬虫笔记(一)的方法,代码和错误如下 var request = require('request'); var chee ...

随机推荐

【C语言的日常实践（十四）】constkeyword详细解释
const是C语言keyword,它定义一个变量不同意变更.使用const在一定程度上,可以提高节目的安全性和可靠性.其他.解const的作用,在看别人的代码时,对理解对方的程序有一定帮助. 1.co ...
Partition List -- LeetCode
原题链接: http://oj.leetcode.com/problems/partition-list/ 这是一道链表操作的题目,要求把小于x的元素按顺序放到链表前面.我们仍然是使用链表最经常使用 ...
android登陆接口调试
最近项目要开始调API,于是自己写了个关于登陆界面调试的Demo,为了保护项目,接口文档里面的内容都是被我改过的,不涉及任何项目内容.当然,代码在运行成功后,上传至博客前,相应内容我也根据改过后的文档 ...
Shuttle ESB（四）——宣布订阅模式实例介绍（1）
前,我的重点是关注的三篇文章Shuttle ESB入境和宏观的概念范例. Shuttle ESB模式:请求/对应模式与Pub/Sub模式. 关于这两种模式的区分,请看以下文章的介绍:Shuttle E ...
QrcodeWithLogo
package com.qrcode; import java.awt.Color; import java.awt.Graphics2D; import java.awt.Image; import ...
paip.jdk1.4 1.5(5.0) 1.6(6.0) 7.0 8.0特点比较与不同
paip.jdk1.4 1.5(5.0) 1.6(6.0) 7.0 8.0特点比较与不同作者Attilax , EMAIL:1466519819@qq.com 来源:attilax的专栏地 ...
js中的json对象
1.JSON(JavaScript Object Notation)一种简单的数据格式,比xml更轻巧.JSON是JavaScript原生格式,这意味着在JavaScript中处理JSON数据不须要 ...
【浅墨著作】《OpenCV3编程入门》内容简单介绍&勘误&配套源码下载
经过近一年的沉淀和总结,<OpenCV3编程入门>一书最终和大家见面了. 近期有为数不少的小伙伴们发邮件给浅墨建议最好在博客里面贴出这本书的文件夹,方便大家更好的了解这本书的内容.事实上近 ...
使用JMX实现的内存监控（转）
public final class MemoryWarningSystem { private static MemoryWarningSystem m_instance = null; /** * ...
R语言做文本挖掘 Part4文本分类
Part4文本分类 Part3文本聚类提到过.与聚类分类的简单差异. 那么,我们需要理清训练集的分类,有明白分类的文本:測试集,能够就用训练集来替代.预測集,就是未分类的文本.是分类方法最后的应用实现 ...

nodejs爬虫系统

nodejs爬虫系统的更多相关文章

随机推荐

热门专题