nodejs http小爬虫

本课程用nodejs写一个http小爬虫，首先科普一下，爬虫就是把网上的网页代码给弄下来，然后纳为己用。目前最大的爬虫：百度快照等的。

下面直接上代码

示例一：



var http = require('http');

var url = "http://www.imooc.com/learn/348";

http.get(url, function(res) {

var html = '';  //http get去请求url ,url是慕课网

res.on('data', function(data) {

html += data; //请求数据赋值给前面定义的html

});

res.on('end', function() {

console.log(html); //结束后打印出html

});

}).on('error', function() {

conslole.log('请求出错');//出错打印

});

保存imooc-crawler.js，然后运行：node imooc-crawler.js , 注意路径。

文件下载 imooc-crawler.js右击另存

最后结果可是打印了满满的窗口啊，就不上图了。

示例二：

首先要安装一下小插件，cheerio ，该插件就是node里面的jquery，api地址点击这里http://www.imlwj.com/blog/?p=39

安装cheerio，在控制台输入命令：npm install cheerio 等待一会儿。

首先来看看http://www.imooc.com/learn/348的dom结构

var http = require('http');
var cheerio=require('cheerio');//引用安装成功的cheerio
var url = "http://www.imooc.com/learn/348";

//过滤方法



function filterChapters(html){

var $=cheerio.load(html);

var chapters=$('.learnchapter');//和jquery 里面的方法一样，直接得到目录块，通过learnchapter类获取

// [{

// chapterTitle:'',

// videos:[

// title:'',

// id:''

// ]

// }]

var courseData=[];//定义一个数组，用来存储一级目录标题和二级目录标题以及二级目录的id

chapters.each(function(item){

var chapter=$(this);

var chapterTitle=chapter.find('strong').text();//一级目录表示是放在一个strong标签里面的，所以轻易的就可以拿到

var videos=chapter.find('.video').children('li');//拿到二级目录块

var chapterData={//一级目录里面包括它本身的标题，还包括二级目录的标题和二级目录id,所以二级目录也定义成数组

chapterTitle:chapterTitle,

videos:[]

};

videos.each(function(item){

var video=$(this).find('.studyvideo');//获取二级目录标题所在的a标签

var videoTitle=video.text();//得到二级目录标题

var id=video.attr('href').split('video/')[1];//获取a标签的href属性值，然后进行分割，获取id值，以‘' video/ ’分割，取第二部分，数组的下标是从0开始，所以是[1]

chapterData.videos.push({//数组push值，加入二级标题，二级id

title:videoTitle,

id:id

});

});

courseData.push(chapterData);//对我们需要的内容数组push值

});

return courseData;//把过滤结果返回

}

function printCourseInfo(courseData){

courseData.forEach(function(item){//遍历数组

var chapterTitle=item.chapterTitle;//获取一级标题

console.log(chapterTitle+'\n');//打印一级标题

item.videos.forEach(function(video){ //二级目录也是数组，同样要遍历

console.log(' ['+video.id+'] '+video.title+'\n');//打印二级标题和id

});

});

}

http.get(url, function(res) {

var html = '';

res.on('data', function(data) {

html += data;

});

res.on('end', function() {

var courseData=filterChapters(html);//对示例一的html进行过滤，过滤出我们需要的内容

printCourseInfo(courseData);//打印出过滤后的内容

});

}).on('error', function() {

console.log('请求出错');

});

保存crawler.js，然后运行：node crawler.js , 注意路径。

文件下载 crawler.js右击另存

下图是打印结果

视频是慕课网：http://www.imooc.com/learn/348

个人总结：本课程的主要还是在于对jquery的学习，这里也就是对cheerio的学习，能够熟练的操作dom，其他都没有啥问题了。

cheerio学习地址：http://www.imlwj.com/blog/?p=39

转载本站文章请注明出处：爱开发 http://www.imlwj.com/blog/?p=41

nodejs http小爬虫的更多相关文章

NodeJs编写小爬虫
一,爬虫及Robots协议爬虫,是一种自动获取网页内容的程序.是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化. robots.txt是一个文本文件,robots是一个协 ...
nodejs .http模块, cheerio模块实现小爬虫.
代码: var http = require("http"); var cheerio = require("cheerio"); var url = 'htt ...
nodejs的简单爬虫
闲聊好久没写博客了,前几天小颖在朋友的博客里看到了用nodejs的简单爬虫.所以小颖就自己试着做了个爬博客园数据的demo.嘻嘻...... 小颖最近养了条泰日天,自从养了我家 ...
node.js 开发简易的小爬虫
node.js 开发简易的小爬虫最近公司开发一款医药类的软件,所以需要一些药品的基础数据,所以本人就用node.js写一个简易的小爬虫,并写记录这个Demo以供大家参考. 一.开发前的准备: 1, ...
一次使用NodeJS实现网页爬虫记
前言几个月之前,有同事找我要PHP CI框架写的OA系统.他跟我说,他需要学习PHP CI框架,我建议他学习大牛写的国产优秀框架QeePHP. 我上QeePHP官网,发现官方网站打不开了,GOOGL ...
Java豆瓣电影爬虫——小爬虫成长记（附源码）
以前也用过爬虫,比如使用nutch爬取指定种子,基于爬到的数据做搜索,还大致看过一些源码.当然,nutch对于爬虫考虑的是十分全面和细致的.每当看到屏幕上唰唰过去的爬取到的网页信息以及处理信息的时候, ...
放养的小爬虫--豆瓣电影入门级爬虫(mongodb使用教程~)
放养的小爬虫--豆瓣电影入门级爬虫(mongodb使用教程~) 笔者声明:只用于学习交流,不用于其他途径.源代码已上传github.githu地址:https://github.com/Erma-Wa ...
放养的小爬虫--京东定向爬虫(AJAX获取价格数据)
放养的小爬虫--京东定向爬虫(AJAX获取价格数据) 笔者声明:只用于学习交流,不用于其他途径.源代码已上传github.githu地址:https://github.com/Erma-Wang/Sp ...
Python练习，网络小爬虫（初级）
最近还在看Python版的rcnn代码,附带练习Python编程写一个小的网络爬虫程序. 抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的.比如说你在浏览器的地址栏中输入 www ...

随机推荐

Ubuntu初始化MySQL碰到的坑
想着将MySQL初始化,改变一下存放数据文件的位置: root@ubuntu:/lvmdata# mkdir data root@ubuntu:/lvmdata# chown -R mysql:mys ...
第四章：Python基础の快速认识內置函数和操作实战
本課主題內置函数介紹和操作实战装饰器介紹和操作实战本周作业內置函数介紹和操作实战返回Boolean值的內置函数 all( ): 接受一個可以被迭代的對象,如果函数裡所有為真,才會真:有一個是 ...
第一章 Linux系统概述
linux是真正的多用户.多任务操作系统,他继承了UNIX系统的主要特征,具有强大的信息处理功能,特别在Internet和Intranet的应用中占有明显优势. 1.1计算机基础知识计算机分为硬件和 ...
python实现单例模式
有这么一种场景,我们把数据封装到类体或类的某个方法里,然而我们new出这个类只是为了拿到这部分数据,那么当多次这样调用的时候,每次都来拿数据并放到内存中大大浪费了内存. 那我们就可以想,我们拿到一次数 ...
squid日志分析
sarg对squid的日志流量分析报表(按小时,天,周生成) 1.SARG介绍 SARG的全称是:Squid Analysis Report GeneratorSARG非常好用的Squid日志分析工具 ...
利用jquery encoder解决XSS脚本注入所产生的问题
问题现象:前端接收到后台一个数据(其中包含html)标签,自动转译成html页面元素,且自动执行了脚本,造成了前端页面的阻塞接受的后台数据为大量重复的如下代码 ");</script ...
datalist标签小结
在Web设计中,经常会用到如输入框的自动下拉提示,这将大大方便用户的输入.在以前,如果要实现这样的功能,必须要求开发者使用一些Javascript的技巧或相关的框架进行ajax调用,需要一定的编程工作 ...
WPF Binding学习(二)
Binding作为数据的桥梁,连通业务逻辑层的对象(源对象)和UI的控件对象(目标对象).在这座桥梁上,我们不仅可以控制在源对象与目标对象是双向通行还是单向通行.还可以控制数据的放行时机,甚至可以在这 ...
cs231n spring 2017 lecture8 Deep Learning Networks 听课笔记
1. CPU vs. GPU: CPU核心少(几个),更擅长串行任务.GPU有很多核心(几千个),每一个核都弱,有自己的内存(几个G),很适合并行任务.GPU最典型的应用是矩阵运算. GPU编程:1) ...
[51nod1206]Picture
给你一坨矩形,问这些矩形组成的所有多边形的周长之和. 分别求竖着的边和横着的边. 离散化后线段树,维护当前行(或者列)有多少没在多边形里的,添加矩形就变成添加.删除线段. 每次加线段或删线段时累加一下 ...

nodejs http小爬虫

nodejs http小爬虫的更多相关文章

随机推荐

热门专题