nodejs的简单爬虫

闲聊

好久没写博客了，前几天小颖在朋友的博客里看到了用nodejs的简单爬虫。所以小颖就自己试着做了个爬博客园数据的demo。嘻嘻......

小颖最近养了条泰日天，自从养了我家仔仔后，我觉得我走上一条不归路，每天不到七点半就起床烧热水，然后给我家仔仔烫狗粮，给仔仔烫好狗粮后，我开始收拾自己，出门前给他再把热水瓶里的热水换了，每天跟伺候小孩一样伺候着我家小不点仔仔，然而在上周天他还是生病了，拉稀.......带宠物医院好不容易看好，医生说是低血糖，我就懵逼了，低血糖就不能让他饿着，可是他压根就不好好吃饭，我有什么办法，哎......操碎了心，祈祷吧希望我家小仔仔能健健康康快快乐乐的长大嘻嘻。

看代码啦：

1.首先先安装node。

2.新建package.json:

在自己创建的一个工程目录下打开cmd ,在里面输入命令npm init

3.新建data和img文件夹

4.新建app.js

"use strict";

// 引入模块

var http = require('http');

var fs = require('fs');

var path = require('path');

var cheerio = require('cheerio');

// 爬虫的UR L信息

var opt = {

  hostname: 'www.cnblogs.com',

  path: '',

  port: 80

};

// 创建http get请求

http.get(opt, function(res) {

  var html = ''; // 保存抓取到的HTML源码

  var blogs = []; // 保存解析HTML后的数据，即我们需要的电影信息

  // 前面说过

  // res 是 Class: http.IncomingMessage 的一个实例

  // 而 http.IncomingMessage 实现了 stream.Readable 接口

  // 所以 http.IncomingMessage 也有 stream.Readable 的事件和方法

  // 比如 Event: 'data', Event: 'end', readable.setEncoding() 等

  // 设置编码

  res.setEncoding('utf-8');

  // 抓取页面内容

  res.on('data', function(chunk) {

    html += chunk;

  });

  res.on('end', function() {

    // 使用 cheerio 加载抓取到的HTML代码

    // 然后就可以使用 jQuery 的方法了

    // 比如获取某个class：$('.className')

    // 这样就能获取所有这个class包含的内容

    var $ = cheerio.load(html);

    // 解析页面

    // 每篇文章都在 item class 中

    $('#post_list .post_item .post_item_body').each(function() {

      // 获取图片链接

      var blog = {

        title: $('.post_item_body .titlelnk', this).text(), // 获取文章标题

        titleUrl: $('.post_item_body a', this).attr('href'), //文章链接地址

        peopleUrl: $('.post_item_summary a', this).attr('href'), // 博客地址

        peopleImg: $('.post_item_summary img', this).attr('src'),// 园友头像

        intro: $('.post_item_summary', this).text(), // 获取文章简介

        name: $('.post_item_foot .lightblue', this).text() // 获取文章简介

      };

      // 把所有文章放在一个数组里面

      blogs.push(blog);

      if (blog.peopleImg) {// 如果有图片则下载图片

        downloadImg('img/', 'http:' + blog.peopleImg);

      }

    });

    // 保存抓取到的文章数据

    saveData('data/data.json', blogs);

  });

}).on('error', function(err) {

  console.log(err);

});

/**

 * 保存数据到本地

 *

 * @param {string} path 保存数据的文件

 * @param {array} blogs 文章信息数组

 */

function saveData(path, blogs) {

  // 调用 fs.writeFile 方法保存数据到本地

  fs.writeFile(path, JSON.stringify(blogs, null, 4), function(err) {

    if (err) {

      return console.log(err);

    }

    console.log('Data saved');

  });

}

/**

 * 下载图片

 *

 * @param {string} imgDir 存放图片的文件夹

 * @param {string} url 图片的URL地址

 */

function downloadImg(imgDir, url) {

  http.get(url, function(res) {

    var data = '';

    res.setEncoding('binary');

    res.on('data', function(chunk) {

      data += chunk;

    });

    res.on('end', function() {

      // 调用 fs.writeFile 方法保存图片到本地

      fs.writeFile(imgDir + path.basename(url), data, 'binary',

        function(err) {

          if (err) {

            return console.log(err);

          }

          console.log('Image downloaded: ', path.basename(url));

        });

    });

  }).on('error', function(err) {

    console.log(err);

  });

}

5.打开cmd执行 node app.js

然后看data文件夹下会生成data.json文件,img文件夹下会生成许多图片。

补充

// 爬虫的UR L信息

var opt = {

  hostname: 'www.cnblogs.com',

  path: '',

  port: 80

};

nodejs的简单爬虫的更多相关文章

nodejs实现简单爬虫
nodejs结合cheerio实现简单爬虫 let cheerio = require("cheerio"), fs = require("fs"), util ...
用nodejs实现简单爬虫
前言本喵最近工作中需要使用node,并也想晋升为全栈工程师,所以开始了node学习之旅,在学习过程中, 我会总结一些实用的例子,做成博文和视频教程,以实例形式来理解体会node的用法,所以跟小猫 ...
NodeJS简单爬虫
NodeJS简单爬虫最近一直在追火星的一本书,然后每次都要去网站看,感觉很麻烦,于是,想起用爬虫爬取章节,务实派,说干就干! 爬取思路 1.该网站的页面呈现出一定的规律 2.使用NodeJS的req ...
一次使用NodeJS实现网页爬虫记
前言几个月之前,有同事找我要PHP CI框架写的OA系统.他跟我说,他需要学习PHP CI框架,我建议他学习大牛写的国产优秀框架QeePHP. 我上QeePHP官网,发现官方网站打不开了,GOOGL ...
Python简单爬虫入门三
我们继续研究BeautifulSoup分类打印输出 Python简单爬虫入门一 Python简单爬虫入门二前两部主要讲述我们如何用BeautifulSoup怎去抓取网页信息以及获取相应的图片标题等信 ...
[Java]使用HttpClient实现一个简单爬虫，抓取煎蛋妹子图
第一篇文章,就从一个简单爬虫开始吧. 这只虫子的功能很简单,抓取到”煎蛋网xxoo”网页(http://jandan.net/ooxx/page-1537),解析出其中的妹子图,保存至本地. 先放结果 ...
简单爬虫，突破IP访问限制和复杂验证码，小总结
简单爬虫,突破复杂验证码和IP访问限制文章地址:http://www.cnblogs.com/likeli/p/4730709.html 好吧,看题目就知道我是要写一个爬虫,这个爬虫的目标网站有 ...
Python简单爬虫入门二
接着上一次爬虫我们继续研究BeautifulSoup Python简单爬虫入门一上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素首先回顾以下我们Bea ...
GJM : Python简单爬虫入门（二） [转载]
感谢您的阅读.喜欢的.有用的就请大哥大嫂们高抬贵手"推荐一下"吧!你的精神支持是博主强大的写作动力以及转载收藏动力.欢迎转载! 版权声明:本文原创发表于 [请点击连接前往] ,未经 ...

随机推荐

.Net多线程编程—误用点分析
1 共享变量问题错误写法: 所有的任务可能会共享同一个变量,所以输出结果可能会一样. public static void Error() { ;i<;i++) { Task.Run(() = ...
Android项目实战（二十九）：酒店预定日期选择
先看需求效果图: 几个需求点: 1.显示当月以及下个月的日历 (可自行拓展更多月份) 2.首次点击选择"开始日期",再次点击选择"结束日期" (1).如果&qu ...
venom结合Metasploit绕过360安全卫士
原理:msfvenom是msfpayload和msfencode的结合体,利用msfvenom生成shellcode,venom生成工具使用了一些 Veil-Evasion.py, unicorn. ...
[No0000B7]If else 与三元表达式? : 效率对比
先看 if else 一段代码 using System; class Program { private static void Main() { ; ) i = -; ; Console.Writ ...
从Chrome源码看浏览器的事件机制
.aligncenter { clear: both; display: block; margin-left: auto; margin-right: auto } .crayon-line spa ...
《JAVASCRIPT高级程序设计》表单基础知识和文本框脚本
在HTML中,表单是由<form>元素来表示,在javascript中,表单对应的是HTMLFormElement类型,它具有一些独有的属性和方法: 一.表单基础知识 1.取得表单的方式 ...
基于basys2用verilog设计多功能数字钟（重写）
话不多说先上图前言自从学习FPGA以来,唯一做过的完整系统就是基于basys2得多功能数字表.记得当时做的时候也没少头疼,最后用时间磨出来了一个不是很完整的小系统,当时还是产生了满 ...
学习window系统下的注册表
一直不明白注册表是一个什么鬼,查了资料后大概明白了注册表到底有什么用,其实简单来说注册表就是一个存放系统.硬件.应用配置信息的数据ku.##### 一.注册表的来历在最早的视窗操作系统win3.x中, ...
百度富文本编辑器ueditor在jsp中的使用（ssm框架中的应用）
折腾了一下午终于把百度富文本编辑器ueditor搞定了! 项目地址:https://github.com/724888/lightnote_new 首先我参考了一个ueditor的demo ...
手动搭建apache james邮件服务器，实现邮件功能
最近一直在搞邮件这块,本来我们邮件发送是用的腾讯免费的企业邮箱,邮件功能没有问题,但是由于邮件的限制,如下: 这些限制导致我们的部分客户是收不到邮件的,哪怕付费,这样的固定频率限制也是无法解决的,可以 ...

nodejs的简单爬虫

闲聊

看代码啦：

补充

nodejs的简单爬虫的更多相关文章

随机推荐

热门专题