Node.js 使用爬虫批量下载网络图片到本地

图片网站往往广告众多，用Node.js写个爬虫下载图片，代码不长，省事不少，比手动一张张保存简直是天与地的区别。以前用Java也做过远程图片下载，但Node.js的下载速度更让人咂舌,这也是非阻塞式变成的好处。

下面代码是一个从mtl.ttsqgs.com下载图片的程序，图片地址是看网站源码看出来的，总共有多少张也可以在网页或源码里找到，然后就是顺藤摸瓜。爬虫无外乎找规律再写代码实现的套路。

// 内置http模块，提供了http服务器和客户端功能
var http=require("http");

// cheerio模块，提供了类似jQuery的功能
var cheerio = require("cheerio");

// 内置文件处理模块
var fs=require('fs');

// 请求参数JSON
var options;

// 请求并获得数据
var req;

var index=1; // 起始页码
var endIndex=43; // 终止页码

function downloadImg(pageNumber){
    console.log("开始读取第"+pageNumber+"页");

    // eg:http://mtl.ttsqgs.com/images/img/4527/3.jpg
    options={
        hostname:'mtl.ttsqgs.com',// 这里别加http://，否则会出现ENOTFOUND错误
            port:80,
            path:'/images/img/798/'+pageNumber+'.jpg',// 子路径
          method:'GET',
    };

    req=http.request(options,function(resp){
        var imgData = "";
        resp.setEncoding("binary"); 

        resp.on('data',function(chunk){
            imgData+=chunk;
        });

        resp.on('end',function(){
            var fileName="./xyyx/"+pageNumber+".jpg";
            fs.writeFile(fileName, imgData, "binary", function(err){
                if(err){
                    console.log("文件"+fileName+"下载失败.");
                }
                console.log(fileName+"下载成功");
            });
        });
    });

    // 超时处理
    req.setTimeout(5000,function(){
        req.abort();
    });

    // 出错处理
    req.on('error',function(err){
        if(err.code=="ECONNRESET"){
            console.log('socket端口连接超时。');
        }else{
            console.log('请求发生错误，err.code:'+err.code);
        }
    });

    // 请求结束
    req.end();

    // 43页调完
    if(index<endIndex){
        index++;
        console.log('继续第'+index+'页');
        start(index);
    }
}

// 包一层函数
function start(i){
    downloadImg(i);
}

// 开始
start(index);

2017年9月30日10:43:27

Node.js 使用爬虫批量下载网络图片到本地的更多相关文章

Node.js mm131图片批量下载爬虫1.01 增加断点续传功能
这里的断点续传不是文件下载时的断点续传,而是指在爬行页面时有时会遇到各种网络中断而从中断前的页面及其数据继续爬行的过程,这个过程和断点续传原理上相似故以此命名.我的具体做法是:在下载出现故障或是图片已 ...
Node.js mimimn图片批量下载爬虫 1.00
这个爬虫在Referer设置上和其它爬虫相比有特殊性.代码: //====================================================== // mimimn图片批 ...
Node.js aitaotu图片批量下载Node.js爬虫1.00版
即使是https网页,解析的方式也不是一致的,需要多试试. 代码: //====================================================== // aitaot ...
Node.js umei图片批量下载Node.js爬虫1.00
这个爬虫在abaike爬虫的基础上改改图片路径和下一页路径就出来了,代码如下: //====================================================== // ...
Node.js abaike图片批量下载Node.js爬虫1.01版
//====================================================== // abaike图片批量下载Node.js爬虫1.01 // 1.01 修正了输出目 ...
Node.js abaike图片批量下载Node.js爬虫1.00版
这个与前作的差别在于地址的不规律性,需要找到下一页的地址再爬过去找. //====================================================== // abaik ...
Node.js nvshens图片批量下载爬虫 1.00
//====================================================== // www.nvshens.com图片批量下载Node.js爬虫1.00 // 此程 ...
Node.js meitulu图片批量下载爬虫1.06版
//====================================================== // https://www.meitulu.com图片批量下载Node.js爬虫1. ...
Node.js meitulu图片批量下载爬虫 1.05版（Final最终版）
//====================================================== // https://www.meitulu.com图片批量下载Node.js爬虫1. ...

随机推荐

查找（二分、hash、桶）
先上一个最简单的题 1230 元素查找给出n个正整数,然后有m个询问,每个询问一个整数,询问该整数是否在n个正整数中出现过. 输入描述 Input Description 第一行两个整数 n 和m. ...
Delphi2007新功能 -- 有限的栈对象
今天使用Delphi2007,一个误输入,无意中发现Delphi2007的record类型居然能够和TObject一样定义方法和属性,而且不需要调用类似TObject.Create方法就能生成一个re ...
IIS7.0添加IP地址和域名限制
IIS7.0默认安装是没有“IP地址和域名限制”功能的,需要我们自己选择安装 1.windows系统的添加方式控制面板--程序与功能--启用或关闭windows功能--internat inform ...
AC日记——逃离僵尸岛洛谷 P3393
逃离僵尸岛思路: spfa: 代码: #include <cstdio> #include <cstring> #include <iostream> #incl ...
【cocos2d-js官方文档】二十一、v3相对于v2版本的api变动
分类: cocos2d-js(28) 目录(?)[+] CCAudio.js SimpleAudioEngine.js改名为CCAudio.js. AudioEngine中删除了以下几个方法: pre ...
STL模板整理 set
SET set作为一个容器也是用来存储同一数据类型的数据类型,并且能从一个数据集合中取出数据,在set中每个元素的值都唯一,而且系统能根据元素的值自动进行排序.应该注意的是set中数元素的值不能直接被 ...
onethink 插件模板定位
<?php // +---------------------------------------------------------------------- // | OneThink [ ...
[mysql] 添加用户，赋予不同的管理权限
增加新用户格式:grant 权限 on 数据库.* to 用户名@登录主机 identified by “密码”如,增加一个用户user1密码为password1,让其可以在本机上登录, 并对所有数 ...
mysql 文本搜索
全文本搜索 MySQL支持几种基本的数据库引擎,但并非所有的引擎都支持全文本搜索.两个最常使用的引擎为MyISAM和InnoDB,前者支持全文本搜索,后者就不支持. 理解全文本搜索在前面的学习中,我 ...
STL优先队列——踩坑日记
priority_queue 可以定义STL中的优先队列,但是优先队列在应用于自己定义的类型时需要重载<运算符,或者通过仿函数来定义比较方法,在定义比较方法的过程中,比较大的坑是STL中对于参数 ...

Node.js 使用爬虫批量下载网络图片到本地

Node.js 使用爬虫批量下载网络图片到本地的更多相关文章

随机推荐

热门专题