node 爬虫 --- 批量下载图片

步骤一：创建项目

npm init

步骤二：安装 request，cheerio，async 三个模块

request
用于请求地址和快速下载图片流。
https://github.com/request/request
cheerio
为服务器特别定制的，快速、灵活、实施的jQuery核心实现.
便于解析html代码。
https://www.npmjs.com/package/cheerio
async
异步调用，防止堵塞。
http://caolan.github.io/async/

npm i request cheerio async -D

步骤三：核心思路

（1）用request 发送一个请求。获取html代码，取得其中的img标签和a标签。

//发送请求

function requestall(url) {

  request({

    uri: url,

    headers: setting.header

  }, function (error, response, body) {

    if (error) {

      // 请求失败

      console.log(error);

    } else {

      console.log(response.statusCode);

      if (!error && response.statusCode == 200) {

        // 请求成功

      }

    }

  });

}

（2）通过获取的a表情进行递归调用。不断获取img地址和a地址，继续递归

// 递归爬虫

$('a').each(function () {

  var murl = $(this).attr('href');

  if (IsURL(murl)) {

    setTimeout(function () {

      fetchre(murl);

    }, timeout);

    timeout += setting.ajax_timeout;

  } else {

    setTimeout(function () {

      fetchre("http://www.ivsky.com/" + murl);

    }, timeout);

    timeout += setting.ajax_timeout;

  }

})

（3）获取img地址通过request(photo).pipe(fs.createWriteStream(dir + “/” + filename));进行快速下载。

//发送请求

function requestall(url) {

  request({

    uri: url,

    headers: setting.header

  }, function (error, response, body) {

    if (error) {

      console.log(error);

    } else {

      console.log(response.statusCode);

      if (!error && response.statusCode == 200) {

        var $ = cheerio.load(body);

        var photos = [];

        $('img').each(function () {

          // 判断地址是否存在

          if ($(this).attr('src')) {

            var src = $(this).attr('src');

            var end = src.substr(-4, 4).toLowerCase();

            if (end == '.jpg' || end == '.gif' || end == '.png' || end == '.jpeg') {

              if (IsURL(src)) {

                photos.push(src);

              }

            }

          }

        });

        downloadImg(photos, dir, setting.download_v);

        // 递归爬虫

        $('a').each(function () {

          var murl = $(this).attr('href');

          if (IsURL(murl)) {

            setTimeout(function () {

              fetchre(murl);

            }, timeout);

            timeout += setting.ajax_timeout;

          } else {

            setTimeout(function () {

              fetchre("http://www.ivsky.com/" + murl);

            }, timeout);

            timeout += setting.ajax_timeout;

          }

        })

      }

    }

  });

}

步骤四：防坑

（1）在request通过图片地址下载时，绑定error事件防止爬虫异常的中断。

// 防止pipe错误

request(photo)

  .on('error', function (err) {

    console.log(err);

  })

  .pipe(fs.createWriteStream(dir + "/" + filename));

（2）通过async的mapLimit限制并发。

async.mapLimit(photos, asyncNum, function (photo, callback) {

  // 请求成功

}, function (err, result) {

  // 请求失败

})

（3）加入请求报头，防止ip被屏蔽。

setting.js

/**

 * 加入请求报头,防止ip被屏蔽

 */

module.exports = {

  header : {

    'User-Agent': 'request',

    "Referer":"http://www.ivsky.com/",

  },

  // 并发数

  ajax_timeout : 2000,

  // 下载图片速度

  download_v : 5

}

（4）获取一些图片和超链接地址，可能是相对路径（待考虑解决是否有通过方法）。

// 下载图片

function downloadImg(photos, dir, asyncNum) {

  console.log("即将异步并发下载图片，当前并发数为:" + asyncNum);

  async.mapLimit(photos, asyncNum, function (photo, callback) {

    var filename = (new Date().getTime()) + photo.substr(-4, 4);

    if (filename) {

      console.log('正在下载' + photo);

      // 默认

      // fs.createWriteStream(dir + "/" + filename)

      // 防止pipe错误

      request(photo)

        .on('error', function (err) {

          console.log(err);

        })

        .pipe(fs.createWriteStream(dir + "/" + filename));

      console.log('下载完成');

      callback(null, filename);

    }

  }, function (err, result) {

    if (err) {

      console.log(err);

    } else {

      console.log(" all right ! ");

      console.log(result);

    }

  })

}

步骤五：完整代码

app.js

/**

 * node 爬虫

 */

var fs = require('fs');

var request = require("request");

var cheerio = require("cheerio");

var async = require('async');

// 目标网址

var url = 'http://www.ivsky.com/tupian/ziranfengguang/';

// 本地存储目录

var dir = './images';

var setting = require('./setting');

var timeout = 100;

// 封装了一层函数

function fetchre(url) {

  requestall(url);

}

// 发送请求

function requestall(url) {

  request({

    uri: url,

    headers: setting.header

  }, function (error, response, body) {

    if (error) {

      console.log(error);

    } else {

      console.log(response.statusCode);

      if (!error && response.statusCode == 200) {

        var $ = cheerio.load(body);

        var photos = [];

        $('img').each(function () {

          // 判断地址是否存在

          if ($(this).attr('src')) {

            var src = $(this).attr('src');

            var end = src.substr(-4, 4).toLowerCase();

            if (end == '.jpg' || end == '.gif' || end == '.png' || end == '.jpeg') {

              if (IsURL(src)) {

                photos.push(src);

              }

            }

          }

        });

        downloadImg(photos, dir, setting.download_v);

        // 递归爬虫

        $('a').each(function () {

          var murl = $(this).attr('href');

          if (IsURL(murl)) {

            setTimeout(function () {

              fetchre(murl);

            }, timeout);

            timeout += setting.ajax_timeout;

          } else {

            setTimeout(function () {

              fetchre("http://www.ivsky.com/" + murl);

            }, timeout);

            timeout += setting.ajax_timeout;

          }

        })

      }

    }

  });

}

// 下载图片

function downloadImg(photos, dir, asyncNum) {

  console.log("即将异步并发下载图片，当前并发数为:" + asyncNum);

  async.mapLimit(photos, asyncNum, function (photo, callback) {

    var filename = (new Date().getTime()) + photo.substr(-4, 4);

    if (filename) {

      console.log('正在下载' + photo);

      // 默认

      // fs.createWriteStream(dir + "/" + filename)

      // 防止pipe错误

      request(photo)

        .on('error', function (err) {

          console.log(err);

        })

        .pipe(fs.createWriteStream(dir + "/" + filename));

      console.log('下载完成');

      callback(null, filename);

    }

  }, function (err, result) {

    if (err) {

      console.log(err);

    } else {

      console.log(" all right ! ");

      console.log(result);

    }

  })

}

// 判断是否为完整地址

function IsURL(str_url) {

  var strRegex = '^((https|http|ftp|rtsp|mms)?://)';

  var re = new RegExp(strRegex);

  if (re.test(str_url)) {

    return (true);

  } else {

    return (false);

  }

}

requestall(url);

步骤六：执行

（1）在根路径下创建 images 空文件夹，用于存放下载下来的图片

（2）打开终端，执行

node app.js

（3）项目目录

node 爬虫 --- 批量下载图片的更多相关文章

【Python】nvshens按目录批量下载图片爬虫1.00(单线程版)
# nvshens按目录批量下载图片爬虫1.00(单线程版) from bs4 import BeautifulSoup import requests import datetime import ...
python图片爬虫 - 批量下载unsplash图片
前言 unslpash绝对是找图的绝佳场所, 但是进网站等待图片加载真的令人捉急, 仿佛是一场拼RP的战争然后就开始思考用爬虫帮我批量下载, 等下载完再挑选, 操作了一下不算很麻烦, 顺便也给大家提 ...
scrapy操作mysql/批量下载图片
1.操作mysql items.py meiju.py 3.piplines.py 4.settings.py -------------------------------------------- ...
Node.js 使用爬虫批量下载网络图片到本地
图片网站往往广告众多,用Node.js写个爬虫下载图片,代码不长,省事不少,比手动一张张保存简直是天与地的区别.以前用Java也做过远程图片下载,但Node.js的下载速度更让人咂舌,这也是非阻塞式变 ...
利用Node 搭配uglify-js压缩js文件，批量下载图片到本地
Node的便民技巧-- 压缩代码下载图片压缩代码相信很多前端的同学都会在上线前压缩JS代码,现在的Gulp Webpack Grunt......都能轻松实现.但问题来了,这些都不会,难道就要面 ...
用python批量下载图片
一写爬虫注意事项网络上有不少有用的资源, 如果需要合理的用爬虫去爬取资源是合法的,但是注意不要越界,前一阶段有个公司因为一个程序员写了个爬虫,导致公司200多个人被抓,所以先进入正题之前了解下什么 ...
python——批量下载图片
前言批量下载网页上的图片需要三个步骤: 获取网页的URL 获取网页上图片的URL 下载图片例子 from html.parser import HTMLParser import urllib.r ...
如何用node.js批量给图片加水印
上一篇我们讲了如何用node.js给图片加水印,但是只是给某一张图片加,并没有涉及到批量处理.这一篇,我们学习如果批量进行图片加水印处理. 一.准备工作: 首先,你要阅读完这篇文章:http://ww ...
javaWeb 批量下载图片
批量下载网页图片 CreateTime--2017年9月26日15:40:43 Author:Marydon 所用技术:javascript.java 测试浏览器:chrome 开发工具:Ecli ...

随机推荐

leepcode作业解析-5-15日
1.删除排序数组中的重复项给定一个排序数组,你需要在原地删除重复出现的元素,使得每个元素只出现一次,返回移除后数组的新长度. 不要使用额外的数组空间,你必须在原地修改输入数组并在使用 O(1) 额外 ...
Python9-面对对象2-day23
#计算正方形的周长和面积 class Square: def __init__(self,side_len): self.side_len = side_len def perimeter(self) ...
python基础学习笔记——os模块
#OS模块 #os模块就是对操作系统进行操作,使用该模块必须先导入模块: import os #getcwd() 获取当前工作目录(当前工作目录默认都是当前文件所在的文件夹) result = os. ...
python基础学习笔记——文件操作
文件操作初始文件操作使用Python来读写文件是非常简单的操作,我们使用open()函数来打开一个文件,获取到文件句柄,然后通过文件句柄就可以进行各种各样的操作了根据打开方式的不同能够执行的操作 ...
模板<最小生成树>
转载最小生成树浅谈这里介绍最小生成树的两种方法:Prim和Kruskal. 两者区别:Prim在稠密图中比Kruskal优,在稀疏图中比Kruskal劣.Prim是以更新过的节点的连边找最小值,K ...
Exchange 正版化授权
网友说法: Exchange服务器版其实价格不高,企业版也就是几万左右,贵的是客户端授权,一个客户端授权大概要300多.但是,但是,中国企业买Exchange客户端一般都是可以按比例买的,比如10%- ...
luogu2526 [SHOI2001]小狗散步
注意一个景点只能去一次. #include <iostream> #include <cstring> #include <cstdio> #include < ...
Consecutive Subsequence （DP+map）
You are given an integer array of length nn. You have to choose some subsequence of this array of ma ...
【C#】C#数据类型和VB的区别
导读:看完了C#,需要总结的有很多东西.开始没有怎么在意,根本没有意识到,那些视频是教给了我一种新的编程语言,我就真的是像看电视剧一样的看完了.猛然想起了学过的VB,这是目前为止,我接触到的仅有的语言 ...
iOS学习笔记08-Quartz2D绘图
一.Quartz2D简单介绍在iOS中常用的绘图框架就是Quartz2D,Quartz2D是Core Graphics框架的一部分,我们日常开发使用的所有UIKit组件都是由Core Graphic ...

node 爬虫 --- 批量下载图片

node 爬虫 --- 批量下载图片的更多相关文章

随机推荐

热门专题