利用Nodejs & Cheerio & Request抓取Lofter美女图片

还是参考了这篇文章：

http://cnodejs.org/topic/54bdaac4514ea9146862abee

另外有上面文章 nodejs抓取网易公开课的一些经验。

代码如下，注意其中用到了 http获取网页结果，request进行http请求，cheerio进行解析，mkdirp创建目录，fs创建文件，iconv-lite进行格式转换（此例非必须）。

curl.js：

/**

 * Created by baidu on 16/10/17.

 */

var http = require("http");

function download(url, callback) {

    var chunks = [];

    http.get(url, function(res) {

        res.on('data', function(chunk) {

            chunks.push(chunk);

        });

        res.on('end', function () {

            callback(chunks);

        });

    }).on('error', function () {

        callback(chunks);

    })

}

exports.download = download;

saveimage.js

/**

 * Created by baidu on 16/10/17.

 */

var fs = require('fs');

var request = require('request');

var saveImage = function(url, filename) {

    console.log('Image=>' + url);

    request(url).pipe(fs.createWriteStream(filename));

    console.log('Save=>' + filename);

}

exports.saveImage = saveImage;

HelloWorld.js

/**

 * Created by baidu on 16/10/17.

 */

console.log("Hello World");

var cheerio = require('cheerio');

var curl = require('./curl');

var iconv = require('iconv-lite');

var mkdirp = require('mkdirp');

var saveimage = require('./saveimage');

//var url = 'http://open.163.com/special/opencourse/englishs1.html';

var url = 'http://loftermeirenzhi.lofter.com/tag/%E4%BA%BA%E5%83%8F?page=';

var dir = './images';

mkdirp(dir, function(err) {

    if (err) {

        console.log(err);

    }

});

curl.download(url, function (chunks) {

    if (chunks) {

        var data = iconv.decode(Buffer.concat(chunks), 'gbk');

        var $ = cheerio.load(data);

        $('a.img').each(function (i, e) {

            var item = $(e).children('img').last().attr('src');

            saveimage.saveImage(item, dir + '/' + item.substr(item.indexOf('.jpg')-10, 14));

        });

        console.log('done');

    }

    else {

        console.log('error');

    }

});

运行之后，发现基本上下载的图片文件都是空。

看了例子，将saveimage.js中的request部分做了一些修改，如下：

/**

 * Created by baidu on 16/10/17.

 */

var fs = require('fs');

var request = require('request');

var saveImage = function(url, filename) {

    console.log('Image=>' + url);

    request.head(url, function(err, res, body) {

        request(url).pipe(fs.createWriteStream(filename));

    });

    console.log('Save=>' + filename);

}

exports.saveImage = saveImage;

然后运行，成功，打印：

/usr/local/bin/node /Users/baidu/Documents/Data/Work/Code/Self/nodejs/helloworld/HelloWorld.js

Hello World

Image=>http://imgsize.ph.126.net/?imgurl=http://img2.ph.126.net/CiL5IULFm0TtZBjxnhcfQQ==/52072870709354180.jpg_110x110x0x90.jpg

Save=>./images/0709354180.jpg

Image=>http://imglf1.nosdn.127.net/img/SzZqcDg4Rk01VGo5cW81TEorTU5zL2dCbjBLbktBODlCSkFGSXlIdEw5dEFvSDlGaTNjZmJ3PT0.jpg?imageView&thumbnail=500x0&quality=96&stripmeta=0&type=jpg

Save=>./images/TNjZmJ3PT0.jpg

......

done

然后项目目录中，生成了images目录，其中有美女图片：

对上面这个改动能起到效果，还不是特别明白。(head一般用来判断url是否有效。)

加了head成功，也有可能是因为第一次图片虽然没下载成功，但是已经启动下载，做了缓存。实验了一下，在成功一次之后，把head命令去掉：

//request.head(url, function(err, res, body) {

        request(url).pipe(fs.createWriteStream(filename));

//});

发现还是能够成功。所以有很大可能是图片加载延迟造成。

有时间的时候，要看一下，怎样避免图片下载超时导致下载失败的问题，有没有设置超时的地方。

好像在request初始化的时候，可以设置：

request({

    url: jurl,

    gzip: true,

    timeout: xxx

  })

后面再学习 Javascript Request 以及渲染的一些内容。尤其是 phantomjs 渲染动态网页的方式。

利用Nodejs & Cheerio & Request抓取Lofter美女图片的更多相关文章

【Python爬虫程序】抓取MM131美女图片，并将这些图片下载到本地指定文件夹。
一.项目名称抓取MM131美女写真图片,并将这些图片下载到本地指定文件夹. 共有6种类型的美女图片: 性感美女清纯美眉美女校花性感车模旗袍美女明星写真抓取后的效果图如下,每个图集是一个独 ...
使用nodejs+http(s)+events+cheerio+iconv-lite爬取2717网站图片数据到本地文件夹
源代码如下: //(node:9240) Warning: Setting the NODE_TLS_REJECT_UNAUTHORIZED environment variable to '0' ...
Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）
概要这篇博客是在上一篇博客Phantomjs+Nodejs+Mysql数据抓取(1.抓取数据) http://blog.csdn.net/jokerkon/article/details/50868 ...
python抓取性感尤物美女图
由于是只用标准库,装了python3运行本代码就能下载到多多的美女图... 写出代码前面部分的时候,我意识到自己的函数设计错了,强忍继续把代码写完. 测试发现速度一般,200K左右的下载速度,也没有很 ...
利用python scrapy 框架抓取豆瓣小组数据
因为最近在找房子在豆瓣小组-上海租房上找,发现搜索困难,于是想利用爬虫将数据抓取. 顺便熟悉一下Python. 这边有scrapy 入门教程出处:http://www.cnblogs.com/txw1 ...
如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...
(转)利用Beautiful Soup去抓取p标签下class=jstest的内容
1.利用Beautiful Soup去抓取p标签下class=jstest的内容 import io import sys import bs4 as bs import urllib.request ...
Android利用tcpdump和wireshark抓取网络数据包
Android利用tcpdump和wireshark抓取网络数据包主要介绍如何利用tcpdump抓取andorid手机上网络数据请求,利用Wireshark可以清晰的查看到网络请求的各个过程包括三次 ...
Python爬虫【三】利用requests和正则抓取猫眼电影网上排名前100的电影
#利用requests和正则抓取猫眼电影网上排名前100的电影 import requests from requests.exceptions import RequestException imp ...

随机推荐

linux命令（50）：top命令
TOP是一个动态显示过程,即可以通过用户按键来不断刷新当前状态.如果在前台执行该命令,它将独占前台,直到用户终止该程序为止.比较准确的说,top命令提供了实时的对系统处理器的状态监视.它将显示系统中C ...
[vim]使用中问题
bug1: vim文档中文注释为乱码 step1: vim /var/lib/locales/supported.d/local 在其中添加下面的中文字符集 zh_CN.GBK GBK zh_CN.G ...
【转】Jmeter-----函数引用和函数重定向
详见内文
AIOps-一位研发工程师的学习笔记
https://blog.csdn.net/wxm6614/article/details/80457568
AC日记——矩阵取数游戏洛谷 P1005
矩阵取数游戏思路: dp+高精: 代码: #include <bits/stdc++.h> using namespace std; #define ll long long struc ...
IO扩展控件(System.IO.Abstractions)
刚看到这个Namespace的时候还以为是.Net Framework里自带的包,结果查了一圈无任何结果.果断上Github搜索,一击即中 https://github.com/tathamoddie ...
sonarQube安装及本机扫描C#项目
因项目需要,需要使用sonarQube对代码进行扫描并查看,因对sonarQube不熟悉,所以先在本机搭建测试环境. 参考了张老师的博客:http://www.cnblogs.com/danzhang ...
python spyder 今天突然打不开了【已解决】
python spyder 我是设置开机启动的,先出现dos窗口,然后是蜘蛛网,后面就什么都没有了.然后百度了半天,在csdn看到一篇文章,试了一下,内牛满面! 方法:C:\Documents and ...
洛谷P1514 引水入城 [搜索，区间DP]
题目传送门引水入城题目描述在一个遥远的国度,一侧是风景秀美的湖泊,另一侧则是漫无边际的沙漠.该国的行政区划十分特殊,刚好构成一个 N 行×M 列的矩形,如上图所示,其中每个格子都代表一座城市,每 ...
Sqli-labs less 4
Less-4 我们使用?id=1" 注入代码后,我们得到像这样的一个错误: You have an error in your SQL syntax; check the manual th ...

利用Nodejs & Cheerio & Request抓取Lofter美女图片

利用Nodejs & Cheerio & Request抓取Lofter美女图片的更多相关文章

随机推荐

热门专题