利用Nodejs & Cheerio & Request抓取Lofter美女图片

还是参考了这篇文章：

http://cnodejs.org/topic/54bdaac4514ea9146862abee

另外有上面文章 nodejs抓取网易公开课的一些经验。

代码如下，注意其中用到了 http获取网页结果，request进行http请求，cheerio进行解析，mkdirp创建目录，fs创建文件，iconv-lite进行格式转换（此例非必须）。

curl.js：

/**

 * Created by baidu on 16/10/17.

 */

var http = require("http");

function download(url, callback) {

    var chunks = [];

    http.get(url, function(res) {

        res.on('data', function(chunk) {

            chunks.push(chunk);

        });

        res.on('end', function () {

            callback(chunks);

        });

    }).on('error', function () {

        callback(chunks);

    })

}

exports.download = download;

saveimage.js

/**

 * Created by baidu on 16/10/17.

 */

var fs = require('fs');

var request = require('request');

var saveImage = function(url, filename) {

    console.log('Image=>' + url);

    request(url).pipe(fs.createWriteStream(filename));

    console.log('Save=>' + filename);

}

exports.saveImage = saveImage;

HelloWorld.js

/**

 * Created by baidu on 16/10/17.

 */

console.log("Hello World");

var cheerio = require('cheerio');

var curl = require('./curl');

var iconv = require('iconv-lite');

var mkdirp = require('mkdirp');

var saveimage = require('./saveimage');

//var url = 'http://open.163.com/special/opencourse/englishs1.html';

var url = 'http://loftermeirenzhi.lofter.com/tag/%E4%BA%BA%E5%83%8F?page=';

var dir = './images';

mkdirp(dir, function(err) {

    if (err) {

        console.log(err);

    }

});

curl.download(url, function (chunks) {

    if (chunks) {

        var data = iconv.decode(Buffer.concat(chunks), 'gbk');

        var $ = cheerio.load(data);

        $('a.img').each(function (i, e) {

            var item = $(e).children('img').last().attr('src');

            saveimage.saveImage(item, dir + '/' + item.substr(item.indexOf('.jpg')-10, 14));

        });

        console.log('done');

    }

    else {

        console.log('error');

    }

});

运行之后，发现基本上下载的图片文件都是空。

看了例子，将saveimage.js中的request部分做了一些修改，如下：

/**

 * Created by baidu on 16/10/17.

 */

var fs = require('fs');

var request = require('request');

var saveImage = function(url, filename) {

    console.log('Image=>' + url);

    request.head(url, function(err, res, body) {

        request(url).pipe(fs.createWriteStream(filename));

    });

    console.log('Save=>' + filename);

}

exports.saveImage = saveImage;

然后运行，成功，打印：

/usr/local/bin/node /Users/baidu/Documents/Data/Work/Code/Self/nodejs/helloworld/HelloWorld.js

Hello World

Image=>http://imgsize.ph.126.net/?imgurl=http://img2.ph.126.net/CiL5IULFm0TtZBjxnhcfQQ==/52072870709354180.jpg_110x110x0x90.jpg

Save=>./images/0709354180.jpg

Image=>http://imglf1.nosdn.127.net/img/SzZqcDg4Rk01VGo5cW81TEorTU5zL2dCbjBLbktBODlCSkFGSXlIdEw5dEFvSDlGaTNjZmJ3PT0.jpg?imageView&thumbnail=500x0&quality=96&stripmeta=0&type=jpg

Save=>./images/TNjZmJ3PT0.jpg

......

done

然后项目目录中，生成了images目录，其中有美女图片：

对上面这个改动能起到效果，还不是特别明白。(head一般用来判断url是否有效。)

加了head成功，也有可能是因为第一次图片虽然没下载成功，但是已经启动下载，做了缓存。实验了一下，在成功一次之后，把head命令去掉：

//request.head(url, function(err, res, body) {

        request(url).pipe(fs.createWriteStream(filename));

//});

发现还是能够成功。所以有很大可能是图片加载延迟造成。

有时间的时候，要看一下，怎样避免图片下载超时导致下载失败的问题，有没有设置超时的地方。

好像在request初始化的时候，可以设置：

request({

    url: jurl,

    gzip: true,

    timeout: xxx

  })

后面再学习 Javascript Request 以及渲染的一些内容。尤其是 phantomjs 渲染动态网页的方式。

利用Nodejs & Cheerio & Request抓取Lofter美女图片的更多相关文章

【Python爬虫程序】抓取MM131美女图片，并将这些图片下载到本地指定文件夹。
一.项目名称抓取MM131美女写真图片,并将这些图片下载到本地指定文件夹. 共有6种类型的美女图片: 性感美女清纯美眉美女校花性感车模旗袍美女明星写真抓取后的效果图如下,每个图集是一个独 ...
使用nodejs+http(s)+events+cheerio+iconv-lite爬取2717网站图片数据到本地文件夹
源代码如下: //(node:9240) Warning: Setting the NODE_TLS_REJECT_UNAUTHORIZED environment variable to '0' ...
Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）
概要这篇博客是在上一篇博客Phantomjs+Nodejs+Mysql数据抓取(1.抓取数据) http://blog.csdn.net/jokerkon/article/details/50868 ...
python抓取性感尤物美女图
由于是只用标准库,装了python3运行本代码就能下载到多多的美女图... 写出代码前面部分的时候,我意识到自己的函数设计错了,强忍继续把代码写完. 测试发现速度一般,200K左右的下载速度,也没有很 ...
利用python scrapy 框架抓取豆瓣小组数据
因为最近在找房子在豆瓣小组-上海租房上找,发现搜索困难,于是想利用爬虫将数据抓取. 顺便熟悉一下Python. 这边有scrapy 入门教程出处:http://www.cnblogs.com/txw1 ...
如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...
(转)利用Beautiful Soup去抓取p标签下class=jstest的内容
1.利用Beautiful Soup去抓取p标签下class=jstest的内容 import io import sys import bs4 as bs import urllib.request ...
Android利用tcpdump和wireshark抓取网络数据包
Android利用tcpdump和wireshark抓取网络数据包主要介绍如何利用tcpdump抓取andorid手机上网络数据请求,利用Wireshark可以清晰的查看到网络请求的各个过程包括三次 ...
Python爬虫【三】利用requests和正则抓取猫眼电影网上排名前100的电影
#利用requests和正则抓取猫眼电影网上排名前100的电影 import requests from requests.exceptions import RequestException imp ...

随机推荐

Centos7 环境准备
Centos7 环境准备 #关闭防火墙 systemctl stop firewalld systemctl disable firewalld #关闭selinux sed -i 's/SELINU ...
多路复用I/O模型epoll() 模型代码实现
epoll模型 int epoll_create(int maxevent) //创建一个epoll的句柄然后maxevent表示监听的数目的大小int epoll_ctl(int epollfd, ...
False Positives和False Negative等含义
True Positive (真正, TP)被模型预测为正的正样本: True Negative(真负 , TN)被模型预测为负的负样本 : False Positive (假正, FP)被模型预测为 ...
poj 1579(动态规划初探之记忆化搜索)
Function Run Fun Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 17843 Accepted: 9112 ...
Java学习笔记（十三一）——Xml 常用知识总结
[前面的话] 在学习spring框架,发现很多地方都用到了Xml的知识,所以会过头来再学习学习Xml. 本章学习的是Xml的基础,所以基础性文章,选择性阅读. [Xml] 一.Xml初步了解 XML ...
错误：Eclipse老是出现 updating error reports database
Eclipse 火星版(Mars)一直出现 updating error reports database. Window--->Preferences--->General---> ...
Ant Design React按需加载
Ant Design是阿里巴巴为React做出的组件库,有统一的样式及一致的用户体验官网地址:https://ant.design 1.安装: npm install ant --save 2.引用 ...
洛谷P1940买蛋糕
题目传送门题意:给定你一个数n,要求用最小个数的整数组成小于等于n的所有整数,并求出方案数. 很明显,擅长二进制的大犇们肯定一眼就看得出方案数是log2(n)+1,然而我并不擅长,但是推了一小会儿也 ...
【BZOJ 1004】 1004: [HNOI2008]Cards （置换、burnside引理）
1004: [HNOI2008]Cards Description 小春现在很清闲,面对书桌上的N张牌,他决定给每张染色,目前小春只有3种颜色:红色,蓝色,绿色.他询问Sun有多少种染色方案,Sun很 ...
Java 线程池的实现
http://blog.csdn.net/iterzebra/article/details/6758481 http://blog.sina.com.cn/s/blog_4914a33b010118 ...

利用Nodejs & Cheerio & Request抓取Lofter美女图片

利用Nodejs & Cheerio & Request抓取Lofter美女图片的更多相关文章

随机推荐

热门专题