Node.js实现简单的爬取

学习【node.js】也有几天时间了，所以打算写着练练手；索然我作为一个后端的选手，写起来还有那么一丝熟悉的感觉。emmm~~ ‘货’不多讲，开搞........

首先是依赖选择：

代码块如下：

//引入依赖

//https请求

const https = require('https');

//简称node版的jquery

const cheerio = require('cheerio');

//解决防止出现乱码

const iconv = require('iconv-lite')

//http请求

const request = require("request");

//负责读写文件

const fs = require('fs');

//处理文件路径

const path = require('path');

爬取路径：

代码块：(PS：这里单独拿出来是因为这个站的素材比较推荐，可以上去瞅瞅~~)

const url = 'https://unsplash.com/';

初步实现：

网站的基本构成

这里主要是我们直接确认一下需要的【img】标签，以及外面的【figure】，然后直接就可以开工了....

核心代码：

//方法对象

const util = {

    getsrc: function (url) {

        https.get(url, res => {

            const chunks = [];

            res.on('data', chunk => {

                // chunks里面存储着网页的html内容

                chunks.push(chunk);

            });

            res.on('end', e => {

                let ALL = [];

                //编码格式

                let html = iconv.decode(Buffer.concat(chunks), 'utf8');

                let $ = cheerio.load(html, { decodeEntities: false });

                //标签遍历

                $("figure img").each(function (idex, elent) {

                    let $elent = $(elent);

                    let $srcset = $elent.attr("srcset");

                    if ($srcset != undefined) {

                        let src = ($srcset.split(',').pop()).split('?')[0];

                        ALL.push({

                            src: src

                        })

                    }

                });

                //遍历数组 每个后面加.jpg

                ALL.forEach(item => {

                    util.downloadimg(item.src, path.basename(item.src) + ".jpg", function () {

                        console.log(path.basename(item.src) + ".jpg");

                    });

                })

            });

            res.on('error', e => {

                console.log('Error: ' + e.message);

            });

        });

    },

    //运行主函数

    main: function () {

        console.log("------start--------");

        util.getsrc(url);

    },

    //下载图片函数

    downloadimg: function (src, srcname, callback) {

        //http请求

        request.head(src, function (err, res, body) {

            if (err) {

                console.log('err:' + err);

                return false;

            }

            console.log('res: ' + res);

            //保存数据，这里是防止未来得及记录数据又开始读取数据而导致数据丢失

            request(src).pipe(fs.createWriteStream('./img/' + srcname)).on('close', callback);

        });

    }

}

//主函数

util.main();

然后就可以运行 node xxx.js 看运行结果。

Git源码地址：https://github.com/KelvinKey/node-reptile

END Initial entry into the front end, the inadequacies, please bear with me.

Node.js实现简单的爬取的更多相关文章

node.js 89行爬虫爬取智联招聘信息
写在前面的话, .......写个P,直接上效果图.附上源码地址 github/lonhon ok,正文开始,先列出用到的和require的东西: node.js,这个是必须的 request,然发 ...
使用Node.js实现简单的网络爬取
由于最近要实现一个爬取H5游戏的代理服务器,隧看到这么一篇不错的文章(http://blog.miguelgrinberg.com/post/easy-web-scraping-with-nodejs ...
关于js渲染网页时爬取数据的思路和全过程（附源码）
于js渲染网页时爬取数据的思路首先可以先去用requests库访问url来测试一下能不能拿到数据,如果能拿到那么就是一个普通的网页,如果出现403类的错误代码可以在requests.get()方法里 ...
使用webmagic爬虫对百度百科进行简单的爬取
分析要爬取的网页源码: 1.打开要分析的网页,查看源代码,找到要爬取的内容: (选择网页里的一部分右击审查元素也行) 2.导入jar包,这个就直接去网上下吧: 3.写爬虫: package com.g ...
web scraper——简单的爬取数据【二】
web scraper——安装[一] 在上文中我们已经安装好了web scraper现在我们来进行简单的爬取,就来爬取百度的实时热点吧. http://top.baidu.com/buzz?b=1&a ...
Centos7 中 Node.js安装简单方法
最近,我一直对学习Node.js比较感兴趣.下面是小编给大家带来的Centos7 中 Node.js安装简单方法,在此记录一下,方便自己也方便大家,一起看看吧! 安装node.js 登陆Centos ...
创建node.js一个简单的应用实例
在node.exe所在目录下,创建一个叫 server.js 的文件,并写入以下代码: //使用 require 指令来载入 http 模块 var http = require("http ...
Node.js 实现简单小说爬虫
最近因为剧荒,老大追了爱奇艺的一部网剧,由丁墨的同名小说<美人为馅>改编,目前已经放出两季,虽然整部剧槽点满满,但是老大看得不亦乐乎,并且在看完第二季之后跟我要小说资源,直接要奔原著去看结 ...
用node.js实现简单的web服务器
node.js实现web服务器还是比较简单的,我了解node.js是从<node入门>开始的,如果你不了解node.js也可以看看! 我根据那书一步一步的练习完了,也的确大概了解了node ...

随机推荐

Spring boot整合redis实现shiro的分布式session共享
我们知道,shiro是通过SessionManager来管理Session的,而对于Session的操作则是通过SessionDao来实现的,默认的情况下,shiro实现了两种SessionDao,分 ...
the little schemer 笔记(0)
the little schemer 笔记 Z.X.L 2012年08月13日五项规则 car的规则car只对非空列表有定义. cdr的规则cdr只对非空列表有定义.任何非空列表的cdr是另外一个列 ...
【Codeforces1139D_CF1139D】Steps to One (Mobius_DP)
Problem: Codeforces 1139D Analysis: After ACing E, I gave up D and spent the left 30 minutes chattin ...
HDU - 6063 RXD and math
Bryce1010模板 http://acm.hdu.edu.cn/showproblem.php?pid=6063 打表发现规律是n^k #include <iostream> #inc ...
Helvetic Coding Contest 2017 online mirror (teams allowed, unrated) M
Description The marmots have prepared a very easy problem for this year's HC2 – this one. It involve ...
Codeforces Round #408 (Div. 2) C
Description Although Inzane successfully found his beloved bone, Zane, his owner, has yet to return. ...
(021)VMWare副虚拟磁盘和子虚拟磁盘id不匹配
问题:因为某种原因,修改了VM虚拟机的父磁盘内容,导致开机时出现如下错误: 父虚拟磁盘在子虚拟磁盘创建之后被修改过.父虚拟磁盘的内容 ID 与子虚拟磁盘中对应的父内容 ID 不匹配打不开磁盘“***. ...
AJPFX总结Collection集合（上）
出现集合类的原因面向对象语言对事物的体现都是以对象的形式,所以为了方便对多个对象的操作,就对对象进行存储,集合就是存储对象最常用的一个方式. 数组和集合都是容器有何不同? 数组虽也可存储对象,但长度 ...
【转】PowerManager 与 WakeLock
PowerManager 与 WakeLock PowerManager 用来控制设备的电源状态. 而PowerManager.WakeLock 也称作唤醒锁, 是一种保持 CPU 运转防止设备休眠的 ...
poj3280 Cheapest Palindrome
思路: 区间dp.添加和删除本质相同. 实现: #include <iostream> #include <cstdio> using namespace std; int n ...

Node.js实现简单的爬取

Node.js实现简单的爬取的更多相关文章

随机推荐

热门专题