Node.js实现简单的爬取

学习【node.js】也有几天时间了，所以打算写着练练手；索然我作为一个后端的选手，写起来还有那么一丝熟悉的感觉。emmm~~ ‘货’不多讲，开搞........

首先是依赖选择：

代码块如下：

//引入依赖

//https请求

const https = require('https');

//简称node版的jquery

const cheerio = require('cheerio');

//解决防止出现乱码

const iconv = require('iconv-lite')

//http请求

const request = require("request");

//负责读写文件

const fs = require('fs');

//处理文件路径

const path = require('path');

爬取路径：

代码块：(PS：这里单独拿出来是因为这个站的素材比较推荐，可以上去瞅瞅~~)

const url = 'https://unsplash.com/';

初步实现：

网站的基本构成

这里主要是我们直接确认一下需要的【img】标签，以及外面的【figure】，然后直接就可以开工了....

核心代码：

//方法对象

const util = {

    getsrc: function (url) {

        https.get(url, res => {

            const chunks = [];

            res.on('data', chunk => {

                // chunks里面存储着网页的html内容

                chunks.push(chunk);

            });

            res.on('end', e => {

                let ALL = [];

                //编码格式

                let html = iconv.decode(Buffer.concat(chunks), 'utf8');

                let $ = cheerio.load(html, { decodeEntities: false });

                //标签遍历

                $("figure img").each(function (idex, elent) {

                    let $elent = $(elent);

                    let $srcset = $elent.attr("srcset");

                    if ($srcset != undefined) {

                        let src = ($srcset.split(',').pop()).split('?')[0];

                        ALL.push({

                            src: src

                        })

                    }

                });

                //遍历数组 每个后面加.jpg

                ALL.forEach(item => {

                    util.downloadimg(item.src, path.basename(item.src) + ".jpg", function () {

                        console.log(path.basename(item.src) + ".jpg");

                    });

                })

            });

            res.on('error', e => {

                console.log('Error: ' + e.message);

            });

        });

    },

    //运行主函数

    main: function () {

        console.log("------start--------");

        util.getsrc(url);

    },

    //下载图片函数

    downloadimg: function (src, srcname, callback) {

        //http请求

        request.head(src, function (err, res, body) {

            if (err) {

                console.log('err:' + err);

                return false;

            }

            console.log('res: ' + res);

            //保存数据，这里是防止未来得及记录数据又开始读取数据而导致数据丢失

            request(src).pipe(fs.createWriteStream('./img/' + srcname)).on('close', callback);

        });

    }

}

//主函数

util.main();

然后就可以运行 node xxx.js 看运行结果。

Git源码地址：https://github.com/KelvinKey/node-reptile

END Initial entry into the front end, the inadequacies, please bear with me.

Node.js实现简单的爬取的更多相关文章

node.js 89行爬虫爬取智联招聘信息
写在前面的话, .......写个P,直接上效果图.附上源码地址 github/lonhon ok,正文开始,先列出用到的和require的东西: node.js,这个是必须的 request,然发 ...
使用Node.js实现简单的网络爬取
由于最近要实现一个爬取H5游戏的代理服务器,隧看到这么一篇不错的文章(http://blog.miguelgrinberg.com/post/easy-web-scraping-with-nodejs ...
关于js渲染网页时爬取数据的思路和全过程（附源码）
于js渲染网页时爬取数据的思路首先可以先去用requests库访问url来测试一下能不能拿到数据,如果能拿到那么就是一个普通的网页,如果出现403类的错误代码可以在requests.get()方法里 ...
使用webmagic爬虫对百度百科进行简单的爬取
分析要爬取的网页源码: 1.打开要分析的网页,查看源代码,找到要爬取的内容: (选择网页里的一部分右击审查元素也行) 2.导入jar包,这个就直接去网上下吧: 3.写爬虫: package com.g ...
web scraper——简单的爬取数据【二】
web scraper——安装[一] 在上文中我们已经安装好了web scraper现在我们来进行简单的爬取,就来爬取百度的实时热点吧. http://top.baidu.com/buzz?b=1&a ...
Centos7 中 Node.js安装简单方法
最近,我一直对学习Node.js比较感兴趣.下面是小编给大家带来的Centos7 中 Node.js安装简单方法,在此记录一下,方便自己也方便大家,一起看看吧! 安装node.js 登陆Centos ...
创建node.js一个简单的应用实例
在node.exe所在目录下,创建一个叫 server.js 的文件,并写入以下代码: //使用 require 指令来载入 http 模块 var http = require("http ...
Node.js 实现简单小说爬虫
最近因为剧荒,老大追了爱奇艺的一部网剧,由丁墨的同名小说<美人为馅>改编,目前已经放出两季,虽然整部剧槽点满满,但是老大看得不亦乐乎,并且在看完第二季之后跟我要小说资源,直接要奔原著去看结 ...
用node.js实现简单的web服务器
node.js实现web服务器还是比较简单的,我了解node.js是从<node入门>开始的,如果你不了解node.js也可以看看! 我根据那书一步一步的练习完了,也的确大概了解了node ...

随机推荐

一个获取google chrome扩展crx文件信息的PHP操作类
此类中实现了从crx文件获取扩展的Appid.获取manifest.json文件内容.将crx文件转换为一般zip文件代码如下: <?php class CrxParserException ...
iOS View
创建: 2018/04/19 完成: 2018/04/20 View的创建创建 storyboard上操作与代码连接 ● 目的: 通过代码控制view ● 按住option拖动 View的坐 ...
5.replace的用法，while循环，continue
1.relace s='dadk12' print(s.replace('生活','dd'))==打印返回dadk12,即使没有也不会报错. 2.while continue while循环输出 1 ...
chrome调试中resource改到application中了
如题,看视频的时候发现在resource下面查看cookie,但是自己试的时候发现没有了这个工具, google之后发现原来该位置了
[MySQL] LIMIT 分页优化
背景:LIMIT 0,20 这种分页方式,随着 offset 值的不断增大,当达到百万级时,一条查询就需要1秒以上,这时可以借助索引条件的查询来优化. SQL:select * from member ...
python之商品操作小程序
要求:写一个添加商品的程序,商品信息写入txt文件中,以二维字典形式比如:{‘小米’:{‘价格’:‘1999元’,‘数量’:10}} 1.添加商品 #商品名称 #价格 #数量 2.查看商品 3.删除商 ...
[POI2005]Sza-Template
Description Byteasar 想在墙上涂一段很长的字符,他为了做这件事从字符的前面一段中截取了一段作为模版. 然后将模版重复喷涂到相应的位置后就得到了他想要的字符序列.一个字符可以被喷涂很 ...
HDU 2828 Lamp 二分图的最大匹配模型题
http://acm.hdu.edu.cn/showproblem.php?pid=2828 给定n个灯,m个开关,使得每栈灯亮,前提是控制这栈灯的开关的状态是其中一个.(题目应该都看得懂) 其实我想 ...
NIO服务端主要创建过程
NIO服务端主要创建过程: 步骤一:打开ServerSocketChannel,用于监听客户端的连接,它是所有客户端连接的副管道,示例代码如下: ServerSocketChannel ...
AJPFX关于对集合中的元素删除操作和注意点
import java.util.ArrayList;import java.util.Iterator;import java.util.List; public class ForeTest2 { ...

Node.js实现简单的爬取

Node.js实现简单的爬取的更多相关文章

随机推荐

热门专题