一个超级简单的node.js爬虫(内附表情包)

之所以会想到要写爬虫，并不是出于什么高大上的理由，仅仅是为了下载个表情包而已……

容我先推荐一下西乔出品的神秘的程序员表情包。

这套表情包着实是抵御产品、对付测试、嘲讽队友、恐吓前任的良品，

不过不知道用多了会不会挨揍……

however，我就是想要这套表情包，但是因为腾讯的图片链接的问题，直接用chrome另存为的话，无法识别图片格式，而且这么多图一个个另存也太麻烦了，身为程序员怎么能做这种重复性的工作呢？

这种情况下就该上爬虫了，因为目的很简单，所以也不搞太复杂的爬虫，怎么简单怎么来，这里我用了两个包，分别是:

request:

这个包的原理我也没仔细看，大概就是对http.get的封装之类的吧，这个包可以用来简化请求网页和下载图片的过程，其实这个过程用http.get来写也不是很复杂，但是能懒则懒嘛……

cheerio:

这个包类似于一个简化的jQuery，只包含dom部分的功能，而且专门用于node环境中运行，我用它来解析页面。

开始干活###

先用npm安装一下需要的包

npm install request cheerio

然后引入到JS文件中，并简单写一下下载图片的代码

"use strict"

const request = require('request')

const cheerio  = require('cheerio')

const fs = require('fs')

//下载

const download = (name, src, type)=>{

    let ws = fs.createWriteStream('./download/'+id+'.'+type)

    request(src).pipe(ws)

}

之后需要获取页面内容，并交给cheerio解析

const url = ""

request(url, (error, response, body)=>{

    let $ = cheerio.load(body)

    //在页面里寻找想要的图片并下载

    console.log('done')

})

在写剩下的代码之前，我得先看看目标页面到底是什么样的，不然也没法找图片啊_(:з」∠)_

F12

页面很简单，大概思路就是先找到所有包括data-type的img标签，然后data-type就是图片类型，data-src就是图片地址。

补上关键代码之后，爬虫大概是这个样子的：

"use strict"

const request = require('request')

const cheerio  = require('cheerio')

const fs = require('fs')

//下载

const download = (name, src, type)=>{

    let ws = fs.createWriteStream('./download/'+name+'.'+type)

    request(src).pipe(ws)

}

const url = ""

request(url, (error, response, body)=>{

    let $ = cheerio.load(body)

    let imgs = $("img[data-type]")

    imgs.each((i,e)=>{

        let type = $(e).attr('data-type')

        let src = $(e).attr('data-src')

        download(i, src, type)

    })

    console.log('done')

})

cheerio的语法和jquery基本一样，着实省了好多事。

现在这个爬虫填上url就可以用啦╰(°▽°)╯

另外附上做好的QQ表情包，献给连代码都懒得复制的同学……

神秘的程序员

一个超级简单的node.js爬虫(内附表情包)的更多相关文章

一个用来爬小说的简单的Node.js爬虫
小说就准备点天下霸唱和南派三叔的系列,本人喜欢看,而且数据也好爬.貌似因为树大招风的原因,这两作者的的书被盗版的很多,乱改的也多.然后作者就直接在网上开放免费阅读了,还提供了官网,猜想作者应该是允许爬 ...
node.js爬虫
这是一个简单的node.js爬虫项目,麻雀虽小五脏俱全. 本项目主要包含一下技术: 发送http抓取页面(http).分析页面(cheerio).中文乱码处理(bufferhelper).异步并发流程 ...
Node.js爬虫-爬取慕课网课程信息
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...
Node JS爬虫：爬取瀑布流网页高清图
原文链接:Node JS爬虫:爬取瀑布流网页高清图静态为主的网页往往用get方法就能获取页面所有内容.动态网页即异步请求数据的网页则需要用浏览器加载完成后再进行抓取.本文介绍了如何连续爬取瀑布流网页 ...
打算写一个《重学Node.js》系列，希望大家多多支持
先放上链接吧,项目已经开始2周了:https://github.com/hellozhangran/happy-egg-server 想法现在是2019年11月24日,还有人要开始学习Node.js ...
Node.js aitaotu图片批量下载Node.js爬虫1.00版
即使是https网页,解析的方式也不是一致的,需要多试试. 代码: //====================================================== // aitaot ...
Node.js umei图片批量下载Node.js爬虫1.00
这个爬虫在abaike爬虫的基础上改改图片路径和下一页路径就出来了,代码如下: //====================================================== // ...
Node.js abaike图片批量下载Node.js爬虫1.01版
//====================================================== // abaike图片批量下载Node.js爬虫1.01 // 1.01 修正了输出目 ...
Node.js abaike图片批量下载Node.js爬虫1.00版
这个与前作的差别在于地址的不规律性,需要找到下一页的地址再爬过去找. //====================================================== // abaik ...

随机推荐

SASS详解之沿袭(extend)
SASS详解之继承(extend) 每一个类名都有可能有另一个类名的所有样式和它自己的特定样式的.当一个div的身上有两个类名,一个是“one”,另一个是“two”的时候.如下 HTML代码 < ...
开发RESTful WebService
RESTful风格的webservice越来越流行了,sun也推出了RESTful WebService的官方规范:JAX-RS,全称:Java API for RESTful WebService. ...
Access数据库数据转换Table.Json
使用WPF组件 xaml <Window x:Class="JsonConvert.MainWindow" xmlns="http://schemas.micros ...
ajax无刷新方式收集表单并提交表单
ajax无刷新方式收集表单有两种方式, 一个是使用html5的FormData.一个是传统的方式. 一,FormData,在主流的浏览器中可以用,IE不好用啊. 另外,FormData使用有两个条件, ...
加入BOINC(伯克利开放式网络计算平台)
转载:BOINC:为科学而计算通过 BOINC 你可以将闲置的计算机时间贡献给 SETI@home, Climateprediction.net, Rosetta@home, World Commu ...
svn更新
下载配置文件 pwd cd /home/www/xxxx/protected/config/ get main.php 上传配置文件 put main.php svn更新 svn co svn://s ...
ext.apply和ext.applyIf
apply的用法: Ext中apply及applyIf方法的应用 apply及applyIf方法都是用于实现把一个对象中的属性应用于另外一个对象中,相当于属性拷贝. 不同的是apply将会覆盖目标对象 ...
python的bind函数
# -*- coding:utf-8 -*- class Functor(object): def __init__(self, func, index=0, *args, **kwargs): se ...
ServiceStack.OrmLite
ServiceStack.OrmLite 谈谈我的入门级实体框架Loogn.OrmLite 每次看到有新的ORM的时候,我总会留意一下,因为自己也写过一个这样的框架,人总是有比较之心的.我可能会d ...
UITableView的详细使用
UITableView的详细使用 UITableView是app开发中常用到的控件,功能很强大,多用于数据的显示.下面以一个简单的实例来介绍tableview的基本用法.(适合新手,高手飘过) @ ...

一个超级简单的node.js爬虫(内附表情包)

开始干活###

一个超级简单的node.js爬虫(内附表情包)的更多相关文章

随机推荐

热门专题