node js 爬虫爬取静态页面，

先打一个简单的通用框子

//根据爬取网页的协议 引入对应的协议， http||https

var http = require('https');

//引入cheerio  简单点讲就是node中的jquery  jquery写法获取所得页面dom元素

var cheerio = require('cheerio');

//目标网址  这里是图片网址

var url = '';

//文件读写

var fs = require('fs');

//发送request请求

var request = require('request');

//防止中文乱码

var iconv = require('iconv-lite');

function getimage(url, page) {

  //采用http模块向服务器发起一次get请求

  http.get(url, function (res) { //get到x网址，成功执行回调函数

    var html = ''; //用来存储请求网页的整个html内容

    var htmlarr = [];

    var htmllength = 0;

    //监听data事件，每次取一块数据

    res.on('data', function (chunk) {

      // html += chunk;

      htmlarr.push(chunk);

      htmllength += chunk.length;

    });

    //监听end事件，如果整个网页内容的html都获取完毕，就执行回调函数

    res.on('end', function () {

      html = Buffer.concat(htmlarr,htmllength);

      html = iconv.decode(html,'gb2312');

      var $ = cheerio.load(html,{decodeEntities: false}); //采用cheerio模块解析html

      //fs.stat 判断文件夹是否存在  ./2717/

      fs.stat("./2717/" + page, (err, stats) => {

        if(stats){

          save($,page)

         return

        }

        // fs.mkdir 没有文件夹就创建文件

        fs.mkdir("./2717/" + page, function (err) {

          if (err) {

            return console.error(err);

          }

          save($,page)

        });

      });

    });

  }).on('error', function (err) { //http模块的on data,on end ,on error事件

    console.log(err);

  });

}

function save($,page){

  var imgarr = [];

  console.log($('.w1200 .w1200 .w110 img').length);

  $('.w1200 .w1200 .w110 img').each(function (val, index) {

    var obj = {

      url: $(this).attr('src'),

      alt: $(this).attr('alt')

    }

    if('夏天少女系清新漂亮美甲背景图片' == $(this).attr('alt')) console.log($(this).attr('src'));

    imgarr.push(obj)

    request(encodeURI($(this).attr('src'))).pipe(fs.createWriteStream("./2717/" + page+'/'+$(this).attr('alt')+'.jpg'));

  });

  fs.appendFile("./2717/" + page+'/备注.txt', JSON.stringify(imgarr), 'utf-8', function (err) {

    if (err) {

      console.log(err);

    }

  });

}

for(var i = 1 ;i<12;i++){

  url='https://www.2717.com/beautiful/beijingtupian/list_24_'+i+'.html';

  getimage(url, i);

}

　　上面的 html 就是页面所有的内容，就跟你谷歌浏览器 f12之后的elements 看到的一样，

这个只能爬静态页面，用ajax渲染的页面爬不到。

本人qq ：981900309

node js 爬虫爬取静态页面，的更多相关文章

Node.js 爬虫爬取电影信息
Node.js 爬虫爬取电影信息我的CSDN地址:https://blog.csdn.net/weixin_45580251/article/details/107669713 爬取的是1905电影 ...
Node.js爬虫-爬取慕课网课程信息
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...
养只爬虫当宠物（Node.js爬虫爬取58同城租房信息）
先上一个源代码吧. https://github.com/answershuto/Rental 欢迎指导交流. 效果图搭建Node.js环境及启动服务安装node以及npm,用express模块启 ...
手把手教你用Node.js爬虫爬取网站数据
个人网站 https://iiter.cn 程序员导航站开业啦,欢迎各位观众姥爷赏脸参观,如有意见或建议希望能够不吝赐教! 开始之前请先确保自己安装了Node.js环境,还没有安装的的童鞋请自行百度 ...
node.js爬虫爬取拉勾网职位信息
简介用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京.上海.广州.深圳.杭州.西安.成都7个城市的数据,分别以前端.PHP.java.c++.python.Androi ...
node：爬虫爬取网页图片
代码地址如下:http://www.demodashi.com/demo/13845.html 前言周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图片 ...
Scrapy爬取静态页面
Scrapy爬取静态页面安装Scrapy框架: Scrapy是python下一个非常有用的一个爬虫框架 Pycharm下: 搜索Scrapy库添加进项目即可终端下: #python2 sudo p ...
python网络爬虫（10）分布式爬虫爬取静态数据
目的意义爬虫应该能够快速高效的完成数据爬取和分析任务.使用多个进程协同完成一个任务,提高了数据爬取的效率. 以百度百科的一条为起点,抓取百度百科2000左右词条数据. 说明参阅模仿了:https: ...
python爬虫爬取汽车页面信息，并附带分析（静态爬虫）
环境: windows,python3.4 参考链接: https://blog.csdn.net/weixin_36604953/article/details/78156605 代码:(亲测可以运 ...

随机推荐

OpenCV掩模mask的原理和作用
一.什么是掩模mask OpenCV中很多函数都带有一个mask参数,mask被称为掩模.图像掩模一般用来对处理的图像(全部或者局部)进行遮挡,来控制图像处理的区域或处理过程. 二.掩模原理掩模一般 ...
【原创】大叔经验分享（25）hive通过外部表读写hbase数据
在hive中创建外部表: CREATE EXTERNAL TABLE hive_hbase_table(key string, name string,desc string) STORED BY ' ...
【原创】大叔算法分享（5）聚类算法DBSCAN
一简介 DBSCAN:Density-based spatial clustering of applications with noise is a data clustering algorit ...
SQLAlchemy 使用(一)创建单一model
前言最近项目等待前端接接口,比较空闲.就想学习一些新东西.学啥呢?考虑到ORM的易用性,还是学习一下ORM.那么与Flask搭配的ORM有 flask-sqlalchemy 但是该组件专为Flask ...
Flask+Nginx+Supervisor+Gunicorn+HTTPS部署教程(CentOs)
写在前面之前的文章中,我们详细讲述了怎样安装 Nginx,Python,Supervisor,Gunicorn,HTTPS.经本人多次测试是完全可以跑通的,那么本篇将介绍怎样将这些组合起来运行一个H ...
linux无法联网使用yum提示cannot find a valid baseurl for repobase7x86_64
每次安装新镜像时会遇到物理机有网络新安装的linux中却无法与物理机通信(不能连网),只能玩一些预装功能.命令,无法使用各种常用工具(特别是MINI版连ifconfig都没有o(╥﹏╥)o),下面记录 ...
Kali linux2.0里Metasploit的postgresql selected, no connection问题解决
说在前面的话 1.在kali中metasploit默认使用postgresql作为它的数据库: 想要开启metasploit服务首先得打开postgresql数据库, 命令如下:(或者:/etc/in ...
[BZOJ4913][SDOI2017]遗忘的集合
题解: 首先先弄出$f(x)$的生成函数$$f(x)=\prod_{i=1}^{n} {{(\frac{1}{1-x^i})}}^{a[i]}$$因为$f(x)$已知,我们考虑利用这个式子取推出$a[ ...
编码 ASCII, GBK, Unicode+utf-8
0. 1.参考网页编码就是那点事阮一峰字符编码笔记:ASCII,Unicode 和 UTF-8 2.总结美国 ASCII 码发音: /ˈæski/ :128个字符,只占用了一个字节的后面7位 ...
Python与R的区别和联系
转自:http://bbs.pinggu.org/thread-3078817-1-1.html 有人说Python和R的区别是显而易见的,因为R是针对统计的,python是给程序员设计的,其实这话对 ...

node js 爬虫爬取静态页面，

node js 爬虫爬取静态页面，的更多相关文章

随机推荐

热门专题