nodejs 使用superagent+cheerio+eventproxy爬取豆瓣帖子

//cnpm install superagent cheerio eventproxy fs path
var superagent = require('superagent');

var cheerio = require('cheerio');

var eventproxy = require('eventproxy');

var fs = require("fs");

var path = require("path");

var ep = new eventproxy();

//全局变量

var g = {

    //抓取时间间隔

    list_fetch_sec : 500,

    //抓取页码数

    list_fetch_num : 50,

    //抓取失败待重试的数组

    list_fail_url : [],

    //最终获取的图片数组

    list_href_arr : [],

    //抓取的版块

    pid:'douban_explore_ent',

    //每个文件下的数据条数

    file_data_num:30

};

get_article_list_url();

function get_list_url(){

    var url_arr = [];

    //控制抓取页码数

    for(var i=0;i<g.list_fetch_num;i++){

        var strat = i*30;

        url_arr.push('https://www.douban.com/group/explore/ent?start='+strat);

    }

    return url_arr;

}

//解析列表页dom

function parseList(all_arr){

    //遍历

    all_arr.forEach(function (item) {

        var itemUrl = item[0];

        var itemHtml = item[1];

        console.log('列表页抓取完成');

        var $ = cheerio.load(itemHtml);

        var a_dom = $('#content .channel-item .bd h3 a');

        a_dom.each(function(){

            var href = $(this).attr('href');

            console.log(href);

            g.list_href_arr.push(href);

        });

    });

}

//解析详情页dom

function praseDetail(all_arr){

    var text_arr = [];

    all_arr.forEach(function (item) {

        var itemUrl = item[0];

        var itemHtml = item[1];

        var group_no = item[2];

        if(itemHtml){

            //decodeEntities 是否解码实体

            var $ = cheerio.load(itemHtml,{decodeEntities: false});

            var content_jq = $('#content .topic-doc .topic-content');

            var title_jq = $('#content h1');

            try{

                var first_floor = content_jq.html();

                var title = title_jq.text();

                var data = {

                    content:first_floor,

                    title:title,

                    url:itemUrl

                };

                text_arr.push(data);

            }catch(msg){

                console.log('error');

            }

        }

    });

    return text_arr;

}

//获取帖子列表

//feeling

function get_article_list_url(){

    var url_arr = get_list_url();

    url_arr.forEach(function (url,index) {

        var _index = index+1;

        fetch_op(url,_index,g.list_fetch_sec,'list_parse','');

    });

    ep.after('list_parse', url_arr.length, function (all_arr) {

        parseList(all_arr);

        console.log('开始抓取详情页');

        get_article_detail();

    });

}

//获取帖子详情

function get_article_detail(){

    //分割数组

    var obj = {};

    g.list_href_arr.forEach(function (url,index) {

        var _group = parseInt(index/g.file_data_num)+1;

        //没有则新建数组

        if(!obj[_group]){

            obj[_group] = [];

        }

        obj[_group].push(url);

    });

    console.log(obj);

    var group_no;

    for(group_no in obj){

        var group_data = obj[group_no];

        var len = group_data.length;

        //设置计数器

        ep_after(group_no,len);

        //每组再遍历

        var j;

        var count = 0;

        for(j in group_data){

            count++;

            var url = group_data[j];

            var _index = count;

            fetch_op(url,_index,g.list_fetch_sec,'detail_parse_'+group_no,group_no);

        }

    }

}

function ep_after(_group,len){

    //计数器作用 当emit的detail_parse达到指定的数量时出发回调

    ep.after('detail_parse_'+_group, len, function (all_arr) {

        console.log('详情页第['+_group+']组抓取完成');

        var text_arr = praseDetail(all_arr);

        if(text_arr.length){

            //如果目录不存在 同步创建目录

            var dir_path_name = get_dir_path_name(g.pid);

            if (!fs.existsSync(dir_path_name)) {

                console.log('新建目录: '+dir_path_name);

                fs.mkdirSync(dir_path_name);

            }

            console.log('saveing '+'详情页第['+_group+']组');

            var save_data = {data:text_arr};

            var path_name = get_file_path_name(g.pid,_group);

            fs.writeFile(path_name, JSON.stringify(save_data), function (err) {

                  if (err) throw err;

                  console.log('save done!');

            });

        }

    });

}

function get_file_path_name(dirname,no){

    var filename = dirname+'_'+no+'.js';

    return path.join(__dirname,'data',dirname,filename);

}

function get_dir_path_name(dirname){

    return path.join(__dirname,'data',dirname);

}

function fetch_op(url,i,sec,emit_name,group_no){

    setTimeout(function(){

        superagent.get(url)

        .end(function (err, res) {

          if(res){

              console.log('抓取 第['+group_no+']组 ' + url + ' 成功');

              ep.emit(emit_name, [url,res.text,group_no]);

          }else{

              ep.emit(emit_name, [url,'',group_no]);

              console.log('抓取 第['+group_no+']组 ' + url + ' 失败');

          }

        });

    },i*sec);

}

注意：以上代码请仅用于学习用途，切勿用于生产环境或者其他非法用途，否则后果请自行承担

superagent 是一个轻量的,渐进式的ajax api,可读性好,学习曲线低,内部依赖nodejs原生的请求api

cheerio 用于解析dom，用法与jquery类似

eventproxy 并发控制(计数器功能)

功能:爬取豆瓣的某版块列表页中的详情的内容，自动创建文件夹并写入文件中存储，可供接口调用。

代码解读:

执行get_article_list_url方法获取列表的url存进g.list_href_arr中，在执行完成的计数器回调中调用get_article_detail方法，该方法首先根据g.file_data_num对g.list_href_arr的url进行分组，
分完组后根据组数控制请求间隔，在执行完成的计数器回调中新建目录，将抓取回来的数据写入文件。
可直接供前端做接口使用。

nodejs 使用superagent+cheerio+eventproxy爬取豆瓣帖子的更多相关文章

第一个nodejs爬虫：爬取豆瓣电影图片
第一个nodejs爬虫:爬取豆瓣电影图片存入本地: 首先在命令行下 npm install request cheerio express -save; 代码: var http = require( ...
Node.js爬取豆瓣数据
一直自以为自己vue还可以,一直自以为webpack还可以,今天在慕课逛node的时候,才发现,自己还差的很远.众所周知,vue-cli基于webpack,而webpack基于node,对node不了 ...
urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250
对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务. 1.urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的. ...
python2.7爬取豆瓣电影top250并写入到TXT，Excel，MySQL数据库
python2.7爬取豆瓣电影top250并分别写入到TXT,Excel,MySQL数据库 1.任务爬取豆瓣电影top250 以txt文件保存以Excel文档保存将数据录入数据库 2.分析电影 ...
python定时器爬取豆瓣音乐Top榜歌名
python定时器爬取豆瓣音乐Top榜歌名作者:vpoet mail:vpoet_sir@163.com 注:这些小demo都是前段时间为了学python写的,现在贴出来纯粹是为了和大家分享一下 # ...
Scrapy 通过登录的方式爬取豆瓣影评数据
Scrapy 通过登录的方式爬取豆瓣影评数据爬虫 Scrapy 豆瓣 Fly 由于需要爬取影评数据在来做分析,就选择了豆瓣影评来抓取数据,工具使用的是Scrapy工具来实现.scrapy工具使用起来 ...
Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1)
1. 爬虫设计的技术 1)数据获取,通过http获取网站的数据,如urllib,urllib2,requests等模块: 2)数据提取,将web站点所获取的数据进行处理,获取所需要的数据,常使用的技 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
scrapy爬取豆瓣电影top250
# -*- coding: utf-8 -*- # scrapy爬取豆瓣电影top250 import scrapy from douban.items import DoubanItem class ...

随机推荐

如何让vue项目兼容IE浏览器
一般来说项目开发到后期都需要做各种兼容性处理例如:360.IE9以上.QQ浏览器....等等那么现在来介绍一个工具 babel-cli 跟 babel-preset-es2015 babel-cli ...
递归 - Leetcode 110 判断二叉树是否为平衡二叉树
110. Balanced Binary Tree Given a binary tree, determine if it is height-balanced. For this problem, ...
在deepin 15.5中安装vs code并配置c/c++环境
原文地址:https://blog.csdn.net/DefetC/article/details/79946100 参考了以下几篇文章: https://www.zhihu.com/question ...
【原创】大叔经验分享（14）spark on yarn提交任务到集群后spark-submit进程一直等待
spark on yarn通过--deploy-mode cluster提交任务之后,应用已经在yarn上执行了,但是spark-submit提交进程还在,直到应用执行结束,提交进程才会退出,有时这会 ...
canvas图片与img图片的相互转换
最近在一个项目中,遇到了一个问题,需要把生成的canvas形式的二维码转换为图片,可以长按识别,保存等.查找了一些资料归纳总结了一些知识. 默认在jq库里进行,引入jquery.qrcode.min. ...
小程序获取formid配置模板消息
小程序无限获取formid,发送模板信息 1.发送模板信息需要条件:formid 2.formid产生环境:提交form表单产生,并且只有真机才能出现————安卓一个13位的时间戳(近期使用得时候,安 ...
iOS开发多线程之NSOperation
NSInvocationOperation The NSInvocationOperationclass is a concrete subclass of NSOperationthat you u ...
jQuery的下拉选select2插件用法
1转自:https://www.jb51.net/article/95561.htm 用了这么久的Select2插件,也该写篇文章总结总结.当初感觉Select2不是特别好用,但又找不到比它更好的下拉 ...
Gradle 使用笔记
Springboot2.0 多模块打包问题打包命令由gradle build 变成 gradle bootJar 或 gradle bootWar buildscript { repositorie ...
继承了AppCompatActivity的全屏设置
v7下全屏设置:getSupportActionBar().hide();getWindow().setFlags(WindowManager.LayoutParams.FLAG_FULLSCREEN ...

nodejs 使用superagent+cheerio+eventproxy爬取豆瓣帖子

nodejs 使用superagent+cheerio+eventproxy爬取豆瓣帖子的更多相关文章

随机推荐

热门专题