node实现爬虫

node实现获取到豆瓣电影排行榜页面。

准备工作：

1.新建一个文件夹node 在当前文件夹中打开cmd

下载 npm install

初始化 npm init（注意一下：如果你的npm init没有作用可以使用npm init -y）

2.下载模块

superagent可以发起http请求
cheerio解析http返回的html内容，可以理解为一个Node.js版的 jquery，使用方式跟jquery相同
fs设置文件，在获取到图片的路径之后，可以实现将图片保存在本地
request采用这个模块，向服务器发起请求，获取图片资源
eventproxy：利用事件机制解决回调函数深度嵌套的问题
async：多线程并发控制

3.在node中新建两个文件夹

data放置得到的数据的内容 image获取得到的图片

开始编写代码。

var superagent=require('superagent');

var cheerio=require('cheerio');

var url=require('url');

var fs=require("fs");

var request=require('request');

var targeturl='https://movie.douban.com/chart';

var eventproxy=require('eventproxy');

var ep=new eventproxy()

var async=require('async')

superagent.get(targeturl).end(function(err,res){

    if(err){

        return console.error(err)

    }

    console.log('爬虫开始')

    var $=cheerio.load(res.text);//利用cheerio开始解析页面

    var repoUrls=[];//保存url

    var titleArray=[];

    console.log($('.item .pl2').length)

    $(".item .pl2").each(function(index,element){

        var $element=$(element);

        var href=url.resolve('https://movie.douban.com',$element.find("a").attr('href'))

        repoUrls.push(href)

        //获取每个仓库名字

        var $title=$element.find("a").contents()

        $title=$title[0].data.substr(0,$title.length-1)

        titleArray.push($title)

        var news={

            //名字

            title:$title,

            //路径

            url:href

        }

        console.log($)

        saveImage($,news)

    })

    repoUrls=repoUrls.slice(0,2)

    concurrencyCount=0;//当前并发记录

    var fetchUrl=function(repoUrl,callback){

        concurrencyCount++

        console.log('现在的并发数是',concurrencyCount,',正在抓取的是',repoUrl)

        superagent.get(repoUrl).end(function(err,res){

            var $=cheerio.load(res.text);

            //对也面内容进行解析

            var httpGitUrl=$('.item').attr('value')

            return ({

                url:repoUrl,

                httpGitUrl:httpGitUrl

            })

            concurrencyCount--;

            callback(null,repoUrl)

        });

    }

    async.mapLimit(repoUrls,5,function(repoUrl,callback){

        //对每个url进行相关处理

        fetchUrl(repoUrl,callback)

    },function(err,result){

        console.log('final');

    }

    )

})

//保留图片资源

function saveImage($,news){

    $(".item .nbg img").each(function(index,item){

        var img_title=$(this).attr("alt");//获取图片名字

        console.log(img_title)

        var img_filename=img_title+'.jpg';

        var img_src=$(this).attr("src");//获取图片的路径

        //采用request模块，向服务器发起一次请求，获取图片资源

        request.head(img_src,function(err,res,body){

            if(err){

                console.log(err)

            }

        });

        request(img_src).pipe(fs.createWriteStream('./image/'+news+'---'+img_filename))

    })

}

这样代码就完成了

开始执行代码：

然后再cmd中node index.js就可以了

git地址：https://github.com/GainLoss/MyNode/tree/master/Node%20crawler

参考：

https://byronlun.github.io/posts/2017-01-20-NodeJS爬虫摸索教程.html

http://blog.csdn.net/yezhenxu1992/article/details/50820629

node实现爬虫的更多相关文章

【原】小玩node+express爬虫-2
上周写了一个node+experss的爬虫小入门.今天继续来学习一下,写一个爬虫2.0版本. 这次我们不再爬博客园了,咋玩点新的,爬爬电影天堂.因为每个周末都会在电影天堂下载一部电影来看看. talk ...
Node.js爬虫-爬取慕课网课程信息
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...
node.js爬虫
这是一个简单的node.js爬虫项目,麻雀虽小五脏俱全. 本项目主要包含一下技术: 发送http抓取页面(http).分析页面(cheerio).中文乱码处理(bufferhelper).异步并发流程 ...
<node.js爬虫>制作教程
前言:最近想学习node.js,突然在网上看到基于node的爬虫制作教程,所以简单学习了一下,把这篇文章分享给同样初学node.js的朋友. 目标:爬取 http://tweixin.yueyishu ...
node：爬虫爬取网页图片
代码地址如下:http://www.demodashi.com/demo/13845.html 前言周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图片 ...
Node.js aitaotu图片批量下载Node.js爬虫1.00版
即使是https网页,解析的方式也不是一致的,需要多试试. 代码: //====================================================== // aitaot ...
Node.js umei图片批量下载Node.js爬虫1.00
这个爬虫在abaike爬虫的基础上改改图片路径和下一页路径就出来了,代码如下: //====================================================== // ...
Node.js abaike图片批量下载Node.js爬虫1.01版
//====================================================== // abaike图片批量下载Node.js爬虫1.01 // 1.01 修正了输出目 ...
Node.js abaike图片批量下载Node.js爬虫1.00版
这个与前作的差别在于地址的不规律性,需要找到下一页的地址再爬过去找. //====================================================== // abaik ...
Node JS爬虫：爬取瀑布流网页高清图
原文链接:Node JS爬虫:爬取瀑布流网页高清图静态为主的网页往往用get方法就能获取页面所有内容.动态网页即异步请求数据的网页则需要用浏览器加载完成后再进行抓取.本文介绍了如何连续爬取瀑布流网页 ...

随机推荐

1005 继续(3n+1)猜想（25 分）
卡拉兹(Callatz)猜想已经在1001中给出了描述.在这个题目里,情况稍微有些复杂. 当我们验证卡拉兹猜想的时候,为了避免重复计算,可以记录下递推过程中遇到的每一个数.例如对 n=3 进行验证的时 ...
AJAX使用说明书基础
AJAX简介什么是AJAX AJAX(Asynchronous Javascript And XML)翻译成中文就是“异步Javascript和XML”.即使用Javascript语言与服务器进行异 ...
poj 2763 求树上的两个节点的最短距离+在线修改答案
题目链接: http://poj.org/problem?id=2763 #include<stdio.h> #include<string.h> #include<ma ...
LeeCode（No3 - Longest Substring Without Repeating Characters）
题目: Given a string, find the length of the longest substring without repeating characters. 示例: Given ...
python3 迭代器笔记
#迭代器import syslist=[1,2,3,4]it=iter(list)while True: try: print(next(it)) except StopIteration: sys. ...
【ACM】会场安排问题
会场安排问题时间限制:3000 ms | 内存限制:65535 KB 难度:3 描述学校的小礼堂每天都会有许多活动,有时间这些活动的计划时间会发生冲突,需要选择出一些活动进行举办.小刘的工 ...
SpringBoot初始教程之Servlet、Filter、Listener配置
1.介绍通过之前的文章来看,SpringBoot涵盖了很多配置,但是往往一些配置是采用原生的Servlet进行的,但是在SpringBoot中不需要配置web.xml的因为有可能打包之后是一个jar ...
移动测试之appium+python 入门代码（三）
在做app自动化过程中会踩很多坑,咱们都是用中文的app,所以首先要解决中文输入的问题!本篇通过屏蔽软键盘,绕过手机的软键盘方法,解决中文输入问题. 一.定位搜索 1.打开淘宝点击搜索按钮,进入搜索页 ...
VSCode创建自定义用户片段
1.选择相应的用户片段类型(以"Java"为例) 首选项 -> 用户代码片段 -> java 2.设置模板 prefix 触发快捷提示的字符串前缀 body 代码片段主 ...
Oracle基础篇--00引言
今天开始,复习oracle基础.主要是以前培训的时候的文档作为结构来梳理知识点,主要目的是把Oracle基础打的扎实点.后面要转做后台开发,或者工作中需要用到数据库知识时也不至于临时抱佛脚. 一直以来 ...

node实现爬虫

node实现爬虫的更多相关文章

随机推荐

热门专题