Node.js 爬虫爬取电影信息

我的CSDN地址：https://blog.csdn.net/weixin_45580251/article/details/107669713

爬取的是1905电影网的信息，使用的是正则匹配。

本来为了更好地学习异步编程打好基础，没想到这玩意这么上头。

代码也写了好几天，自己技术不到家，肯定有写的不好的地方，还需要多努力。

下个月争取把vue学完，九月估计该开学了。

代码在最下面

const request=require('request');

const url="https://www.1905.com/vod/list/n_1/o3p1.html";

const fs=require('fs');

const { resolve } = require('path');

function req(url){

    return new Promise((resolve,reject)=>{

        request.get(url,(err,response,body)=>{

            if(err) reject(err)

            else resolve({response,body});

        })

    })

}

//获取起始界面的所有分类地址

async function getClassUrl(){

    let {response,body}=await req(url);

    // console.log(body);

    let reg1=/<span class="search-index-L">类型 :<\/span>(.*?)<div class="grid-12x">/igs;   //i不区分大小写 g全局 s让.匹配换行

    let result1=reg1.exec(body)[1];

    let reg2=/<a href="javascript\:void\(0\);" onclick="location\.href='(.*?)';return false;"(.*?)>(.*?)<\/a>/igs;

    let result2="";

    // console.log(reg2.exec(result1));

    let urlArr=[];

    while(result2=reg2.exec(result1)){

        if(result2[3]!="全部"){

            let obj={

                className:result2[3],

                url:result2[1]

            }

            urlArr.push(obj);

            fs.mkdir("./movies/"+result2[3],{ recursive: true },(err) => {

                    if (err) throw err;

                });

            getMovies(result2[1],result2[3]);

            // console.log(result2.index);

            // console.log(reg2.lastIndex);

        }

    }

    // console.log(urlArr.length);      //17个分类

};

//通过分类栏，获取页面中的电影连接

async function getMovies(url,className){

    let {response,body}=await req(url);

    let reg3=/<a class="pic-pack-outer" target="_blank" href="(.*?)".*?><img/igs;

    let result3="";

    let urlArr=[];

    while(result3=reg3.exec(body)){

        urlArr.push(result3[1]);

        getDate(result3[1],className);

    }

}

//对电影详情页进行分析

async function getDate(url,className){

    let {response,body}=await req(url);

    let reg1=/<h1 class="playerBox-info-name playerBox-info-cnName">(.*?)<\/h1>/;

    // let reg4=/<!-- 文字简介 -->.*?<span id="playerBoxIntroCon">(.*?)<a href="(.*?)" target="_blank" data-hrefexp="fr=vodplay_ypzl_xx">\.\.\.<span>[详细]/;

    let result1=reg1.exec(body);

    // console.log(result1[1]);

    let reg2=/<span id="playerBoxIntroCon">(.*?)<a href="(.*?)" /;

    let result2=reg2.exec(body);

    // console.log(result2[2]);

    writeFile(result1,result2,url,className);

}

//写入文件

async function writeFile(result1,result2,url,className){

    let movie={

        name:result1[1],

        brief:result2[1],

        url:url,

        details:result2[2]

    };

    let data=JSON.stringify(movie);

    fs.writeFile(`./movies/${className}/${movie.name}.json`,data,(err)=>{

        if (err) {return console.log(err)}

    });

    //下面的写入流写法也可以

    // let w = fs.createWriteStream(`./movies/${className}/${movie.name}.json`);

    // w.write(data,'utf-8');

    // w.end;

    // w.on('error', function(err){

    //     console.log(err.stack);

    //  });

};

getClassUrl();

Node.js 爬虫爬取电影信息的更多相关文章

Node.js爬虫-爬取慕课网课程信息
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...
养只爬虫当宠物（Node.js爬虫爬取58同城租房信息）
先上一个源代码吧. https://github.com/answershuto/Rental 欢迎指导交流. 效果图搭建Node.js环境及启动服务安装node以及npm,用express模块启 ...
node.js爬虫爬取拉勾网职位信息
简介用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京.上海.广州.深圳.杭州.西安.成都7个城市的数据,分别以前端.PHP.java.c++.python.Androi ...
手把手教你用Node.js爬虫爬取网站数据
个人网站 https://iiter.cn 程序员导航站开业啦,欢迎各位观众姥爷赏脸参观,如有意见或建议希望能够不吝赐教! 开始之前请先确保自己安装了Node.js环境,还没有安装的的童鞋请自行百度 ...
node js 爬虫爬取静态页面，
先打一个简单的通用框子 //根据爬取网页的协议引入对应的协议, http||https var http = require('https'); //引入cheerio 简单点讲就是node中的jq ...
node：爬虫爬取网页图片
代码地址如下:http://www.demodashi.com/demo/13845.html 前言周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图片 ...
一个简单python爬虫的实现——爬取电影信息
最近在学习网络爬虫,完成了一个比较简单的python网络爬虫.首先为什么要用爬虫爬取信息呢,当然是因为要比人去收集更高效. 网络爬虫,可以理解为自动帮你在网络上收集数据的机器人. 网络爬虫简单可以大致 ...
Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
用java编写爬虫爬取电影
一.爬取前提1)本地安装了mysql数据库2)安装了idea或者eclipse等开发工具二.爬取内容电影名称.电影简介.电影图片.电影下载链接三.爬取逻辑1)进入电影网列表页, 针对列表的htm ...

随机推荐

这玩意比ThreadLocal叼多了，吓得why哥赶紧分享出来。
这是why哥的第 70 篇原创文章从Dubbo的一次提交开始故事得从前段时间翻阅 Dubbo 源码时,看到的一段代码讲起. 这段代码就是这个: org.apache.dubbo.rpc.RpcCo ...
flink 处理实时数据的三重保障
flink 处理实时数据的三重保障 window+watermark 来处理乱序数据对于 TumblingEventTimeWindows window 的元数据startTime,endTime 和 ...
Linux-京西百花山
百花山有三个收票的入口,分别在门头沟(G109).房山(G108)和河北 108有两个方向上百花山,史家营和四马台.只有史家营方向能开车到山顶. 四马台那边,不住,要坐景区车才行尽头是1900多米的 ...
springboot入门系列（一）：简单搭建springboot项目
Spring Boot 简单介绍 Spring Boot 本身并不提供Spring框架的核心特性以及扩展功能,只是用于快速.敏捷地开发新一代基于Spring框架的应用程序.也就是说,它并不是用来替代S ...
python3配置socks5代理进行爬取
一.代码 #!/usr/bin/python # -*- coding: UTF-8 -*- import requests import socket import socks SOCKS5_PRO ...
mysql 必会基础2 distinct
1.插入数据方式 a> insert into student (id, name, age) values (1, 'zhangsan', 3); --字符串类型要用双引号.或单引号引起来,否 ...
pycharm调试bug Process finished with exit code -1073740791 (0xC0000409)
我经常py代码出错控制台只提示这个 Process finished with exit code -1073740791 (0xC0000409) 但是根本没有报错原因首先我们应该改一下pych ...
浅析软件测试人员如何对JVM进行内存溢出检测
一.什么是JVM,检测JVM的意义 JVM是java virtual Machine(Java虚拟机)的缩写,JVM是一种用于计算设备的规范,它是一个虚构出来的计算机,是通过在实际的计算机上仿真模拟各 ...
STM32入门系列-复位程序
已经对启动文有了大致了解,再来看看系统在复位过程中做了哪些工作.复位程序如下: 1 ; Reset handler 2 3 Reset_Handler PROC 4 5 EXPORT Reset_Ha ...
ucore操作系统学习(四) ucore lab4内核线程管理
1. ucore lab4介绍什么是进程? 现代操作系统为了满足人们对于多道编程的需求,希望在计算机系统上能并发的同时运行多个程序,且彼此间互相不干扰.当一个程序受制于等待I/O完成等事件时,可以让 ...

Node.js 爬虫爬取电影信息

Node.js 爬虫爬取电影信息

代码在最下面

Node.js 爬虫爬取电影信息的更多相关文章

随机推荐

热门专题