nodejs制作爬虫程序

在nodejs中，可以通过不断对服务器进行请求，以及本身的fs =》filesystem 模块和clientRequest模块对网站的资源进行怕取，目前只做到了对图片的趴取!视频文件格式各异，有的视频网站上视频可能是加密过的。无法爬取来；

'use strict';

const http = require('http');

const fs = require('fs');

const path = require('path');

// 创建一个clientRequest对象

// const cr = http.get('http://www.baidu.com');

// cr.on('response', (res) => {

//     console.log('服务端接受到我的请求了');

//     console.log(res);

// })

// 需要将所有的img标签对应的src属性值提取出来

//再次发起请求，将突破保存在本地的磁盘上面；

//给定一个url，将其下载到本地磁盘；封装一个函数

//不断调用这个函数；使用正则表达式，提取所需要的字符串；

// const cr = http.get('http://www.dbmeinv.com/', (res) => {

//     let str;

//     // 注册data流事件；

//     res.on('data', (chunk) => {

//         str += chunk;

//     });

//     //注册end事件；

//     res.on('end', () => {

//         console.log(str);

//     })

// })

// const cr = http.get('');

// cr.on('response', (res) => {

//     console.log('服务端接受到我的请求了');

//     console.log(res);

//     let data = '';

//     res.on('data',(chunk)=>{

//         data += chunk;

//     });

//     res.on('end',()=>{

//         console.log(data);

//     })

// });

    for(let i =1;i<17;i++) {

        // let num = Math.random()*12000+

        let url ='https://user.qzone.qq.com/812551954';

        // console.log(url);

        down(url);

    }

    function down(url){

        http.get(url,(res)=>{

            let data = '';

            res.on('data',(chunk)=>{

                data += chunk;

            });

            res.on('end',()=>{

                //文件

                let regexp = /src="(http:\/\/[0-9a-zA-Z.\/]+jpg)"/g;

                let arr = [];

                let temp;

                while((temp=regexp.exec(data))!=null){

                    arr.push(temp[1]);

                }

                // console.log(arr);

                arr.forEach((item)=>{

                    download(item);

                })

            })

        });

    }

//用正则表达式去匹配对应的图片资源；

// 首先编写函数下载单张图片

// 目标地址

// 获取目标页面的所有内容； 包括html等；

function download(url) {

    // let url = "http://ww2.sinaimg.cn/large/0060lm7Tgy1fe69ac1v44j30dw0k3gof.jpg"

    //创建一个clientRequest对象，向服务器发送请求；

    http.get(url, (res) => {

        res.setEncoding('binary');

        let data = '';

        //数据开始传输事件；

        res.on('data', (chunk) => {

            data += chunk;

        });

        //数据传输结束的时候，将其接受

        res.on('end', () => {

            let pic = path.basename(url);

            //此时图片的内容已经在data中了；

            //图片存储的路径

            let file = path.join('pic', pic);

            fs.writeFile(file, data, 'binary', (err) => {

                if (err) throw err;

                console.log(`图片${pic}下载成功`);

            })

        })

    })

}

nodejs制作爬虫程序的更多相关文章

NodeJS制作爬虫全过程
这篇文章主要介绍了NodeJS制作爬虫的全过程,包括项目建立,目标网站分析.使用superagent获取源数据.使用cheerio解析.使用eventproxy来并发抓取每个主题的内容等方面,有需要的 ...
基于node.js制作爬虫教程
前言:最近想学习node.js,突然在网上看到基于node的爬虫制作教程,所以简单学习了一下,把这篇文章分享给同样初学node.js的朋友. 目标:爬取 http://tweixin.yueyishu ...
爬虫浅谈一：一个简单c#爬虫程序
这篇文章只是简单展示一个基于HTTP请求如何抓取数据的文章,如觉得简单的朋友,后续我们再慢慢深入研究探讨. 图1: 如图1,我们工作过程中,无论平台网站还是企业官网,总少不了新闻展示.如某天产品经理跟 ...
Nodejs实现爬虫抓取数据
开始之前请先确保自己安装了Node.js环境,还没有安装的的童鞋请自行百度安装教程...... 1.在项目文件夹安装两个必须的依赖包 npm install superagent --save-dev ...
c# 获取网页的爬虫程序
转载于:https://www.cnblogs.com/wzk153/p/9145684.html HtmlAgilityPack相关详解: https://www.cnblogs.com/asxin ...
nodejs豆瓣爬虫
从零开始nodejs系列文章,将介绍如何利Javascript做为服务端脚本,通过Nodejs框架web开发.Nodejs框架是基于V8的引擎,是目前速度最快的Javascript引擎.chrome浏 ...
使用好压（HaoZip）软件打包EverEdit制作安装程序
最近使用EverEdit,使用原始的安装程序安装后,需要重新安装插件,对配置文件进行了修改,定制了工具栏.将安装后的程序目录进行打包,制作新的安装包,便于携带. 以下为打包制作过程: 打包原料:Eve ...
如何制作exe程序可执行文件
很多软件的运行都需要搭建环境,只有exe文件可以在不安装软件和数据库的环境下运行,那么怎么制作exe程序可执行文件呢,下面天使教你如何制作. 工具/原料 Microsoft Visual St ...
python 校招信息爬虫程序
发现一个爬虫程序,正在学习中: https://github.com/lizherui/spider_python

随机推荐

petite-vue源码剖析-双向绑定`v-model`的工作原理
前言双向绑定v-model不仅仅是对可编辑HTML元素(select, input, textarea和附带[contenteditable=true])同时附加v-bind和v-on,而且还能利用 ...
js location.href 和 php header 跳转方式
if ($result){ echo '添加成功';// header('refresh:3,url=user_nameList.php'); echo "<script> al ...
linux下oracle数据库的启动
linux下oracle数据库的启动一.切换oracle用户命令:su - oracle 二.运行sqlplus命令,进入sqlplus环境命令:sqlplus /nolog (nolog参数表 ...
MySQL CREATE TABLE 简单设计模板交流
推荐用 MySQL 8.0 (2018/4/19 发布, 开发者说同比 5.7 快 2 倍) 或同类型以上版本. CREATE TABLE TEMPLATE CREATE TABLE [table ...
.Net core Api后台获取数据，异步方法中，数据需采用Linq分页
.net core api using System.Collections.Generic; using System.Linq; using System.Text.RegularExpressi ...
HC-05蓝牙模块使用教程
1.接线蓝牙模块与 USB转TTL模块的接线: 5V->5V GND->GND RX->TXD TX->RXD 2.调试给蓝牙模块上电,手机端下载蓝牙串口助手SPP,手机 ...
Python安装wxPython和ubuntu使用apt提示不能更新
[空两格]昨天憨批室友搁我面前装b,说他会用pip安装Python包了,说是安装wxPython的时候通过换源解决了之前安装出错的问题.我一听,这事不对劲啊,是这个b直接看不懂输出了吧.果然,我让他在 ...
select 中的timeout
1. select 相关man 资料 /* According to POSIX.1-2001 */ #include <sys/select.h> /* According to ear ...
利用 ps 怎么显示所有的进程? 怎么利用 ps 查看指定进程的信息？
ps -ef (system v 输出)ps -aux bsd 格式输出ps -ef | grep pid
Mybatis 是如何进行分页的？分页插件的原理是什么？
Mybatis 使用 RowBounds 对象进行分页,它是针对 ResultSet 结果集执行的内存分页,而非物理分页.可以在 sql 内直接书写带有物理分页的参数来完成物理分页功能,也可以使用 ...

nodejs制作爬虫程序

nodejs制作爬虫程序的更多相关文章

随机推荐

热门专题