手把手教你用Node.js爬虫爬取网站数据

个人网站 https://iiter.cn 程序员导航站 开业啦，欢迎各位观众姥爷赏脸参观，如有意见或建议希望能够不吝赐教！

开始之前请先确保自己安装了Node.js环境，还没有安装的的童鞋请自行百度安装教程......

直接开始吧

1.在项目文件夹安装两个必须的依赖包

npm install superagent --save-dev

SuperAgent(官网是这样解释的)

-----SuperAgent is light-weight progressive ajax API crafted for flexibility, readability, and a low learning curve after being frustrated with many of the existing request APIs. It also works with Node.js!

-----superagent 是一个轻量的,渐进式的ajax api,可读性好,学习曲线低,内部依赖nodejs原生的请求api,适用于nodejs环境下

npm install cheerio --save-dev

Cheerio

-----cheerio是nodejs的抓取页面模块，为服务器特别定制的，快速、灵活、实施的jQuery核心实现。适合各种Web爬虫程序。相当于node.js中的jQuery

2.新建 crawler.js 文件

//导入依赖包

const http       = require("http");

const path       = require("path");

const url        = require("url");

const fs         = require("fs");

const superagent = require("superagent");

const cheerio    = require("cheerio");

3.看注释啦(这里爬取的是boss直聘网站的数据)

superagent

    .get("https://www.zhipin.com/job_detail/?city=100010000&source=10&query=%E5%89%8D%E7%AB%AF")

    .end((error,response)=>{

        //获取页面文档数据

        var content = response.text;

        //cheerio也就是nodejs下的jQuery  将整个文档包装成一个集合，定义一个变量$接收

        var $ = cheerio.load(content);

        //定义一个空数组，用来接收数据

        var result=[];

        //分析文档结构  先获取每个li 再遍历里面的内容(此时每个li里面就存放着我们想要获取的数据)

        $(".job-list li .job-primary").each((index,value)=>{

            //地址和类型为一行显示，需要用到字符串截取

            //地址

            let address=$(value).find(".info-primary").children().eq(1).html();

            //类型

            let type=$(value).find(".info-company p").html();

            //解码

            address=unescape(address.replace(/&#x/g,'%u').replace(/;/g,''));

            type=unescape(type.replace(/&#x/g,'%u').replace(/;/g,''))

            //字符串截取

            let addressArr=address.split('<em class="vline"></em>');

            let typeArr=type.split('<em class="vline"></em>');

            //将获取的数据以对象的形式添加到数组中

            result.push({

                title:$(value).find(".name .job-title").text(),

                money:$(value).find(".name .red").text(),

                address:addressArr,

                company:$(value).find(".info-company a").text(),

                type:typeArr,

                position:$(value).find(".info-publis .name").text(),

                txImg:$(value).find(".info-publis img").attr("src"),

                time:$(value).find(".info-publis p").text()

            });

            // console.log(typeof $(value).find(".info-primary").children().eq(1).html());

        });

        //将数组转换成字符串

        result=JSON.stringify(result);

        //将数组输出到json文件里  刷新目录 即可看到当前文件夹多出一个boss.json文件(打开boss.json文件，ctrl+A全选之后 ctrl+K，再Ctrl+F即可将json文件自动排版)

        fs.writeFile("boss.json",result,"utf-8",(error)=>{

            //监听错误，如正常输出，则打印null

            if(error==null){

                console.log("恭喜您，数据爬取成功!请打开json文件，先Ctrl+A，再Ctrl+K,最后Ctrl+F格式化后查看json文件(仅限Visual Studio Code编辑器)");

            }

        });

    });

这里有324.57GB的修仙资料。嘿嘿嘿你懂得。/手动狗头

那么问题来了，如果你也想入坑前端或者学习更多技术，广交天下朋友(基友)，认识更多有趣的灵魂的话，欢迎加入前端交流群鸭~

扫二维码加为好友就完事了！安排~

手把手教你用Node.js爬虫爬取网站数据的更多相关文章

使用node.js如何爬取网站数据
数据库又不会弄,只能扒扒别人的数据了. 搭建环境: (1).创建一个文件夹,进入并初始化一个package.json文件. npm init -y (2).安装相关依赖: npm install ...
Node.js 爬虫爬取电影信息
Node.js 爬虫爬取电影信息我的CSDN地址:https://blog.csdn.net/weixin_45580251/article/details/107669713 爬取的是1905电影 ...
node.js爬虫爬取拉勾网职位信息
简介用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京.上海.广州.深圳.杭州.西安.成都7个城市的数据,分别以前端.PHP.java.c++.python.Androi ...
Node.js爬虫-爬取慕课网课程信息
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...
养只爬虫当宠物（Node.js爬虫爬取58同城租房信息）
先上一个源代码吧. https://github.com/answershuto/Rental 欢迎指导交流. 效果图搭建Node.js环境及启动服务安装node以及npm,用express模块启 ...
node js 爬虫爬取静态页面，
先打一个简单的通用框子 //根据爬取网页的协议引入对应的协议, http||https var http = require('https'); //引入cheerio 简单点讲就是node中的jq ...
node：爬虫爬取网页图片
代码地址如下:http://www.demodashi.com/demo/13845.html 前言周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图片 ...
利用linux curl爬取网站数据
看到一个看球网站的以下截图红色框数据,想爬取下来,通常爬取网站数据一般都会从java或者python爬取,但本人这两个都不会,只会shell脚本,于是硬着头皮试一下用shell爬取,方法很笨重,但旨在 ...
Node.js爬虫抓取数据 -- HTML 实体编码处理办法
cheerio DOM化并解析的时候 1.假如使用了 .text()方法,则一般不会有html实体编码的问题出现 2.如果使用了 .html()方法,则很多情况下(多数是非英文的时候)都会出现,这时, ...

随机推荐

Linux搜索工具
Linux搜索工具 Search搜索工具 yum search all vim ...
CF633(div.2)B. Sorted Adjacent Differences
题目描述 http://codeforces.com/contest/1339/problem/B 有一个长度为 \(n(3\le n \le 10^5)\) 的整数序列 \(a_1,a_2,..., ...
Linux 磁盘管理篇，连接文件
连接文件分为两种 1.像Window类似的快捷方式的文件 2.通过文件系统的inode来产生新的文件名而不是新文件(硬连接) 创建连接文件 ln 创建连接文件的快捷方式 ...
Python常见数据结构-字符串
字符串基本特点用引号括起来,单引号双引号均可,使用三个引号创建多行字符串. 字符串不可变. Python3直接支持Unicode编码. Python允许空字符串存在,不含任何字符且长度为0. 字符串 ...
Array（数组）对象-->join() 方法
1.定义和用法 join() 方法把数组中的所有元素用指定的参数作为分隔符拼接成一个字符串. 语法: array.join(separator) 举例: var arr = [1,2,3,4,5]; ...
AJ学IOS（47）之网易彩票帮助界面UIWebView的运用
AJ分享,必须精品效果: 制作过程首先是帮助按钮那个地方的点击. 这里是用点击跳转的用的是 NJSettingArrowItem,前面的设置的,从字典通过模型转过来的. // 分享 NJSetti ...
Qt发送一次信号触发两次槽函数的原因
在手动为控件编写槽函数的时候,如果将槽函数名字按如下格式编辑,则不需要再次进行手动关联 void on_pushButton_1_clicked(); void on_radioButton_clic ...
Pie 杭电1969 二分
My birthday is coming up and traditionally I'm serving pie. Not just one pie, no, I have a number N ...
2016NOIP普及组T2回文日期
回文日期分类:枚举,函数 [题目描述] 日常生活中,通过年.月.日这三个要素可以表示出一个唯一确定的日期. 牛牛习惯用8位数字表示一个日期,其中,前4位代表年份,接下来2位代表月份,最后2位代表日期 ...
python的历史和下载python解释器
一.python的诞生 1.Python的创始人为Guido van Rossum.1989年圣诞节期间,在阿姆斯特丹,Guido为了打发圣诞节的无趣,决心开发一个新的脚本解释程序,创造了一种C和sh ...

手把手教你用Node.js爬虫爬取网站数据

手把手教你用Node.js爬虫爬取网站数据的更多相关文章

随机推荐

热门专题