手把手教你用Node.js爬虫爬取网站数据

个人网站 https://iiter.cn 程序员导航站 开业啦，欢迎各位观众姥爷赏脸参观，如有意见或建议希望能够不吝赐教！

开始之前请先确保自己安装了Node.js环境，还没有安装的的童鞋请自行百度安装教程......

直接开始吧

1.在项目文件夹安装两个必须的依赖包

npm install superagent --save-dev

SuperAgent(官网是这样解释的)

-----SuperAgent is light-weight progressive ajax API crafted for flexibility, readability, and a low learning curve after being frustrated with many of the existing request APIs. It also works with Node.js!

-----superagent 是一个轻量的,渐进式的ajax api,可读性好,学习曲线低,内部依赖nodejs原生的请求api,适用于nodejs环境下

npm install cheerio --save-dev

Cheerio

-----cheerio是nodejs的抓取页面模块，为服务器特别定制的，快速、灵活、实施的jQuery核心实现。适合各种Web爬虫程序。相当于node.js中的jQuery

2.新建 crawler.js 文件

//导入依赖包

const http       = require("http");

const path       = require("path");

const url        = require("url");

const fs         = require("fs");

const superagent = require("superagent");

const cheerio    = require("cheerio");

3.看注释啦(这里爬取的是boss直聘网站的数据)

superagent

    .get("https://www.zhipin.com/job_detail/?city=100010000&source=10&query=%E5%89%8D%E7%AB%AF")

    .end((error,response)=>{

        //获取页面文档数据

        var content = response.text;

        //cheerio也就是nodejs下的jQuery  将整个文档包装成一个集合，定义一个变量$接收

        var $ = cheerio.load(content);

        //定义一个空数组，用来接收数据

        var result=[];

        //分析文档结构  先获取每个li 再遍历里面的内容(此时每个li里面就存放着我们想要获取的数据)

        $(".job-list li .job-primary").each((index,value)=>{

            //地址和类型为一行显示，需要用到字符串截取

            //地址

            let address=$(value).find(".info-primary").children().eq(1).html();

            //类型

            let type=$(value).find(".info-company p").html();

            //解码

            address=unescape(address.replace(/&#x/g,'%u').replace(/;/g,''));

            type=unescape(type.replace(/&#x/g,'%u').replace(/;/g,''))

            //字符串截取

            let addressArr=address.split('<em class="vline"></em>');

            let typeArr=type.split('<em class="vline"></em>');

            //将获取的数据以对象的形式添加到数组中

            result.push({

                title:$(value).find(".name .job-title").text(),

                money:$(value).find(".name .red").text(),

                address:addressArr,

                company:$(value).find(".info-company a").text(),

                type:typeArr,

                position:$(value).find(".info-publis .name").text(),

                txImg:$(value).find(".info-publis img").attr("src"),

                time:$(value).find(".info-publis p").text()

            });

            // console.log(typeof $(value).find(".info-primary").children().eq(1).html());

        });

        //将数组转换成字符串

        result=JSON.stringify(result);

        //将数组输出到json文件里  刷新目录 即可看到当前文件夹多出一个boss.json文件(打开boss.json文件，ctrl+A全选之后 ctrl+K，再Ctrl+F即可将json文件自动排版)

        fs.writeFile("boss.json",result,"utf-8",(error)=>{

            //监听错误，如正常输出，则打印null

            if(error==null){

                console.log("恭喜您，数据爬取成功!请打开json文件，先Ctrl+A，再Ctrl+K,最后Ctrl+F格式化后查看json文件(仅限Visual Studio Code编辑器)");

            }

        });

    });

这里有324.57GB的修仙资料。嘿嘿嘿你懂得。/手动狗头

那么问题来了，如果你也想入坑前端或者学习更多技术，广交天下朋友(基友)，认识更多有趣的灵魂的话，欢迎加入前端交流群鸭~

扫二维码加为好友就完事了！安排~

手把手教你用Node.js爬虫爬取网站数据的更多相关文章

使用node.js如何爬取网站数据
数据库又不会弄,只能扒扒别人的数据了. 搭建环境: (1).创建一个文件夹,进入并初始化一个package.json文件. npm init -y (2).安装相关依赖: npm install ...
Node.js 爬虫爬取电影信息
Node.js 爬虫爬取电影信息我的CSDN地址:https://blog.csdn.net/weixin_45580251/article/details/107669713 爬取的是1905电影 ...
node.js爬虫爬取拉勾网职位信息
简介用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京.上海.广州.深圳.杭州.西安.成都7个城市的数据,分别以前端.PHP.java.c++.python.Androi ...
Node.js爬虫-爬取慕课网课程信息
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...
养只爬虫当宠物（Node.js爬虫爬取58同城租房信息）
先上一个源代码吧. https://github.com/answershuto/Rental 欢迎指导交流. 效果图搭建Node.js环境及启动服务安装node以及npm,用express模块启 ...
node js 爬虫爬取静态页面，
先打一个简单的通用框子 //根据爬取网页的协议引入对应的协议, http||https var http = require('https'); //引入cheerio 简单点讲就是node中的jq ...
node：爬虫爬取网页图片
代码地址如下:http://www.demodashi.com/demo/13845.html 前言周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图片 ...
利用linux curl爬取网站数据
看到一个看球网站的以下截图红色框数据,想爬取下来,通常爬取网站数据一般都会从java或者python爬取,但本人这两个都不会,只会shell脚本,于是硬着头皮试一下用shell爬取,方法很笨重,但旨在 ...
Node.js爬虫抓取数据 -- HTML 实体编码处理办法
cheerio DOM化并解析的时候 1.假如使用了 .text()方法,则一般不会有html实体编码的问题出现 2.如果使用了 .html()方法,则很多情况下(多数是非英文的时候)都会出现,这时, ...

随机推荐

.NET Core项目部署到Linux(Centos7)（十）总结
目录 1.前言 2.环境和软件的准备 3.创建.NET Core API项目 4.VMware Workstation虚拟机及Centos 7安装 5.Centos 7安装.NET Core环境 6. ...
部署MYSQL高可用集群
mysql-day08 部署MYSQL高可用集群 u 集群架构 ...
VLAN、Trunk，以太通道及DHCP
VLAN.Trunk,以太通道及DHCP 案例1:Vlan的划分案例2:配置trunk中继链路案例3:以太通道配置案例4:DHCP服务配置 1 案例1:Vlan的划分 1.1 问题 VLAN(虚 ...
Win 10 C 盘突然爆满，怎么清理？
Win 10 C 盘突然爆满,怎么清理? 使用windows的小伙伴们都知道,C盘是安装系统的,有时候不知道为啥突然就爆满了,查看我的电脑,C盘显示红色的.是不是感觉狠揪心,想删除一些东西有不敢删除, ...
Flask 入门（十三）
上文提到的Blueprint和厉害吧? 可是有个缺点,就是,还不够框架,因为一个功能不可能就一个文件啊?多文件怎么解决? 还和上文项目架构一样 1.新建两个目录,admin,function 2.ad ...
Apache Hudi 设计与架构最强解读
感谢 Apache Hudi contributor:王祥虎翻译&供稿. 欢迎关注微信公众号:ApacheHudi 本文将介绍Apache Hudi的基本概念.设计以及总体基础架构. 1.简 ...
"多行文本"组件:<multi> —— 快应用组件库H-UI
<import name="multi" src="../Common/ui/h-ui/text/c_text_multi"></impo ...
【Java】Junit单元测试
什么是单元测试? 单元测试(unit testing),是指对软件中的最小可测试单元进行检查和验证. 对于单元测试中单元的含义,一般来说,要根据实际情况去判定其具体含义,如C语言中单元指一个函数,Ja ...
区块链 Hyperledger Fabric v1.0.0 环境搭建
前言:最近项目涉及到超级账本,在有些理论知识的基础上,需要整一套环境来. 这是一个特别要注意的事情,笔者之前按照网络上推荐,大部分都是推荐ubuntu系统的,于是下载Ubuntu系统(16.04.5和 ...
泛型方法或泛型类中的方法是内部调用、PInvoke 或是在 COM 导入类中定义的。
泛型基类中引用Api函数定义时static extern,在子类中会提示: 未处理TypeLoadException 泛型方法或泛型类中的方法是内部调用.PInvoke 或是在 COM 导入类中定义的 ...

手把手教你用Node.js爬虫爬取网站数据

手把手教你用Node.js爬虫爬取网站数据的更多相关文章

随机推荐

热门专题