Nodejs实现爬虫抓取数据

开始之前请先确保自己安装了Node.js环境，还没有安装的的童鞋请自行百度安装教程......

1.在项目文件夹安装两个必须的依赖包

npm install superagent --save-dev

　　superagent 是一个轻量的,渐进式的ajax api,可读性好,学习曲线低,内部依赖nodejs原生的请求api,适用于nodejs环境下

npm install cheerio --save-dev

　　cheerio是nodejs的抓取页面模块，为服务器特别定制的，快速、灵活、实施的jQuery核心实现。适合各种Web爬虫程序。相当于node.js中的jQuery

2.新建 crawler.js 文件

//导入依赖包

const http       = require("http");

const path       = require("path");

const url        = require("url");

const fs         = require("fs");

const superagent = require("superagent");

const cheerio    = require("cheerio");

3.获取 Boos直聘数据

superagent

    .get("https://www.zhipin.com/job_detail/?city=100010000&source=10&query=%E5%89%8D%E7%AB%AF")

    .end((error,response)=>{

        //获取页面文档数据

        var content = response.text;

        //cheerio也就是nodejs下的jQuery  将整个文档包装成一个集合，定义一个变量$接收

        var $ = cheerio.load(content);

        //定义一个空数组，用来接收数据

        var result=[];

        //分析文档结构  先获取每个li 再遍历里面的内容(此时每个li里面就存放着我们想要获取的数据)

        $(".job-list li .job-primary").each((index,value)=>{

            //地址和类型为一行显示，需要用到字符串截取

            //地址

            let address=$(value).find(".info-primary").children().eq(1).html();

            //类型

            let type=$(value).find(".info-company p").html();

            //解码

            address=unescape(address.replace(/&#x/g,'%u').replace(/;/g,''));

            type=unescape(type.replace(/&#x/g,'%u').replace(/;/g,''))

            //字符串截取

            let addressArr=address.split('<em class="vline"></em>');

            let typeArr=type.split('<em class="vline"></em>');

            //将获取的数据以对象的形式添加到数组中

            result.push({

                title:$(value).find(".name .job-title").text(),

                money:$(value).find(".name .red").text(),

                address:addressArr,

                company:$(value).find(".info-company a").text(),

                type:typeArr,

                position:$(value).find(".info-publis .name").text(),

                txImg:$(value).find(".info-publis img").attr("src"),

                time:$(value).find(".info-publis p").text()

            });

            // console.log(typeof $(value).find(".info-primary").children().eq(1).html());

        });

        //将数组转换成字符串

        result=JSON.stringify(result);

        //将数组输出到json文件里  刷新目录 即可看到当前文件夹多出一个boss.json文件(打开boss.json文件，ctrl+A全选之后 ctrl+K，再Ctrl+F即可将json文件自动排版)

        fs.writeFile("boss.json",result,"utf-8",(error)=>{

            //监听错误，如正常输出，则打印null

            if(error==null){

                console.log("恭喜您，数据爬取成功!请打开json文件，先Ctrl+A，再Ctrl+K,最后Ctrl+F格式化后查看json文件(仅限Visual Studio Code编辑器)");

            }

        });

    });

跟着狗尾草走完这篇nodejs爬虫相信大家又get了一个新技能，狗尾草和大家一起加油，一起努力!

鸣谢：Mrs.Zhang

转载至：https://blog.csdn.net/twodogya/article/details/80204322

Nodejs实现爬虫抓取数据的更多相关文章

基于Thinkphp5+phpQuery 网络爬虫抓取数据接口,统一输出接口数据api
TP5_Splider 一个基于Thinkphp5+phpQuery 网络爬虫抓取数据接口统一输出接口数据api.适合正在学习Vue,AngularJs框架学习开发demo,需要接口并保证接口不跨 ...
Node.js爬虫抓取数据 -- HTML 实体编码处理办法
cheerio DOM化并解析的时候 1.假如使用了 .text()方法,则一般不会有html实体编码的问题出现 2.如果使用了 .html()方法,则很多情况下(多数是非英文的时候)都会出现,这时, ...
Java 实现 HttpClients+jsoup，Jsoup，htmlunit，Headless Chrome 爬虫抓取数据
最近整理一下手头上搞过的一些爬虫,有HttpClients+jsoup,Jsoup,htmlunit,HeadlessChrome 一,HttpClients+jsoup,这是第一代比较low,很快就 ...
使用selenium爬虫抓取数据
写在前面本来这篇文章该几个月前写的,后来忙着忙着就给忘记了.ps:事多有时候反倒会耽误事.几个月前,记得群里一朋友说想用selenium去爬数据,关于爬数据,一般是模拟访问某些固定网站,将自己关注的 ...
python爬虫抓取数据
URL管理器实现方式:1. 内存python内存待爬取URL集合:set()已爬取URL集合:set() 2. 关系数据库MySQLurls(url, is_crawled) 3. 缓存数据库(高性能 ...
爬虫抓取页面数据原理（php爬虫框架有很多）
爬虫抓取页面数据原理(php爬虫框架有很多 ) 一.总结 1.php爬虫框架有很多,包括很多傻瓜式的软件 2.照以前写过java爬虫的例子来看,真的非常简单,就是一个获取网页数据的类或者方法(这里的话 ...
NET 5 爬虫框架/抓取数据
爬虫大家或多或少的都应该接触过的,爬虫有风险,抓数需谨慎. 爬虫有的是抓请求,有的是抓网页再解析本着研究学习的目的,记录一下在 .NET Core 下抓取数据的实际案例.爬虫代码一般具有时效性,当 ...
爬虫学习笔记（1）-- 利用Python从网页抓取数据
最近想从一个网站上下载资源,懒得一个个的点击下载了,想写一个爬虫把程序全部下载下来,在这里做一个简单的记录 Python的基础语法在这里就不多做叙述了,黑马程序员上有一个基础的视频教学,可以跟着学习一 ...
怎么用Python写爬虫抓取网页数据
机器学习首先面临的一个问题就是准备数据,数据的来源大概有这么几种:公司积累数据,购买,交换,政府机构及企业公开的数据,通过爬虫从网上抓取.本篇介绍怎么写一个爬虫从网上抓取公开的数据. 很多语言都可以写 ...

随机推荐

Spring 之高级装配
[环境与Profile] 暂略 [条件化的bean] 暂略 [处理自动装配歧义性] 暂略 [ bean 的作用域] 在 @Componen . @Bean 下以及 XML 中的声明方式如下所示, @C ...
响应式Tab选项卡
在线演示本地下载
bzoj 2748: [HAOI2012]音量调节
2748: [HAOI2012]音量调节 Time Limit: 3 Sec Memory Limit: 128 MBSubmit: 872 Solved: 577[Submit][Status] ...
启动工程Ehcache报错
缓存组建用的Ehcache,在启动的时候报了下面的错误,虽然不影响使用,看着还是有点碍眼: DEBUG net.sf.ehcache.util.UpdateChecker - Update che ...
elasticsearch 拼音搜索
现在很多公司都开始使用es来做搜索,我们公司目前也有好几个业务部门在用,我主要做商户搜索,为业务部门提供基础支持.上周把呼叫中心的搜索重新整理了下,在新增几个字段后,全量同步发现通过拼音首字母搜索无法 ...
IE报错:缺少标识符、字符串或数字
在调试ExtJS程序时,在firefox和chrome上都能显示,但一到IE上就报错,后来从左下角的JS报错提示中才发现,原来是JS代码中多加了个逗号. menu: { items: [{ text: ...
工作队列work queues 公平分发(fair dispatch) And 消息应答与消息持久化
生产者 package cn.wh.work; import cn.wh.util.RabbitMqConnectionUtil; import com.rabbitmq.client.Channel ...
ReflectionZ_测试_01
1.Java代码 public class TreflectionZ { public static void main(String[] args) throws Exception { Class ...
postgresql centos6.5安装以及常用命令
今天在centos6.5下安装postgresql数据库,现在整理自己操作步骤. 一. Centos6.5 下安装postgresql9.4 1.1. 显示所有的有关postgresql安装包 yum ...
spring mvc:文本框
采用:<%@taglib uri="http://www.springframework.org/tags/form" prefix="form"%> ...

Nodejs实现爬虫抓取数据

开始之前请先确保自己安装了Node.js环境，还没有安装的的童鞋请自行百度安装教程......

1.在项目文件夹安装两个必须的依赖包

Nodejs实现爬虫抓取数据的更多相关文章

随机推荐

热门专题