nodejs实现网站数据的爬取

 // 引入https模块，由于我们爬取的网站采用的是https协议

 const https = require('https');

 // 引入cheerio模块，使用这个模块可以将爬取的网页源代码进行装载，然后使用类似jquery的语法去操作这些元素

 // 在cheerio不是内置模块，需要使用包管理器下载安装

 const cheerio = require('cheerio');

 // 这里以爬取拉钩网为例

 var url = "https://www.lagou.com/";

 // 使用https模块中的get方法，获取指定url中的网页源代码

 https.get(url, function (res) {

     var html = '';

     // 每当我们从指定的url中得到数据的时候,就会触发res的data事件,事件中的chunk是每次得到的数据,data事件会触发多次,因为一个网页的源代码并不是一次性就可以下完的

     res.on("data", function (chunk) {

         html += chunk;

     });

     // 当网页的源代码下载完成后, 就会触发end事件

     res.on("end", function () {

         //这里我们对下载的源代码进行一些处理

         doSomeThing(html);

     });

 });

 function doSomeThing(html) {

     // 使用cheerio模块装载我们得到的页面源代码,返回的是一个类似于jquery中的$对象

     var $ = cheerio.load(html);

     //使用这个$对象就像操作jquery对象一般去操作我们获取得到的页面的源代码

     var $menu_box = $(".menu_box");

     // 将我们需要的文字信息存储在一个数组中

     var result = [];

     $menu_box.each(function (i, item) {

         var obj = {};

         var h2 = $(item).find("h2").text().trim();

         obj.name = h2;

         var $as = $(item).find("a");

         obj.subName = [];

         $as.each(function (i, item) {

             obj.subName.push($(item).text());

         });

         result.push(obj);

     });

     //最后我们输出这个结果

     console.log(result);

 }

// 引入https模块，由于我们爬取的网站采用的是https协议

const https = require('https');

// 引入cheerio模块，使用这个模块可以将爬取的网页源代码进行装载，然后使用类似jquery的语法去操作这些元素

// 在cheerio不是内置模块，需要使用包管理器下载安装

const cheerio = require('cheerio');

// 这里以爬取拉钩网为例

var url = "https://www.lagou.com/";

// 使用https模块中的get方法，获取指定url中的网页源代码

https.get(url, function (res) {

var html = '';

// 每当我们从指定的url中得到数据的时候,就会触发res的data事件,事件中的chunk是每次得到的数据,data事件会触发多次,因为一个网页的源代码并不是一次性就可以下完的

res.on("data", function (chunk) {

html += chunk;

});

// 当网页的源代码下载完成后, 就会触发end事件

res.on("end", function () {

//这里我们对下载的源代码进行一些处理

doSomeThing(html);

});

function doSomeThing(html) {

// 使用cheerio模块装载我们得到的页面源代码,返回的是一个类似于jquery中的$对象

var $ = cheerio.load(html);

//使用这个$对象就像操作jquery对象一般去操作我们获取得到的页面的源代码

var $menu_box = $(".menu_box");

// 将我们需要的文字信息存储在一个数组中

var result = [];

$menu_box.each(function (i, item) {

var obj = {};

var h2 = $(item).find("h2").text().trim();

obj.name = h2;

var $as = $(item).find("a");

obj.subName = [];

$as.each(function (i, item) {

obj.subName.push($(item).text());

});

result.push(obj);

});

//最后我们输出这个结果

console.log(result);

}

nodejs实现网站数据的爬取的更多相关文章

Python_记一次网站数据定向爬取实现
记一次网站数据定向爬取实现 by:授客 QQ:1033553122 测试环境: Python版本:Python 3.4 Win7 请勿用于商业及非法用途,仅供学习研究用,否则后果自负数据爬取场景如 ...
中国农产品信息网站scrapy-redis分布式爬取数据
---恢复内容开始--- 基于scrapy_redis和mongodb的分布式爬虫项目需求: 1:自动抓取每一个农产品的详细数据 2:对抓取的数据进行存储第一步: 创建scrapy项目创建爬虫文 ...
Ajax数据的爬取（淘女郎为例）
mmtao Ajax数据的爬取(淘女郎为例) 如有疑问,转到 Wiki 淘女郎模特抓取教程网址:https://0x9.me/xrh6z 判断一个页面是不是 Ajax 加载的方法: 查看网页源代码, ...
使用 Chrome 浏览器插件 Web Scraper 10分钟轻松实现网页数据的爬取
web scraper 下载:Web-Scraper_v0.2.0.10 使用 Chrome 浏览器插件 Web Scraper 可以轻松实现网页数据的爬取,不写代码,鼠标操作,点哪爬哪,还不用考虑爬 ...
爬虫开发6.selenuim和phantonJs处理网页动态加载数据的爬取
selenuim和phantonJs处理网页动态加载数据的爬取阅读量: 1203 动态数据加载处理一.图片懒加载什么是图片懒加载? 案例分析:抓取站长素材http://sc.chinaz.com/ ...
python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制
CrawlSpider实现的全站数据的爬取新建一个工程 cd 工程创建爬虫文件:scrapy genspider -t crawl spiderName www.xxx.com 连接提取器Link ...
（五）selenuim和phantonJs处理网页动态加载数据的爬取
selenuim和phantonJs处理网页动态加载数据的爬取一图片懒加载自己理解------就是在打开一个页面的时候,图片数量特别多,图片加载会增加服务器的压力,所以我们在这个时候,就会用到- ...
爬虫--selenuim和phantonJs处理网页动态加载数据的爬取
1.谷歌浏览器的使用下载谷歌浏览器安装谷歌访问助手终于用上谷歌浏览器了.....激动问题:处理页面动态加载数据的爬取 -1.selenium -2.phantomJs 1.selenium 二 ...
基于nodejs模拟浏览器post请求爬取json数据
今天想爬取某网站的后台传来的数据,中间遇到了很多阻碍,花了2个小时才请求到数据,所以我在此总结了一些经验. 首先,放上我所爬取的请求地址http://api.chuchujie.com/api/?v= ...

随机推荐

每天一水poj1502【最短路】
#include<iostream> #include<cstdio> #include<string.h> #include<algorithm> u ...
【Tip】Python
『基本操作』 [查看Python所在目录] import os print(os.__file__) [查看已安装的包] pip list [获取当前脚本所在目录] import sys import ...
IT兄弟连 JavaWeb教程 ServletContext对象
ServletContext是Servlet与Servlet容器之间直接通信的接口.Servlet容器在启动一个Web应用时,会为它创建一个ServletContext对象.每个Web应用都有唯一的S ...
（九）SpringBoot整合redis框架
二:添加Redis依赖 <dependency> <groupId>org.springframework.boot</groupId> <artifactI ...
HDFS Java API
HDFS Java API 搭建Hadoop客户端与Java访问HDFS集群
oracle中的用户详解【转】
oracle中的用户很多,也很令初学者费解.oracle中的帐户分为两类:一类是必需的帐户,一类是存储各种应用的帐户用户名密码描述 ANONYMOUS ANONYMOUS 访问http的匿名 ...
HDU 1423 LICS 模板
http://acm.hdu.edu.cn/showproblem.php?pid=1423 4.LICS.O(lena * lenb) 设dp[i][j]表示a[]的前i项,以b[]的第j项结尾时, ...
一些关于Spring的随笔
Spring的IOC.AOP IOC(Inversion of Control): spring容器控制了所有的bean,不用spring以前,一个bean要依赖另一个bean就在这个bean里初始化 ...
自动创建xml文档
自动创建xml文档 import xml.etree.ElementTree as ET print(dir(ET)) #ET里面有Element方法 root = ET.Element(" ...
使用cordova把h5应用打包成apk
由于h5应用开发不是本例重点,因此直接提供一个最简单的h5应用代码,此应用使用vue-cli框架开发此h5应用叫vue1,用webstrom打开vue1,进行npm install安装引用 vue1 ...

nodejs实现网站数据的爬取

nodejs实现网站数据的爬取的更多相关文章

随机推荐

热门专题