nodejs实现网站数据的爬取

 // 引入https模块，由于我们爬取的网站采用的是https协议

 const https = require('https');

 // 引入cheerio模块，使用这个模块可以将爬取的网页源代码进行装载，然后使用类似jquery的语法去操作这些元素

 // 在cheerio不是内置模块，需要使用包管理器下载安装

 const cheerio = require('cheerio');

 // 这里以爬取拉钩网为例

 var url = "https://www.lagou.com/";

 // 使用https模块中的get方法，获取指定url中的网页源代码

 https.get(url, function (res) {

     var html = '';

     // 每当我们从指定的url中得到数据的时候,就会触发res的data事件,事件中的chunk是每次得到的数据,data事件会触发多次,因为一个网页的源代码并不是一次性就可以下完的

     res.on("data", function (chunk) {

         html += chunk;

     });

     // 当网页的源代码下载完成后, 就会触发end事件

     res.on("end", function () {

         //这里我们对下载的源代码进行一些处理

         doSomeThing(html);

     });

 });

 function doSomeThing(html) {

     // 使用cheerio模块装载我们得到的页面源代码,返回的是一个类似于jquery中的$对象

     var $ = cheerio.load(html);

     //使用这个$对象就像操作jquery对象一般去操作我们获取得到的页面的源代码

     var $menu_box = $(".menu_box");

     // 将我们需要的文字信息存储在一个数组中

     var result = [];

     $menu_box.each(function (i, item) {

         var obj = {};

         var h2 = $(item).find("h2").text().trim();

         obj.name = h2;

         var $as = $(item).find("a");

         obj.subName = [];

         $as.each(function (i, item) {

             obj.subName.push($(item).text());

         });

         result.push(obj);

     });

     //最后我们输出这个结果

     console.log(result);

 }

// 引入https模块，由于我们爬取的网站采用的是https协议

const https = require('https');

// 引入cheerio模块，使用这个模块可以将爬取的网页源代码进行装载，然后使用类似jquery的语法去操作这些元素

// 在cheerio不是内置模块，需要使用包管理器下载安装

const cheerio = require('cheerio');

// 这里以爬取拉钩网为例

var url = "https://www.lagou.com/";

// 使用https模块中的get方法，获取指定url中的网页源代码

https.get(url, function (res) {

var html = '';

// 每当我们从指定的url中得到数据的时候,就会触发res的data事件,事件中的chunk是每次得到的数据,data事件会触发多次,因为一个网页的源代码并不是一次性就可以下完的

res.on("data", function (chunk) {

html += chunk;

});

// 当网页的源代码下载完成后, 就会触发end事件

res.on("end", function () {

//这里我们对下载的源代码进行一些处理

doSomeThing(html);

});

function doSomeThing(html) {

// 使用cheerio模块装载我们得到的页面源代码,返回的是一个类似于jquery中的$对象

var $ = cheerio.load(html);

//使用这个$对象就像操作jquery对象一般去操作我们获取得到的页面的源代码

var $menu_box = $(".menu_box");

// 将我们需要的文字信息存储在一个数组中

var result = [];

$menu_box.each(function (i, item) {

var obj = {};

var h2 = $(item).find("h2").text().trim();

obj.name = h2;

var $as = $(item).find("a");

obj.subName = [];

$as.each(function (i, item) {

obj.subName.push($(item).text());

});

result.push(obj);

});

//最后我们输出这个结果

console.log(result);

}

nodejs实现网站数据的爬取的更多相关文章

Python_记一次网站数据定向爬取实现
记一次网站数据定向爬取实现 by:授客 QQ:1033553122 测试环境: Python版本:Python 3.4 Win7 请勿用于商业及非法用途,仅供学习研究用,否则后果自负数据爬取场景如 ...
中国农产品信息网站scrapy-redis分布式爬取数据
---恢复内容开始--- 基于scrapy_redis和mongodb的分布式爬虫项目需求: 1:自动抓取每一个农产品的详细数据 2:对抓取的数据进行存储第一步: 创建scrapy项目创建爬虫文 ...
Ajax数据的爬取（淘女郎为例）
mmtao Ajax数据的爬取(淘女郎为例) 如有疑问,转到 Wiki 淘女郎模特抓取教程网址:https://0x9.me/xrh6z 判断一个页面是不是 Ajax 加载的方法: 查看网页源代码, ...
使用 Chrome 浏览器插件 Web Scraper 10分钟轻松实现网页数据的爬取
web scraper 下载:Web-Scraper_v0.2.0.10 使用 Chrome 浏览器插件 Web Scraper 可以轻松实现网页数据的爬取,不写代码,鼠标操作,点哪爬哪,还不用考虑爬 ...
爬虫开发6.selenuim和phantonJs处理网页动态加载数据的爬取
selenuim和phantonJs处理网页动态加载数据的爬取阅读量: 1203 动态数据加载处理一.图片懒加载什么是图片懒加载? 案例分析:抓取站长素材http://sc.chinaz.com/ ...
python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制
CrawlSpider实现的全站数据的爬取新建一个工程 cd 工程创建爬虫文件:scrapy genspider -t crawl spiderName www.xxx.com 连接提取器Link ...
（五）selenuim和phantonJs处理网页动态加载数据的爬取
selenuim和phantonJs处理网页动态加载数据的爬取一图片懒加载自己理解------就是在打开一个页面的时候,图片数量特别多,图片加载会增加服务器的压力,所以我们在这个时候,就会用到- ...
爬虫--selenuim和phantonJs处理网页动态加载数据的爬取
1.谷歌浏览器的使用下载谷歌浏览器安装谷歌访问助手终于用上谷歌浏览器了.....激动问题:处理页面动态加载数据的爬取 -1.selenium -2.phantomJs 1.selenium 二 ...
基于nodejs模拟浏览器post请求爬取json数据
今天想爬取某网站的后台传来的数据,中间遇到了很多阻碍,花了2个小时才请求到数据,所以我在此总结了一些经验. 首先,放上我所爬取的请求地址http://api.chuchujie.com/api/?v= ...

随机推荐

E20170414-ms
collapse v/n 奔溃,垮台 constraint n 约束,限制 adaptive adj 适应的; 有适应能力的; exhausitive adj. 详尽的; store n 商店,仓 ...
P5163 WD与地图（整体二分+权值线段树）
传送门细节要人命.jpg 这题思路太新奇了--首先不难发现可以倒着做变成加边,但是它还需要我们资瓷加边的同时维护强连通分量.显然加边之后暴力跑是不行的然后有一个想法,对于一条边$(u,v)$, ...
用hdparm获取硬盘参数
hdparm是Linux下一款能够获取和设置SATA/IDE设备参数的工具. 1.获取硬盘参数 $ sudo hdparm -i /dev/sda$ sudo hdparam -i /dev/sda ...
Linux中查看端口占用情况及结束相应进程
1.查看某端口占用情况lsof -i :端口号例如:lsof -i :81 显示如下信息: COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME ja ...
Spring事务引发dubbo服务注册问题
文章清单 1. 问题 2. 查找bug过程 3. 解决方案使用spring boot+dubbo写项目,一个服务,之前是正常的,后来调用方出现空指针异常,第一反应提供方出了问题. 1. 看控制台,服 ...
Hexo瞎折腾系列(1) - 准备工作与简单美化
前言网上有不少相关的帖子,不过版本会比较旧,而不同版本可能存在代码不同的问题,不过大部分还是大同小异,本系列就不啰嗦重复了,基本只会按照本人所使用的版本以及个人所使用到的内容来进行介绍. 该系列是对 ...
用jquery的animate动画函数做的网页效果
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
swiper.js插件的使用
swiper切换动画效果,需要先加载swiper.animate.min.js和animate.min.css. <!DOCTYPE html><html> <he ...
总结 - 常见的JavaScript兼容性问题
添加事件的方法 (元素, 绑定的事件类型, 事件触发的方法) addHandler: function (element, type, handler) { if (element.addEventL ...
linux下实现多台服务器同步文件(inotify-tools+rsync实时同步文件安装和配置)
inotify-tools+rsync实时同步文件安装和配置注:转载https://www.linuxidc.com/Linux/2012-06/63624.htm

nodejs实现网站数据的爬取

nodejs实现网站数据的爬取的更多相关文章

随机推荐

热门专题