使用node写爬虫入门

最近看了node能做爬虫，所以就试了一下，一下是整个过程的记录

1、新建文件夹baidunews

2、在上边新建的文件夹下输入npm init进行初始化

3、初始化完成后下载需要的依赖包

　　npm install express

　　npm install cheerio

　　npm install superagent

4、在baidunews文件夹下新建index.js文件

5、在文件中加入一下代码

const express = require('express');

const app = express();

// ...

let server = app.listen(3000, function () {

  let host = server.address().address;

  let port = server.address().port;

  console.log('Your App is running at http://%s:%s', host, port);

});

/**

 * [description] - 跟路由

 */

// 当一个get请求 http://localhost:3000时，就会后面的async函数

app.get('/', async (req, res, next) => {

    res.send(hotNews);

  });

  // 引入所需要的第三方包

const superagent= require('superagent');

let hotNews = [];                                // 热点新闻

let localNews = [];                              // 本地新闻

/**

 * index.js

 * [description] - 使用superagent.get()方法来访问百度新闻首页

 */

superagent.get('http://news.baidu.com/').end((err, res) => {

  if (err) {

    // 如果访问失败或者出错，会这行这里

    console.log(`热点新闻抓取失败 - ${err}`)

  } else {

   // 访问成功，请求http://news.baidu.com/页面所返回的数据会包含在res

   // 抓取热点新闻数据

   hotNews = getHotNews(res)

  }

});

/**

 * index.js

 * [description] - 抓取热点新闻页面

 */

// 引入所需要的第三方包

const cheerio = require('cheerio');

let getHotNews = (res) => {

  let hotNews = [];

  // 访问成功，请求http://news.baidu.com/页面所返回的数据会包含在res.text中。

  /* 使用cheerio模块的cherrio.load()方法，将HTMLdocument作为参数传入函数

     以后就可以使用类似jQuery的$(selectior)的方式来获取页面元素

   */

  let $ = cheerio.load(res.text);

  // 找到目标数据所在的页面元素，获取数据

  $('div#pane-news ul li a').each((idx, ele) => {

    // cherrio中$('selector').each()用来遍历所有匹配到的DOM元素

    // 参数idx是当前遍历的元素的索引，ele就是当前便利的DOM元素

    let news = {

      title: $(ele).text(),        // 获取新闻标题

      href: $(ele).attr('href')    // 获取新闻网页链接

    };

    hotNews.push(news)              // 存入最终结果数组

  });

  return hotNews

};

6、在当前文件夹下中打开命令行，并在命令行中输入

　　node index.js

7、在浏览器中访问localhost:3000

8、在页面中显示爬取的数据

使用node写爬虫入门的更多相关文章

PHP, Python, Node.js 哪个比较适合写爬虫？
PHP, Python, Node.js 哪个比较适合写爬虫? 1.对页面的解析能力2.对数据库的操作能力(mysql)3.爬取效率4.代码量推荐语言时说明所需类库或者框架,谢谢.比如:python+ ...
用Node.js写爬虫，撸羞羞的图片
说到爬虫,很多人都认为是很高大上的东西.哇塞,是不是可以爬妹纸图啊,是不是可以爬小片片啊.答案就是对的.爬虫可以完成这些东西的操作.但是,作为一个正直的程序员,我们要在法律允许范围内用爬虫来为我们服务 ...
【原】小玩node+express爬虫-2
上周写了一个node+experss的爬虫小入门.今天继续来学习一下,写一个爬虫2.0版本. 这次我们不再爬博客园了,咋玩点新的,爬爬电影天堂.因为每个周末都会在电影天堂下载一部电影来看看. talk ...
Python简单爬虫入门三
我们继续研究BeautifulSoup分类打印输出 Python简单爬虫入门一 Python简单爬虫入门二前两部主要讲述我们如何用BeautifulSoup怎去抓取网页信息以及获取相应的图片标题等信 ...
Python爬虫入门一之综述
大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验. Pyth ...
Python简单爬虫入门二
接着上一次爬虫我们继续研究BeautifulSoup Python简单爬虫入门一上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素首先回顾以下我们Bea ...
GJM : Python简单爬虫入门（二） [转载]
感谢您的阅读.喜欢的.有用的就请大哥大嫂们高抬贵手"推荐一下"吧!你的精神支持是博主强大的写作动力以及转载收藏动力.欢迎转载! 版权声明:本文原创发表于 [请点击连接前往] ,未经 ...
爬虫入门---Python2和Python3的不同
Python强大的功能使得在写爬虫的时候显得十分的简单,但是Python2和Python3在这方面有了很多区别. 本人刚入门爬虫,所以先写一点小的不同. 以爬取韩寒的一篇博客为例子: 在Python2 ...
Node.js快速入门
Node.js是什么? Node.js是建立在谷歌Chrome的JavaScript引擎(V8引擎)的Web应用程序框架. 它的最新版本是:v0.12.7(在编写本教程时的版本).Node.js在官方 ...

随机推荐

bloginfo()用法小结|wordpress函数
bloginfo()显示关于您的wordpress站点的信息,主要是从您的用户配置文件和WordPress管理屏幕的一般设置中收集的信息.它可以在模板文件的任何地方使用.这总是将结果打印到浏览器.如果 ...
LeetCode 825. Friends Of Appropriate Ages
原题链接在这里:https://leetcode.com/problems/friends-of-appropriate-ages/ 题目: Some people will make friend ...
three.js 基础使用1
<!DOCTYPE html> <html> <head> <meta charset="utf-8" /> <title&g ...
NOIP2013-2014提高组题目浅析
1.前言迎接NOIP的到来...在这段闲暇时间,决定刷刷水题.这里只是作非常简单的一些总结. 2.NOIP2014 <1> 生活大爆炸之石头剪刀布(模拟) 这是一道考你会不会编程的题目. ...
洛谷p2827蚯蚓题解
题目算法标签里的算法什么的都不会啊什么二叉堆?? qbxt出去学习的时候讲的,一段时间之前做的,现在才写到博客上的维护3个队列,队列1表示最开始的蚯蚓,队列2表示每一次被切的蚯蚓被分开的较长的那 ...
B 题解————2019.10.16
相信他说的话,但不要当真 [题目描述]有一个长度为 n 的自然数序列 a,要求将这个序列恰好分成至少 m 个连续子段. 每个子段的价值为该子段的所有数的按位异或.要使所有子段的价值按位与的结果最大,输 ...
pcm音频的格式类型
[文章内容属于多方转载内容] PCM Parameters PCM audio is coded using a combination of various parameters. Resoluti ...
【BigData】Java基础_创建一个订单类
需求描述定义一个类,描述订单信息订单id订单所属用户(用户对象)订单所包含的商品(不定数量个商品对象)订单总金额订单应付金额: 总金额500~1000,打折85折总金额1000~150 ...
cocos:C++ 导出到lua, cocos2dx_extension.ini修改
cocos:C++ 导出到lua, cocos2dx_extension.ini修改 [zq] //zq section, 需要和genbindings.py中的配置相同 # the prefix t ...
Zuul之路由熔断
Zuul作为Netflix组件,可以与Ribbon.Eureka.Hystrix等组件结合,实现负载均衡.熔断器的功能 Spring boot2X集成zuul与consul实现负载均衡和反向代理当后 ...

使用node写爬虫入门

使用node写爬虫入门的更多相关文章

随机推荐

热门专题