使用node写爬虫入门

最近看了node能做爬虫，所以就试了一下，一下是整个过程的记录

1、新建文件夹baidunews

2、在上边新建的文件夹下输入npm init进行初始化

3、初始化完成后下载需要的依赖包

　　npm install express

　　npm install cheerio

　　npm install superagent

4、在baidunews文件夹下新建index.js文件

5、在文件中加入一下代码

const express = require('express');

const app = express();

// ...

let server = app.listen(3000, function () {

  let host = server.address().address;

  let port = server.address().port;

  console.log('Your App is running at http://%s:%s', host, port);

});

/**

 * [description] - 跟路由

 */

// 当一个get请求 http://localhost:3000时，就会后面的async函数

app.get('/', async (req, res, next) => {

    res.send(hotNews);

  });

  // 引入所需要的第三方包

const superagent= require('superagent');

let hotNews = [];                                // 热点新闻

let localNews = [];                              // 本地新闻

/**

 * index.js

 * [description] - 使用superagent.get()方法来访问百度新闻首页

 */

superagent.get('http://news.baidu.com/').end((err, res) => {

  if (err) {

    // 如果访问失败或者出错，会这行这里

    console.log(`热点新闻抓取失败 - ${err}`)

  } else {

   // 访问成功，请求http://news.baidu.com/页面所返回的数据会包含在res

   // 抓取热点新闻数据

   hotNews = getHotNews(res)

  }

});

/**

 * index.js

 * [description] - 抓取热点新闻页面

 */

// 引入所需要的第三方包

const cheerio = require('cheerio');

let getHotNews = (res) => {

  let hotNews = [];

  // 访问成功，请求http://news.baidu.com/页面所返回的数据会包含在res.text中。

  /* 使用cheerio模块的cherrio.load()方法，将HTMLdocument作为参数传入函数

     以后就可以使用类似jQuery的$(selectior)的方式来获取页面元素

   */

  let $ = cheerio.load(res.text);

  // 找到目标数据所在的页面元素，获取数据

  $('div#pane-news ul li a').each((idx, ele) => {

    // cherrio中$('selector').each()用来遍历所有匹配到的DOM元素

    // 参数idx是当前遍历的元素的索引，ele就是当前便利的DOM元素

    let news = {

      title: $(ele).text(),        // 获取新闻标题

      href: $(ele).attr('href')    // 获取新闻网页链接

    };

    hotNews.push(news)              // 存入最终结果数组

  });

  return hotNews

};

6、在当前文件夹下中打开命令行，并在命令行中输入

　　node index.js

7、在浏览器中访问localhost:3000

8、在页面中显示爬取的数据

使用node写爬虫入门的更多相关文章

PHP, Python, Node.js 哪个比较适合写爬虫？
PHP, Python, Node.js 哪个比较适合写爬虫? 1.对页面的解析能力2.对数据库的操作能力(mysql)3.爬取效率4.代码量推荐语言时说明所需类库或者框架,谢谢.比如:python+ ...
用Node.js写爬虫，撸羞羞的图片
说到爬虫,很多人都认为是很高大上的东西.哇塞,是不是可以爬妹纸图啊,是不是可以爬小片片啊.答案就是对的.爬虫可以完成这些东西的操作.但是,作为一个正直的程序员,我们要在法律允许范围内用爬虫来为我们服务 ...
【原】小玩node+express爬虫-2
上周写了一个node+experss的爬虫小入门.今天继续来学习一下,写一个爬虫2.0版本. 这次我们不再爬博客园了,咋玩点新的,爬爬电影天堂.因为每个周末都会在电影天堂下载一部电影来看看. talk ...
Python简单爬虫入门三
我们继续研究BeautifulSoup分类打印输出 Python简单爬虫入门一 Python简单爬虫入门二前两部主要讲述我们如何用BeautifulSoup怎去抓取网页信息以及获取相应的图片标题等信 ...
Python爬虫入门一之综述
大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验. Pyth ...
Python简单爬虫入门二
接着上一次爬虫我们继续研究BeautifulSoup Python简单爬虫入门一上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素首先回顾以下我们Bea ...
GJM : Python简单爬虫入门（二） [转载]
感谢您的阅读.喜欢的.有用的就请大哥大嫂们高抬贵手"推荐一下"吧!你的精神支持是博主强大的写作动力以及转载收藏动力.欢迎转载! 版权声明:本文原创发表于 [请点击连接前往] ,未经 ...
爬虫入门---Python2和Python3的不同
Python强大的功能使得在写爬虫的时候显得十分的简单,但是Python2和Python3在这方面有了很多区别. 本人刚入门爬虫,所以先写一点小的不同. 以爬取韩寒的一篇博客为例子: 在Python2 ...
Node.js快速入门
Node.js是什么? Node.js是建立在谷歌Chrome的JavaScript引擎(V8引擎)的Web应用程序框架. 它的最新版本是:v0.12.7(在编写本教程时的版本).Node.js在官方 ...

随机推荐

网站调试时记得关闭火狐adblock插件
由于特殊需要,xmyanke需要在网站右侧添加一个弹窗,第一个网站加上代码后可以正常显示,第二个网站却怎么也看不到图片,同样的安装方法为什么差别那么大呢?重新复制代码还是不行,再试一遍,依然如此,wi ...
Scrapy笔记02- 完整示例
Scrapy笔记02- 完整示例这篇文章我们通过一个比较完整的例子来教你使用Scrapy,我选择爬取虎嗅网首页的新闻列表. 这里我们将完成如下几个步骤: 创建一个新的Scrapy工程定义你所需要要 ...
Browser cannot find PAC because wpad hostname cannot be resolved
Enterprise Network administrator may faultly forget to configure wpad hostname to DNS server. If use ...
LeetCode 825. Friends Of Appropriate Ages
原题链接在这里:https://leetcode.com/problems/friends-of-appropriate-ages/ 题目: Some people will make friend ...
idea开发工具
IDEA简介 IDEA 全称 IntelliJ IDEA,是java编程语言开发的集成环境.IntelliJ在业界被公认为最好的java开发工具之一,尤其在智能代码助手.代码自动提示.重构.J2EE支 ...
ERROR：Simulator861-Failed to link the design解决办法
在安装目录下找到collect2.exe文件,删除就可以解决了.D:\install_dir\ISE2\14.7\ISE_DS\ISE\gnu\MinGW\5.0.0\nt\libexec\gcc\m ...
安卓设备连接Mac的简单方法
mac设备是苹果出品的桌面系统,以高冷而闻名,不同于我们平常使用的windows系统,mac系统对软件硬件的兼容性很差,将iOS 设备(iPhone.iPad和iPod)连接至Mac是一件很简单的事, ...
Redis常见场景解析
一前言 Redis是一个key-value存储系统,现在在各种系统中的使用越来越多,大部分情况下是因为其高性能的特性,被当做缓存使用,这里介绍下Redis经常遇到的使用场景. 二 Redis特性一 ...
java线程池源码的理解
线程池新建线程和切换线程的开销太大了,使用线程池可以节省系统资源. 线程池的关键类:ThreadPoolExecutor. 该类中包含了大量的多线程与并发处理工具,包括ReentrantLock.A ...
聊一聊 JS 输出为 [object object] 是怎么回事？
聊一聊 JS 输出为 [object object] 是怎么回事? 今天在学习ES6中的 Symbol 数据类型时,在写demo时控制台输出为 Symbol[object object] ,当时有点疑 ...

使用node写爬虫入门

使用node写爬虫入门的更多相关文章

随机推荐

热门专题