nodejs爬虫第一篇---> request、cheerio实现小爬虫

目标

抓取猫眼正在热映的电影页面的数据，使用的第三方模块 request、cheerio。

说明

有时候我们需要做一些项目或者demo，我们需要一些数据，我们就可以利用爬虫，爬取一些我们想要的数据。个人感觉挺有趣。需要安装 node。

request

request是一个第三方的模块，封装了 http 模块，使我们发送 get、post等 请求更简洁。有几个重要的参数：
- url：请求的地址
- method：请求的方式
- function：回调函数，该函数也有三个参数：1、err 错误对象，2、response 响应对象，3、body 响应数据
安装

npm install request --save

//引入模块

const request = require('request')

//小试牛刀：向百度首页发送了一个get请求

const url = 'https://www.baidu.com/'

request(url, function (err, response, body) {

    console.log(body)

})

cheerio

会用 jQuery，那么使用 cheerio就不会难了，cheerio 包括了 jQuery 核心的子集。cheerio 从jQuery库中去除了所有 DOM不一致性和浏览器尴尬的部分，几乎能够解析任何的 HTML 和 XML document，通过load方法传递 HTML document或者标签字符串的形式来加载返回相应的对象，该对象可以对 HTML document或者标签进行操作。
安装

npm install request --save

const request = require('request')

const cheerio = require('cheerio')

//传递 HTML document

const url = 'https://www.baidu.com/'

request(url, function (err, response, body) {

    //此时body即为 HTML documen

    const $ = cheerio.load(body)

})

//传递标签字符串

const $ = cheerio.load('<div class="text">...</div>')

抓取数据

获取HTML document对象

const request = require('request')

const cheerio = require('cheerio')

function getMovies(url) {

    return new Promise((resolve, reject) => {

        request(url, function (err, response, body) {

            //获取HTML document对象  即body参数

            const $ = cheerio.load(body)

        })

    })

}

猫眼热映电影页面图片
HTML结构分析
- 通过分析 HTML的结构，可知道这些值可以通过下面的代码获取到

var item = $('.movie-list dd')

item.map(function (i, val) {

var movieObj = {}

//电影链接

movieObj.movieLink = $(val).find('.movie-poster').children('a').attr('href')

//电影图片

movieObj.moviePoster = $(val).find('.movie-item').children('img').last().attr('data-src')

//电影 名字

movieObj.movieTitle = $(val).find('.movie-item-title').children('a').text()

//电影评分

movieObj.movieDetail = $(val).find('.channel-detail-orange').text()

})

完整代码



const request = require('request')

const cheerio = require('cheerio')

function getMovies(url) {

    var movieArr = []

    return new Promise((resolve, reject) => {

        request(url, function (err, response, body) {

            var item = $('.movie-list dd')

            item.map(function (i, val) {

                var movieObj = {}

                //电影链接

                movieObj.movieLink = $(val).find('.movie-poster').children('a').attr('href')

                //电影图片

                movieObj.moviePoster = $(val).find('.movie-item').children('img').last().attr('data-src')

                //电影 名字

                movieObj.movieTitle = $(val).find('.movie-item-title').children('a').text()

                //电影评分

                movieObj.movieDetail = $(val).find('.channel-detail-orange').text()

                //把抓取到的内容 放到数组里面去

                movieArr.push(movieObj)

            })

            //说明 数据获取完毕

            if (movieArr.length >0){

                resolve(movieArr)

            }

        })

    })

}

//获取正在热映电影数据

getMovies('https://maoyan.com/films?showType=1')

    .then((data) => {

        console.log(data)

    })

抓取结果(部分)

nodejs爬虫第一篇---> request、cheerio实现小爬虫的更多相关文章

爬虫第一篇基本库的使用——urllib
在Python2中有urllib2和urllib3两个库来实现请求的发送,在Pyhon3中则统一为urllib. urilib包含以下4个模块 request:最基本的请求模块,可以用来实现请求的发送 ...
爬虫第一篇：爬虫详解之urllib.request模块
我将urllib.request 的GET请求和POST请求两种方法做了总结 GET请求 GET请求爬取: import urllib.request import urllib.parse head ...
我的第一篇博客--SQL小语句
开通了博客,拥有了属于自己的小小天地.先写一篇今儿刚学到的 1 remove mirroring relationship alter database datab_name set partner ...
放养的小爬虫--豆瓣电影入门级爬虫(mongodb使用教程~)
放养的小爬虫--豆瓣电影入门级爬虫(mongodb使用教程~) 笔者声明:只用于学习交流,不用于其他途径.源代码已上传github.githu地址:https://github.com/Erma-Wa ...
放养的小爬虫--京东定向爬虫(AJAX获取价格数据)
放养的小爬虫--京东定向爬虫(AJAX获取价格数据) 笔者声明:只用于学习交流,不用于其他途径.源代码已上传github.githu地址:https://github.com/Erma-Wang/Sp ...
网络爬虫urllib：request之urlopen
网络爬虫urllib:request之urlopen 网络爬虫简介定义:按照一定规则,自动抓取万维网信息的程序或脚本. 两大特征: 能按程序员要求下载数据或者内容能自动在网络上流窜(从一个网页跳转 ...
python爬虫第一天
python爬虫第一天太久没折腾爬虫又要重头开始了....感谢虫师大牛的文章. 接下来的是我的随笔 0x01 获取整个页面我要爬的是百度贴吧的图,当然也是跟着虫师大牛的思路. 代码如下: #co ...
nodejs爬虫笔记(一)---request与cheerio等模块的应用
目标:爬取慕课网里面一个教程的视频信息,并将其存入mysql数据库.以http://www.imooc.com/learn/857为例. 一.工具 1.安装nodejs:(操作系统环境:WiN 7 6 ...
nodejs .http模块, cheerio模块实现小爬虫.
代码: var http = require("http"); var cheerio = require("cheerio"); var url = 'htt ...

随机推荐

DOCKER学习_005:Flannel网络配置
一简介 Flannel是一种基于overlay网络的跨主机容器网络解决方案,也就是将TCP数据包封装在另一种网络包里面进行路由转发和通信, Flannel是CoreOS开发,专门用于docker多机 ...
vue学习笔记(六)表单输入绑定
前言在上一章vue学习笔记(四)事件处理器这一篇博客的内容中,我们已经了解vue是如何绑定事件的,而本篇博客主要讲解的是vue中表单输入的绑定,通常我们自己提交信息的时候都是通过表单将信息到服务器的 ...
$NOIp$提高组历年题目复习
写在前面一个简略的$NOIp$题高组历年题目复习记录.大部分都有单独写题解,但懒得放$link$了$QwQ$.对于想的时候兜了圈子的题打上$*$. \(NOIp2018\ [4/6] ...
linux权限说明
Linux 中的权限这里我拿一个tomcat目录举例说明.首先我们在linux系统中执行命令:ls -l 我们拿出其中一个说明-rwxr-xr-x,在Linux 系统中权限是区分用户的,即用户.组用 ...
Elasticsearch 节点磁盘使用率过高，导致ES集群索引无副本
目录一.问题二.问题的原因三.问题解决的办法 1. 扩大磁盘 2. 删除部分历史索引 3. 更改es设置四.扩展一.问题最近在查看线上的 es,发现最近2天的索引没有副本,集群的状态也是为 ...
Scala与Mongodb实践2-----图片、日期的存储读取
目的:在IDEA中实现图片.日期等相关的类型在mongodb存储读取主要是Scala和mongodb里面的类型的转换.Scala里面的数据编码类型和mongodb里面的存储的数据类型各个不同.存在类 ...
完美解决win10系统无法安装.NET Framework问题
今天在安装willow插件的时候系统提示需要安装.NET Framework3.5的问题,当点击系统自动解决的时候,Windows系统又会提示错误,其实这也见怪不怪了,如果能自动解决的话也不会出现这种 ...
k8s~为服务添加ingress的实现
为服务添加ingress的实现 1 当我们为指定的项目添加ingress支持之后,它会在“负载均衡”标签页出现,并显示出你的域名解析到的服务. 2 我们的ingress是支持https的,所以需要为你 ...
stars-one原创工具——蓝奏云批量下载工具
一款可以批量下载蓝奏云分享的文件夹下的所有文件基于HtmlUnit和okhttp开源库,所以打包后的jar包文件有点大蓝奏云下载地址 github地址需求之前找电子书资源的时候,网友分享的蓝奏 ...
RTC时间设置
1.命令行输入date,查看系统时间. 2.命令行输入 date -s "2019-01-21 16:03:00" 修改系统时间. 3.命令行输入 hwclock -w 将修改后的 ...

nodejs爬虫第一篇---> request、cheerio实现小爬虫

目标

说明

request

cheerio

抓取数据

完整代码

抓取结果(部分)

nodejs爬虫第一篇---> request、cheerio实现小爬虫的更多相关文章

随机推荐

热门专题