Ajax 分析与爬取实战

准备工作

安装好 Python3
了解 Python HTTP 请求库 requests 的基本用法
了解 Ajax 基础知识和分析 Ajax 的基本方法

爬取目标

　　以一个示例网站来实验一下 Ajax 的爬取，链接为：https://spa1.scrape.center/，该示例网站的数据请求是通过 Ajax 完成的，页面的内容是通过 JavaScript 渲染出来的。

　　这个网格同样能实现翻页，可以单击页面最下方的页码来切换到下一页。

　　单击每部电影进入对应的详情页，这些页面的结构也是一样的。

　　要爬取的数据包括电影的名称、封面、类别、上映日期、评分、剧情简介等信息。

　　要完成的目标：

分析页面的加载逻辑
用 requests 实现 Ajax 数据的爬取
将每部电影的数据分别保存到 MongoDB 数据库

初步探索

　　先尝试用之前的 requests 直接提取页面。

import requests

url = 'https://spa1.scrape.center/'

html = requests.get(url).text

print(html)

运行结果：

<!DOCTYPE html><html lang=en><head><meta charset=utf-8><meta http-equiv=X-UA-Compatible content="IE=edge"><meta name=viewport content="width=device-width,initial-scale=1"><link rel=icon href=/favicon.ico><title>Scrape | Movie</title><link href=/css/chunk-700f70e1.1126d090.css rel=prefetch><link href=/css/chunk-d1db5eda.0ff76b36.css rel=prefetch><link href=/js/chunk-700f70e1.0548e2b4.js rel=prefetch><link href=/js/chunk-d1db5eda.b564504d.js rel=prefetch><link href=/css/app.ea9d802a.css rel=preload as=style><link href=/js/app.17b3aaa5.js rel=preload as=script><link href=/js/chunk-vendors.683ca77c.js rel=preload as=script><link href=/css/app.ea9d802a.css rel=stylesheet></head><body><noscript><strong>We're sorry but portal doesn't work properly without JavaScript enabled. Please enable it to continue.</strong></noscript><div id=app></div><script src=/js/chunk-vendors.683ca77c.js></script><script src=/js/app.17b3aaa5.js></script></body></html>

　　爬取的结果只有只有一点HTML内容，在浏览器中打开却可以看到很多信息。

　　在 HTML 中，只能看到源码引用的一些 JavaScript 和 CSS 文件，并没有观察到任何电影信息。

　　遇到这种情况，说明看到的整个页面都是 JavaScript 渲染得到的，浏览器执行了 HTML 中引用的 JavaScript 文件，JavaScript 通过调用一些数据加载和页面渲染的方法，才最终呈现了途中所示的效果。

　　这些电影数据一般是通过Ajax加载的，JavaScript 在后台调用 Ajax 数据接口，得到数据之后，在对数据进行解析并渲染呈现出来的，得到最终的页面。所以要想爬取这个页面，直接爬取 Ajax 接口，再获取数据就好了。

　　了解了 Ajax 分析的基本方法，下面分析 Ajax 接口的逻辑并实现数据爬取。

爬取列表页

　　首先分析列表页的 Ajax 接口逻辑，打开浏览器开发者工具，切换到 Network 面板，勾选 Preserve Log 并切换到 XHR 选项卡。

　　接着重新刷新页面，再单击第 2 页、第 3 页、第 4 页的按钮，这是可以观察到不仅页面上的数据发生了变化，开发者工具下方也监听到了几个 Ajax 请求。

　　切换了 4 页，每次翻页也出现了对应的 Ajax 请求。可以点击查看其请求详情，观察请求 URL 、参数和响应内容是怎样的。

　　点开最后一个结果，观察到其 Ajax 接口的请求 URL 为 https://spa1.scrape.center/api/movie/?limit=10&offset=30，这里有两个参数：一个是limit，这里是 10；一个是 offset，这里是 30。

　　观察多个 Ajax 接口的参数，可以总结出这个一个规律：limit 一直为 10，正好对应每页的 10 条数据；offset 在依次变大，页数每增加，offset 就加 10，因此其代表页面上的数据偏移量。例如第 2 页的 offset 为 10 就代表跳过 10 条数据，返回从 11 条数据开始的内容，再加上 limit 的限制，最终页面呈现的就是第 11 条至第 12 条数据。

　　观察一下响应内容：

　　可以看到结果就是一些 JSON 数据，其中有一个 results 字段，是一个列表，列表中每一个元素都是一个字典，观察一下字典的内容，里面正好可以看到对应电影数据的字段，如 name、alias、cover、categories。对比一下浏览器中的真实数据，会发现各项的内容完全一致，而且这些数据已经非常结构化了，完全就是想要爬取的数据。

import requests

import logging

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')

INDEX_URL = 'https://spa1.scrape.center/api/movie/?limit={limit}&offset={offset}'

　　引入了 requests 库和 logging 库，并定义了 logging 的基本配置。接着定义了 INDEX_URL ，这里把 limit 和 offset 预留出来变成占位符，可以动态传入参数构造一个完整的列表页 URL。

　　下面实现一下详情页的爬取。还是和原来一样，定义一个通用的爬取方法，代码如下：

def scrape_api(url):

    logging.info('scraping %s...', url)

    try:

        response = requests.get(url)

        if response.status_code == 200:

            return response.json()

        logging.error('get invalid status code %s while scraping %s',

                      response.status_code, url)

    except requests.RequestException:

        logging.error('error occurred while scraping %s', url, exc_info=True)

　　这里定义一个 scrape_api 方法，和之前不同的是，这个方法专门用来处理 JSON 接口。最后的 response 调用的是 json 方法，它可以解析响应内容并将其转化成 JSON 字符串。

　　接着在此基础上，定义一个爬取列表页的方法：

def scrape_index(page):

    url = INDEX_URL.format(limit=LIMIT, offset=LIMIT * (page-1))

    return scrape_api(url)

　　定义一个 scrape_index 方法，接收一个参数 page，该参数代表列表页的页码。

　　scrape_index 方法中，先构造了一个 url，通过字符串的 format 方法，传入 limit 和 offset 方法的值。这里 limit 直接使用了全局变量的 LIMIt值；offset 则是动态计算的，计算方法是页码数减一再乘 limit，例如第一页的 offset 是 0，第二页的 offset 就是 10，以此类推，构造好 url 后，直接调用 scrape_api 方法并返回结果即可。

　　完成了列表页的爬取，每次发送 Ajax 请求都会得到 10 部电影的数据信息。

　　由于这是爬取的数据已经是 JSON 类型了，所以无需像之前那样去解析 HTML 代码来提取数据，爬到的数据已经是想要的结构化数据。

　　这样秩序构造出所有页面的 Ajax 接口，就可以轻松获取所有列表页的数据了。

爬取详情页

　　虽然已经拿到每一页的电影数据，但是实际上缺少一些信息，如剧情简介等信息，所以需要进一步进入详情页来获取这些信息。

　　单击任意一部电影，如《霸王别姬》，进入其详情页，可以发现此时的页面 URL 已经变成了 https://spa1.scrape.center/detail/1，页面也成功展示了《教父》详情页的信息。

　　另外可以观察到开发者工具中多了一个 Ajax 请求，其 URL 为
https://spa1.scrape.center/api/movie/1/，通过 Preview 选项卡也能看到 Ajax 请求对应的响应信息。

　　稍加观察就可以发现，Ajax 请求的 URL 后面有一个参数是可变的，这个参数是电影的 id，这里是 30，对应的是《完美世界》这部电影。

　　如果想要获取 id 为 50 的电影，只需要吧 URL 最后的参数改成 50 即可，即 https://spa1.scrape.center/detail/50/，请求这个新的 URL 便能获取 id 为 50 电影对应的数据了。

　　同样，响应结果的也是结构化的 JSON 数据，其字段也非常规整，直接爬取即可。

　　详情页的数据提取逻辑分析完毕，继续考虑怎么和列表页关联起来，电影 id 从哪里来这些问题。回过头来看一下列表页的接口返回数据。

　　可以看到列表页原本的返回数据中就带有 id 这个字段，所以只需要拿到列表页结果中的 id 来构造详情页的 Ajax 请求的 URL 就好。

　　先定义一个详情页的爬取逻辑，代码如下：

DETAIL_URL = 'https://spa1.scrape.center/api/movie/{id}'

def scrape_detail(id):

    url = DETAIL_URL.format(id=id)

    return scrape_api(url)

　　这里定义了一个 scrape_detail 方法，接受一个参数 id。这里的实现根据定义好的 DETAIL_URL 加 id 构造一个真实的详情页 Ajax 请求的 URL，再直接调用 scrape_api 方法传入这个 url 即可。

　　最后，定义一个总的调用方法，对以上方法串联调用，代码如下：

TOTAL_PAGE = 10

def main():

    for page in range(1, TOTAL_PAGE + 1):

        index_data = scrape_index(page)

        for item in index_data.get('result'):

            id = item.get('id')

            detail = scrape_detail(id)

            logging.info('detail data %s', detail_data)

if __name__ == '__main__':

    main()

　　定义一个 main 方法，该方法首先遍历获取页码 page，然后把 page 作为一个参数传递给 scrape_index 方法，得到列表的数据。接着遍历每个列表的每个结果，获取每部电影的 id。之后把 id 当作参数传递给 scrape_detail 方法来爬取每部电影的详情数据，并将此数据赋值给 detail_data，最后输出 detail_data 即可。运行结果如下：

　　整个爬取工作已经完成，这里会依次爬取每个列表页的 Ajax 接口，然后依次爬取每部电影的详情页 Ajax 接口，并打印出每部的 Ajax 接口响应数据，而且都是 JSON 格式。至此所有电影的详情数据都爬取到了。

保存数据

　　成功提取详情页信息之后，下一步就是保存数据。可以保存到MongoDB中。

　　保存之前，确保有一个可以正常连接和使用的 MongoDB 数据库，以本地的 localhost 的 MongoDB 数据库为例来操作。

　　将数据导入 MongoDB 需要用到 PuMongo 这个库。引入并配置：

MONGO_CONNECTION_STRING = 'mongodb://localhost:27017'

MONGO_DB_NAME = 'movies'

MONGO_COLLECTION_NAME = 'movies'

client = pymongo.MongoClient(MONGO_CONNECTION_STRING)

db = client['movies']

collection = db['movies']

MONGO_CONNECTION_STRING:MongoDB的连接字符串，里面定义的是MongoDB的基本连接信息，这里是 host、port，还可以定义用户名、密码等内容。

MONGO_DB_NAME:MongoDB 数据库的名称。
MONGO_COLLECTION_NAME:MongoDB 的集合名称。

然后用MongoClient声明了一个连接对象client，并依次声明了存储数据的数据库和集合。

　　定义了一个 save_data 方法，接收一个参数 data，也就是上面提取电影详情信息。这个方法里调用了 update_one 方法，其第一个参数为查询条件，根据name 进行查询：第二个参数是data对象本身，就是所有的数据，这里我们用 $set 操作符表示更新操作；第三个参数很关键，这里实际上是upsert参数，如果把它设置为 True，就可以实现存在即更新，不存在插人的功能，更新时会参照第一个参数设置的name 字段，所以这样可以防止数据库中出现同名的电影数据。

注意实际上电影可能有同名现象，但此处场景下的爬取数据没有同名情况，当然这里更重要的是实现 MongoDB 的去重操作。

　　改写 main 方法：

def main():

    for page in range(1, TOTAL_PAGE + 1):

        index_data = scrape_index(page)

        for item in index_data.get('results'):

            id = item.get('id')

            detail_data = scrape_detail(id)

            logging.info('detail data %s', detail_data)

            save_data(detail_data)

            logging.info('data saved successfully')

　　增加了对 save_data 方法的调用，并添加一些日志信息。

　运行结果：

　　连接数据库查看爬取结果：