Python爬虫实例：爬取B站《工作细胞》短评—

很多网页的信息都是通过异步加载的，本文就举例讨论下此类网页的抓取。

《工作细胞》最近比较火，bilibili 上目前的短评已经有17000多条。

先看分析下页面

右边 li 标签中的就是短评信息，一共20条。一般我们加载大量数据的时候，都会做分页，但是这个页面没有，只有一个滚动条。

随着滚动条往下拉，信息自动加载了，如下图，变40条了。由此可见，短评是通过异步加载的。

我们不可能一次性将滚动条拉到最下面，然后来一次性获取全部的数据。既然知道是通过异步来加载的数据，那么我们可以想办法直接去获取这些异步的数据。

打开 Network 查看分析 http 请求，可以点击 XHR 过滤掉 img、css、js 等信息。这时我们发现了一些 fetch。fetch 我对它的了解就是一个比 ajax 更高级更好用的 API，当然这肯定是不准确的，但并并不影响我们的爬虫。

我们可以看到，其中返回的就是我们需要的内容，json 格式，一共20条，total 属性就是总的数目。分析一下 url 地址：https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded=0&page_size=20&sort=0&cursor=76729594906127

media_id 想必就是《工作细胞》的 id 了；

folded 不知道是啥，可以不管；

page_size 是每页的条数；

sort 排序，看名字就知道，找到排序的选项，试了下，果然是的，默认0，最新1；

cursor，字面意思的光标，猜测应该是指示本次获取开始的位置的，展开获取到的 json，发现其中包含有 cursor 属性，对比以后可以发现，url中的值跟上一次返回结果中的最后一条中的 cursor 的值是一致的。

好了，至此，页面已经分析清楚了，爬取的方式也明显了，根本不用管网页，直接根据 fetch 的地址获取 json 数据就可以了，连网页解析都省了，超级的方便。

下面的完整的代码：（如果 fake_useragent 报错，就手动写个 User-Agent 吧，那个库极度的不稳定）

import csv

import os

import time

import requests

from fake_useragent import UserAgent

curcount = 0

def main():

    url = 'https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded=0&page_size=20&sort=0'

    crawling(url)

def crawling(url):

    print(f'正在爬取：{url}')

    global curcount

    headers = {"User-Agent": UserAgent(verify_ssl=False).random}

    json_content = requests.get(url, headers).json()

    total = json_content['result']['total']

    infolist = []

    for item in json_content['result']['list']:

        info = {

            'author': item['author']['uname'],

            'content': item['content'],

            'ctime': time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(item['ctime'])),

            'likes': item['likes'],

            'disliked': item['disliked'],

            'score': item['user_rating']['score']

        }

        infolist.append(info)

    savefile(infolist)

    curcount += len(infolist)

    print(f'当前进度{curcount}/{total}')

    if curcount >= total:

        print('爬取完毕。')

        return

    nexturl = f'https://bangumi.bilibili.com/review/web_api/short/list?' \

              f'media_id=102392&folded=0&page_size=20&sort=0&cursor={json_content["result"]["list"][-1]["cursor"]}'

    time.sleep(1)

    crawling(nexturl)

def savefile(infos):

    with open('WorkingCell.csv', 'a', encoding='utf-8') as sw:

        fieldnames = ['author', 'content', 'ctime', 'likes', 'disliked', 'score']

        writer = csv.DictWriter(sw, fieldnames=fieldnames)

        writer.writerows(infos)

if __name__ == '__main__':

    if os.path.exists('WorkingCell.csv'):

        os.remove('WorkingCell.csv')

    main()

相关博文推荐：

Python爬虫实例：爬取猫眼电影——破解字体反爬

Python爬虫实例：爬取豆瓣Top250

Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取的更多相关文章

Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
Python 爬虫练习项目——异步加载爬取
项目代码 from bs4 import BeautifulSoup import requests url_prefix = 'https://knewone.com/discover?page=' ...
Python 爬取异步加载的数据
在我们的工作中,可能会遇到这样的情况:我们需要爬取的数据是通过ajax异步加载的,这样的话通过requests得到的只是一个静态页面,而我们需要的是ajax动态加载的数据! 那我们应该怎么办呢??? ...
Python爬虫爬取异步加载的数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:努力努力再努力爬取qq音乐歌手数据接口数据 https://y.qq ...
爬虫--selenuim和phantonJs处理网页动态加载数据的爬取
1.谷歌浏览器的使用下载谷歌浏览器安装谷歌访问助手终于用上谷歌浏览器了.....激动问题:处理页面动态加载数据的爬取 -1.selenium -2.phantomJs 1.selenium 二 ...
爬虫开发6.selenuim和phantonJs处理网页动态加载数据的爬取
selenuim和phantonJs处理网页动态加载数据的爬取阅读量: 1203 动态数据加载处理一.图片懒加载什么是图片懒加载? 案例分析:抓取站长素材http://sc.chinaz.com/ ...
Scrapy爬取Ajax（异步加载）网页实例——简书付费连载
这两天学习了Scrapy爬虫框架的基本使用,练习的例子爬取的都是传统的直接加载完网页的内容,就想试试爬取用Ajax技术加载的网页. 这里以简书里的优选连载网页为例分享一下我的爬取过程. 网址为: ht ...
Scrapy爬虫框架教程（四）-- 抓取AJAX异步加载网页
欢迎关注博主主页,学习python视频资源,还有大量免费python经典文章 sklearn实战-乳腺癌细胞数据挖掘 https://study.163.com/course/introduction ...

随机推荐

【bzoj2432】【NOI2011】兔农
题目描述农夫栋栋近年收入不景气,正在他发愁如何能多赚点钱时,他听到隔壁的小朋友在讨论兔子繁殖的问题. 问题是这样的:第一个月初有一对刚出生的小兔子,经过两个月长大后,这对兔子从第三个月开始,每个 ...
BZOJ_2938_[Poi2000]病毒_AC自动机
BZOJ_2938_[Poi2000]病毒_AC自动机 Description 二进制病毒审查委员会最近发现了如下的规律:某些确定的二进制串是病毒的代码.如果某段代码中不存在任何一段病毒代码,那么我们 ...
CentOS7防火墙管理firewalld
学习apache安装的时候需要打开80端口,由于centos 7版本以后默认使用firewalld后,网上关于iptables的设置方法已经不管用了,想着反正iptable也不太熟悉,索性直接搬官方文 ...
【SAP业务模式】之STO（一）：业务背景和前台操作
所谓STO即两个关联公司之间的库存转储交易,一家公司发出采购订单向另一家公司做采购,然后在做发货.如此之后,两家公司有相应应收应付的票据,以及开票和发票校验等动作. STO分为一步法与两步法,因为一步 ...
车牌定位与畸变校正(python3.7，opencv4.0)
一.前言及思路简析目前车牌识别系统在各小区门口随处可见,识别效果貌似都还可以.查阅资料后,发现整个过程又可以细化为车牌定位.畸变校正.车牌分割和内容识别四部分.本篇随笔主要介绍车牌定位及畸变校正两部 ...
JAVA基础第四章-集合框架Collection篇
业内经常说的一句话是不要重复造轮子,但是有时候,只有自己造一个轮子了,才会深刻明白什么样的轮子适合山路,什么样的轮子适合平地! 我将会持续更新java基础知识,欢迎关注. 往期章节: JAVA基础第一 ...
Java实现大批量数据导入导出(100W以上)　-（一）导入
最近业务方有一个需求,需要一次导入超过100万数据到系统数据库.可能大家首先会想,这么大的数据,干嘛通过程序去实现导入,为什么不直接通过SQL导入到数据库. 大数据量报表导出请参考:Java实现大批量 ...
java 理解如何实现图片验证码傻瓜都能看懂。
先代码后解释: 只要把代码复制到你的项目中就可以了. 代码: 验证码工具类: package cn.happy.util.imagesVerTion; /** * Author: SamGroves ...
github下载和上传项目
git下载和上传项目下载: git clone +地址上传: 1.git init 在当前项目的目录中生成本地的git管理(多一个.git文件夹,为隐藏文件) 2.git add .(注意最后面有 ...
Flannel工作原理
flanneld程序启动会有一个参数叫做-etcd-prefix和-iface.前者是指定flanneld程序使用etcd的哪个节点来存储数据,-face是指定flanneld使用网络是使用宿主机哪个 ...

Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取

Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取的更多相关文章

随机推荐

热门专题