前言

本文写了一个爬取视频的案例，使用requests库爬取了好看视频的视频，并进行保存到本地。后续也会更新selenium篇和DrissionPage篇。当然，爬取图片肯定不止这三种方法，还有基于python的scrapy框架，基于node.js的express框架以及基于Java的webmagic框架等等。

爬虫步骤

确定网址，发送请求

我们打开我们需要爬取的网站后，按f12进行检查，因为页面采用的懒加载，所以我们需要往下滑加载新的视频，这时候就会出现新的数据包，这个数据包大概率就是这些新视频加载出来的来源，我们也可以在下图中的①中搜索视频数据包中可能出现的内容，例如视频的后缀，如MP4，m4s，ts等，然后再从中筛选正确的数据包，这个可能就需要有一定的经验。

当我们往下滑刷新的时候，再②中就会加载出新的数据包，点击数据包后，就会出现右边的窗口，在③标头中会看到我们要请求的url地址，以及cookie和一些加密后参数。

代码如下

import requests # 数据请求模块

url='https://haokan.baidu.com/haokan/ui-web/video/feed?time=1723964149093&hk_nonce=915ae0476c308b550e98f6196331fd2a&hk_timestamp=1723964149&hk_sign=93837eec50add65f7ca64a95fb4eb8de&hk_token=aRYZdAVwdwNwCnwBcHNyAAkNAQA'  # 请求地址

headers={

    # UA伪装

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'

}

html=requests.get(url,headers=headers)

获取响应数据

在响应里我们可以看到响应的json数据，里面有封面照片地址，标题，视频地址等等，我们只需要获取其中的图片名字（title）和图片地址（previewUrlHttp）即可。

respnose=html.json()

对响应数据进行解析

json数据是字典，所以我们只需要取其中的键就可以了。

data=html['data']['apiData']         # 取照片地址

for li in data:

    video_name=li['title']     # 照片名字

    video_url=li['previewUrlHttp']   # 照片地址

保存数据

获取到图片的url后只需要再对url进行请求，获取二进制数据，然后进行保存到本地。

video=requests.get(video_url,headers=headers).content   # 对照片地址进行发送请求，获取二进制数据

    with open('./videos/'+video_name+'.mp4','wb') as f:        # 保存视频

        f.write(video)

完整源码

import requests  # 数据解析模块

import os   # 文件管理模块

if not os.path.exists("./videos"):  # 创建文件夹

    os.mkdir("./videos")

url='https://haokan.baidu.com/haokan/ui-web/video/feed?time=1723964149093&hk_nonce=915ae0476c308b550e98f6196331fd2a&hk_timestamp=1723964149&hk_sign=93837eec50add65f7ca64a95fb4eb8de&hk_token=aRYZdAVwdwNwCnwBcHNyAAkNAQA'  # 请求地址

headers={

    # UA伪装

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'

}

html=requests.get(url,headers=headers).json()

data=html['data']['apiData']         # 取照片地址

for li in data:

    video_name=li['title']     # 照片名字

    video_url=li['previewUrlHttp']   # 照片地址

    video=requests.get(video_url,headers=headers).content   # 对照片地址进行发送请求，获取二进制数据

    with open('./videos/'+video_name+'.mp4','wb') as f:        # 保存视频

        f.write(video)

        print(video_name+'.mp4')

多页爬取的就要多去观察数据包，有什么规律，再这个案例中，就涉及到了时间戳js加密。

共勉

少就是多慢就是快

博客

本人是一个渗透爱好者，不时会在微信公众号（laity的渗透测试之路）更新一些实战渗透的实战案例，感兴趣的同学可以关注一下，大家一起进步。
- 之前在公众号发布了一个kali破解WiFi的文章，感兴趣的同学可以去看一下，在b站（up主:laity1717）也发布了相应的教学视频。

爬虫案例2-爬取视频的三种方式之一：requests篇(1)的更多相关文章

js页面取值的三种方式
<input id=""<radio <checkbox<div<img对于这些标签内参数取值,一般分为三种类型:一.有关id取值用 #:取id处的v ...
python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
【爬虫问题】爬取tv.sohu.com的页面, 提取视频相关信息
尝试解决下面的问题问题: 爬取tv.sohu.com的页面, 提取视频相关信息,不可用爬虫框架完成何为视频i关信息?属性有哪些? 需求: 做到最大可能的页面覆盖率 *使用httpClient 模拟 ...
Python网络爬虫与如何爬取段子的项目实例
一.网络爬虫 Python爬虫开发工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页 ...
Python爬取视频指南
摘自:https://www.jianshu.com/p/9ca86becd86d 前言前两天尔羽说让我爬一下菜鸟窝的教程视频,这次就跟大家来说说Python爬取视频的经验正文 https://w ...
[python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈
我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的.首先通过这篇文章,你能学到以下几点: 1.可以了解Python简单爬取图片的一些思路和方法 ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
爬虫实战——Scrapy爬取伯乐在线所有文章
Scrapy简单介绍及爬取伯乐在线所有文章一.简说安装相关环境及依赖包 1.安装Python(2或3都行,我这里用的是3) 2.虚拟环境搭建: 依赖包:virtualenv,virtualenvwr ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...

随机推荐

防火防盗防CDN流量盗刷
没想到自己的小破站也逃不掉被攻击的命,分分钟就给我刷欠费了. 本来不想写这篇文章的,但看到好多大佬(小林coding. JavaGuide)近期cdn都被盗刷了. 还是来提醒下大家,防火防盗防cdn流 ...
AI生成前端组件的价值思考
想法来源这个想法来源于我自己的需求,我自己首先就是最精准的目标用户,在这个AI时代,我希望AI可以帮我尽量多地干活. 结合自己的日常独立开发情况,发现花在调前端组件样式上的时间很多,因此思考能不能让 ...
【js】 reduce、filter、map 数组链式调用求加和
let data = [ {hierarchy: '香蕉', count: 1}, {hierarchy: '苹果', count: 2}, {hierarchy: '葡萄', count: 3}, ...
【Docker】02 上手入门
环境前提: 软硬件设备:真机 | 服务器 | 虚拟机操作系统:Linux 协议传输工具:XSHELL等等,直接操作就不用了网路:必须得有 Docker的安装: 还好在学Linux的时候装了一下,发 ...
【SqlServer】02 SSMS工具基本使用入门
之前的安装中除了SqlServer,还有一个SSMS管理工具数据库的访问依赖于工具 SSMS提供了两种登陆方式: 创建用户: 删除用户: 创建数据库: 删除数据库: 创建表: 设置表的字段,字段名称 ...
如果美国断供中国所有的Intel和AMD芯片，国内各行各业会不会崩溃
说一个我个人观点,我认为如果国内完全没有X86芯片的供应,那么各行各业的发展会明显进入发展迟缓阶段,首先受影响的就是软件开发领域,因为没有新的芯片也就意味着袋电脑性能停滞或者倒退,那么开发出新的更耗资 ...
寻路数据集 —— PathFinding数据集 —— Moving AI Lab. 实验室
好几个做pathfinding的论文都是引用这个网站的数据集,不过这个网站的数据集的地图都是 .map 格式,这个类型的格式该如何打开还不知道. Moving AI Lab. 实验室的工作地址: h ...
chatgpt的api联网报错问题解决：openai公司的api联网报错解决
chatgpt是啥,这里不讲,openai是啥这里也不讲.要知道我们不论是通过网页web使用chatgpt还是使用api方式通过客户端使用chatgpt都是需要使用外国IP的, 为啥我们不能访问ope ...
HP笔记本电脑——暗夜精灵2pro继电池鼓包后出现无法充电的问题，最后电量显示：0%可用（电源已接通，未充电）
问题如题,最近使用暗夜精灵2pro笔记本(自己17年5月1节日购买)使用了四年,使用了第二年的时候出现电池鼓包问题于是自己花了不到200元在某宝上购入电池进行替换同时更新bios,正常使用到今年8月2 ...
乌克兰学者的学术图谱case5
========================================== 背景: 弗兰采维奇材料问题研究是欧洲最大的材料科研院所,在核电.航空.航天.军工及其他装备制造领域的先进材料研制方 ...

爬虫案例2-爬取视频的三种方式之一：requests篇(1)

前言