梨视频ajax双重抓包

B站学爬虫记录

页面抓包

这个页面下拉到底会刷出24个新视频,这是ajax随机加载的。

下拉到底抓到数据

查看数据包,请求为http://www.pearvideo.com/panorama_loading.jsp?

可以发现有三个参数,start等于刷新时界面已有视频数目(24、48......),filterIds是随机抽出的视频id,mrd是random随机数。



(视频id如下)

数据包里含有视频页面的链接



提取li的列表(xpath有点不好用,用了beautifulsoup)

def search_video(i):
url='http://www.pearvideo.com/panorama_loading.jsp?'
ids=str(random.randint(1453246,1780000))
for _ in range(23):
ids+=f',{random.randint(1453246,1780000)}'
params={
'start':24*i,
'filterIds': ids,
'mrd': str(random.uniform(0, 1))
}
html = requests.get(url, headers=headers,params=params).text
soup=BeautifulSoup(html,'html.parser')
li_list = soup.find_all('li',{'class','categoryem'})
for li in li_list:
get_video_url(li)

视频抓包

由于视频也是ajax加载,需要再次抓包。

两个参数:视频id和随机数



数据中含有视频链接

可以复制cURL然后直接转化出headers。网址:https://curlconverter.com/。注意转换出来不要留cookie

提取视频链接(注意这里是json)

def get_video_url(li):
name = li.find('div',{'class':'vervideo-title'}).text+'.mp4'
# 抓包ajax
id_num = str(li.find('a')['href']).split('_')[1]
ajax_url = 'https://www.pearvideo.com/videoStatus.jsp?'
params = {
'contId': id_num,
'mrd': str(random.random())
}
ajax_headers = {
"User-Agent": ua.random,
# 加了之后不会显示视频下架
'Referer': f'https://www.pearvideo.com/video_{id_num}'
}
dic_obj = requests.get(url=ajax_url, params=params,
headers=ajax_headers).json()
video_url = dic_obj["videoInfo"]['videos']["srcUrl"]
# 注意这里不能直接上id,需要转化
# 此处视频地址做了加密即ajax中得到的地址需要加上cont-,并且修改一段数字为id才是真地址
# 真地址:"https://video.pearvideo.com/mp4/third/20201120/cont-1708144-10305425-222728-hd.mp4"
# 伪地址:"https://video.pearvideo.com/mp4/third/20201120/1606132035863-10305425-222728-hd.mp4"
secret = video_url.split('/')[-1].split('-')[0]
video_url = video_url.replace(str(secret), f'cont-{id_num}')
dic = {
'name': name.replace('"','”').replace(",",","),
'url': video_url,
}
urls.append(dic)

源代码

import asyncio
import aiohttp
import requests
from lxml import etree
import random
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
from multiprocessing.dummy import Pool ua = UserAgent(verify_ssl=False)
headers = {
'User-Agent': ua.random,
} def search_video(i):
url='http://www.pearvideo.com/panorama_loading.jsp?'
ids=str(random.randint(1453246,1780000))
for _ in range(23):
ids+=f',{random.randint(1453246,1780000)}'
params={
'start':24*i,
'filterIds': ids,
'mrd': str(random.uniform(0, 1))
}
html = requests.get(url, headers=headers,params=params).text
soup=BeautifulSoup(html,'html.parser')
li_list = soup.find_all('li',{'class','categoryem'})
for li in li_list:
get_video_url(li) def get_video_url(li):
name = li.find('div',{'class':'vervideo-title'}).text+'.mp4'
# 抓包ajax
id_num = str(li.find('a')['href']).split('_')[1]
ajax_url = 'https://www.pearvideo.com/videoStatus.jsp?'
params = {
'contId': id_num,
'mrd': str(random.random())
}
ajax_headers = {
"User-Agent": ua.random,
# 加了之后不会显示视频下架
'Referer': f'https://www.pearvideo.com/video_{id_num}'
}
dic_obj = requests.get(url=ajax_url, params=params,
headers=ajax_headers).json()
video_url = dic_obj["videoInfo"]['videos']["srcUrl"]
# 注意这里不能直接上id,需要转化
# 此处视频地址做了加密即ajax中得到的地址需要加上cont-,并且修改一段数字为id才是真地址
# 真地址:"https://video.pearvideo.com/mp4/third/20201120/cont-1708144-10305425-222728-hd.mp4"
# 伪地址:"https://video.pearvideo.com/mp4/third/20201120/1606132035863-10305425-222728-hd.mp4"
secret = video_url.split('/')[-1].split('-')[0]
video_url = video_url.replace(str(secret), f'cont-{id_num}')
dic = {
'name': name.replace('"','”').replace(",",","),
'url': video_url,
}
urls.append(dic) urls=[]
for i in range(4):
search_video(i) #协程
async def get_video_data(dic_):
url_ = dic_['url']
print(url_, '正在下载.....')
async with aiohttp.ClientSession() as session:
async with await session.get(url_,headers=headers) as response:
video_data=await response.read()
video_path = f'./{dic_["name"]}'
with open(video_path, 'wb') as fp:
fp.write(video_data)
print(dic_['name'], '下载成功!!!!!') tasks=[asyncio.ensure_future(get_video_data(url)) for url in urls] loop=asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))

其他方法

selenium

当然以上抓包操作都能用selenium替代,但这里就略过了。

参考

https://www.cnblogs.com/qianhu/p/14027192.html

B站学爬虫 梨视频ajax双重抓包的更多相关文章

  1. python爬虫之分析Ajax请求抓取抓取今日头条街拍美图(七)

    python爬虫之分析Ajax请求抓取抓取今日头条街拍美图 一.分析网站 1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏. 2.按F12打开开发者工具,刷新网页,这时网页回弹到综合 ...

  2. Selenium爬虫实践(踩坑记录)之ajax请求抓包、浏览器退出

    上一篇: 使用Selenium截取网页上的图片 前言 最近在搞公司内部系统,累的一批,需要从另一个内部系统导出数据存到数据库做分析,有大量的数据采集工作,又没办法去直接拿到那个系统的接口,太难了,只能 ...

  3. python爬虫01在Chrome浏览器抓包

    尽量不要用国产浏览器,很多是有后门的 chrome是首选 百度 按下F12 element标签下对应的HTML代码 点击Network,可以看到很多请求 HTTP请求的方式有好几种,GET,POST, ...

  4. Wireshark对常见视频应用的抓包分析的结果

    一.PC端直播: YY客户端直播用的udp(P2P)9158客户端直播用的rtp/rtcp 二.Web端直播: YY网页端直播用的tcp9158网页端直播用的tcp六间房网页端直播用的tcp17173 ...

  5. vconsole h5应用ajax请求抓包

    <!DOCTYPE html> <html> <head> <meta charset="utf-8" /> <meta co ...

  6. C#一步一步学网络辅助开发(1)--常用抓包工具的使用

    这次写的是一个系列,是让大家了解如何进行网络的辅助开发.要进行网络辅助开发抓包工具是必不可少的,下面就让大家熟悉一下常用的一些抓包工具, 1,Fiddler 这个工具是我目前用的最多的一款抓包工具,不 ...

  7. python爬虫用drony转发进行抓包转发

    转载至https://www.cnblogs.com/lulianqi/p/11380794.html#l_2 实际操作步骤(Android) 笔者这里直接使用上面提到第3种方法(方法1在对于手机AP ...

  8. 爬虫 http原理,梨视频,github登陆实例,requests请求参数小总结

    回顾:http协议基于请求响应的方式,请求:请求首行 请求头{'keys':vales} 请求体 :响应:响应首行,响应头{'keys':'vales'},响应体. import socket soc ...

  9. python爬虫实践——爬取“梨视频”

    一.爬虫的基本过程: 1.发送请求(请求库:request,selenium) 2.获取响应数据()服务器返回 3.解析并提取数据(解析库:re,BeautifulSoup,Xpath) 4.保存数据 ...

  10. 我在 B 站学机器学习(Machine Learning)- 吴恩达(Andrew Ng)【中英双语】

    我在 B 站学机器学习(Machine Learning)- 吴恩达(Andrew Ng)[中英双语] 视频地址:https://www.bilibili.com/video/av9912938/ t ...

随机推荐

  1. mysql设置时区

    参考:https://blog.csdn.net/vkingnew/article/details/82149726 查看时区 show variables like '%time_zone%'; 设 ...

  2. Java查找一个字符串在另一个字符串中出现的次数

    主要是练习String类中indexOf的用法 /** * 查找一个字符串在另一个字符串中出现的次数 */ public class MainTest { public static void mai ...

  3. Axure通用电商后台管理系高保真交互模板原型图附元件库4种后台模板风格

    Axure通用电商后台管理交互模板原型图附元件库4种后台模板风格,原型中使用4种不同的布局框架,你可以根据自己的需求,去选中对应的菜单排版布局.另外,原型图中使用了较多的交互元件.母版.动态面板,基本 ...

  4. 突破Excel百万数据导出瓶颈:全链路优化实战指南

    在日常工作中,Excel数据导出是一个常见的需求. 然而,当数据量较大时,性能和内存问题往往会成为限制导出效率的瓶颈. 当用户点击"导出"按钮时,后台系统往往会陷入三重困境: ‌内 ...

  5. HarmonyOS NEXT开发实战案例--圆盘

    这是之前写过的一个项目,后来删掉了,现在适配到api12重新发布,友友们按需查阅. 本文主要通过抽奖转盘小项目讲解在鸿蒙开发中如何使用画布组件Canvas绘制图形和文字,以及转圈动画的实现.效果图如下 ...

  6. Go Gob编码

    gob(Go binary)是Goland包自带的一个数据结构序列化的编码/解码工具.编码使用Encoder,解码使用Decoder.一种典型的应用场景就是RPC(remote procedure c ...

  7. 记一次burp抓不到包的排查与处理

    ​ 一次遇到了burp上奇怪的bug.访问某个页面显示 No response received from remote server , ​ 但是使用 yakit 进行抓包之后发现网站可以正常抓包 ...

  8. Sa-Token v1.43.0 发布 🚀,新增 SSO 单设备注销、消息推送,多 Access-Token 并存能力

    Sa-Token 是一款 免费.开源 的轻量级 Java 权限认证框架,主要解决:登录认证.权限认证.单点登录.OAuth2.0.微服务网关鉴权 等一系列权限相关问题. 目前最新版本 v1.43.0 ...

  9. github常见开源协议概括

    None / No License 默认协议,不允许他人复杂.分发.修改.使用,只能fork下来看 Apache License 2.0 允许个人使用.商业使用.复制.修改.分发,但是出了事作者免责, ...

  10. Style:用法,多样性,全局样式与资源字典

    Style:用法,多样性,全局样式与资源字典 本文同时为b站WPF课程的笔记,相关示例代码 对应06~08 前言 大部分能够想到的属性,xaml里面都是自带了的.可以多去网络上搜一搜.比如说高度.宽度 ...