前面通过python爬虫爬取过图片，文字，今天我们一起爬取下b站的小视频，其实呢，测试过程中需要用到视频文件，找了几个网站下载，都需要会员什么的，直接写一篇爬虫爬取视频~~~

分析b站小视频

1、进入到抓取链接地址

http://vc.bilibili.com/p/eden/rank#/?tab=%E5%85%A8%E9%83%A8

2、分析抓取链接内容

通过F12或者抓包工具进行查看我们需要爬取的视频在哪里存放，页面以ajax动态加载的

3、分析请求内容和请求参数

通过查看请求内容得到这些数据

1、请求的接口地址

2、请求方式为get

3、请求参数为

page_size 显示的个数
next_offset 动态跳转页面
tag　　搜索标题
platfrom （应该是pc端）

分析了页面内容，那么动手来写代码，爬取视频下来

爬取b站小视频

开始写代码之前呢，我们也要一步一步的来，分清楚每一步都是干什么用的，这样的话才能让我们写的代码更加清除。

1、构建请求信息，请求需要爬取的地址

# 构建请求信息，获取数据信息

def get_json(url,ajax):

    # 构建请求信息

    params = {

        'page_size':10,

        'next_offset': ajax,

        'tag':'今日热门',

        'platform':'pc'

    }

    # 防止请求失败

    try:

        html = requests.get(url,params=params,headers=headers).json()

        return html

    except BaseException:

        print('页面加载失败')

2、进行访问链接，下载视频

# 获取视频信息

def get_video(viedeo_url,path):

    # 取出来视频的名称和地址

    r2 = requests.get(viedeo_url,headers=headers)

    with open(path,'wb')as f:

        f.write(r2.content)

3、保存下载的视频

infos=html['data']['items']

        for info in infos:

            title = info['item']['description']#小视频的标题

            video_url = info['item']['video_playurl']#视频地址

            print(title,video_url)

            #为了防止视频没有video_url

            try:

                get_video(video_url,path=r"E:\app\视频\%s.mp4"%title)

                print("成功下载一个")

            except BaseException:

                print("下载失败")

                pass

完整代码

import requests

import random

import time

headers = {

    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36"

}

def get_json(url,ajax):

    # 构建请求信息

    params = {

        'page_size':10,

        'next_offset': ajax,

        'tag':'今日热门',

        'platform':'pc'

    }

    # 防止请求失败

    try:

        html = requests.get(url,params=params,headers=headers).json()

        return html

    except BaseException:

        print('页面加载失败')

def get_video(viedeo_url,path):

    # 取出来视频的名称和地址

    r2 = requests.get(viedeo_url,headers=headers)

    with open(path,'wb')as f:

        f.write(r2.content)

if __name__ == '__main__':

    for i in range(3):

        url='http://api.vc.bilibili.com/board/v1/ranking/top?'

        num=i*10+1

        html=get_json(url,num)

        infos=html['data']['items']

        for info in infos:

            title = info['item']['description']#小视频的标题

            video_url = info['item']['video_playurl']#视频地址

            print(title,video_url)

            #为了防止视频没有video_url

            try:

                get_video(video_url,path=r"E:\app\视频\%s.mp4"%title)

                print("成功下载一个")

            except BaseException:

                print("下载失败")

                pass

        # 设置加载时间

        time.sleep(random.random() * 3)

写的时间有点紧急，大概的写了下过程，如果不懂的地方可以下方留言，看到后第一时间会进行回复，感觉写的对您有帮助，点个关注~~~~

爬虫---爬取b站小视频的更多相关文章

Python爬虫一爬取B站小视频源码
如果要爬取多页的话在最下方循环中填写好循环的次数就可以了项目源码 from fake_useragent import UserAgent import requests import time ...
抓取B站小视频
抓取B站小视频的代码如下: #请求库import requests #请求头部信息(用户代理)headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; ...
Python爬虫---爬取抖音短视频
目录前言抖音爬虫制作选定网页分析网页提取id构造网址拼接数据包链接获取视频地址下载视频全部代码实现结果待解决的问题前言最近一直想要写一个抖音爬虫来批量下载抖音的短视频,但是经 ...
爬取b站互动视频信息
首先分辨视频是不是互动视频可以看 https://api.bilibili.com/x/player.so?id=cid:1&aid=89017 这个api返回的xml中的 <inter ...
简单的方法爬取b站dnf视频封面步骤解释
这随笔代码链接:http://www.cnblogs.com/yinghualuowu/p/8186375.html 首先我们要知道,一个分区封面显示到底在哪里可以找到. 很明显,查看审查元素并不能找 ...
python爬虫——爬取B站用户在线人数
国庆期间想要统计一下bilibili网站的在线人数变化,写了一个简单的爬虫程序.主要是对https://api.bilibili.com/x/web-interface/online返回的参数进行分析 ...
python爬取b站排行榜视频信息
和上一篇相比,差别不是很大 import xlrd#读取excel import xlwt#写入excel import requests import linecache import wordcl ...
python3爬虫-爬取B站排行榜信息
import requests, re, time, os category_dic = { "all": "全站榜", "origin": ...
Python 简单的方法爬取b站dnf视频封面
import urllib.request cnt=0 def instr(keystr): st=keystr.find('(')+1 strhtml=keystr[st:len(keystr)-1 ...

随机推荐

Spring Boot 2 发布与调用REST服务
开发环境:IntelliJ IDEA 2019.2.2Spring Boot版本:2.1.8 一.发布REST服务 1.IDEA新建一个名称为rest-server的Spring Boot项目 2.新 ...
python 部署lvs
import paramiko ssh = paramiko.SSHClient() ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy()) ...
[20191115]oracle实例占用内存计算.txt
[20191115]oracle实例占用内存计算.txt --//以前学习oracle数据库时,总想了解实例占用内存多少,我曾经在一些会议底下问过一位高手,对方说计算这个相对很难,许多东西是共享的.- ...
CodeForces-1217D （拓扑排序/dfs 判环）
题意 https://vjudge.net/problem/CodeForces-1217D 请给一个有向图着色,使得没有一个环只有一个颜色,您需要最小化使用颜色的数量. 思路因为是有向图,每个环两 ...
浅谈浏览器解析 URL+DNS 域名解析+TCP 三次握手与四次挥手+浏览器渲染页面
(1)浏览器解析 URL 为了能让我们的知识层面看起来更有深度,我们应该考虑下面两个问题了: 从浏览器输入 URL 到渲染成功的过程中,究竟发生了什么? 浏览器渲染过程中,发生了什么,是不是也有重绘与 ...
Collection接口综述
Collection接口 Collection是集合类基本的接口,它不提供具体的实现,集合类都继承自Collection接口,Collection代表的是一种规则,它包含的元素必须符合某种规则,比如有 ...
awk命令使用整理
1. awk默认以空格分隔, 可摘出指定位置的内容, 通常用法如下( 文件名称为file.txt ): 文件中行内容为: 12:3 a 4:56 b awk '{print $1}' ...
Vue 时间修饰符之使用$event和prevent修饰符操作表单
<!doctype html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
算法与数据结构基础 - 数组(Array)
数组基础数组是最基础的数据结构,特点是O(1)时间读取任意下标元素,经常应用于排序(Sort).双指针(Two Pointers).二分查找(Binary Search).动态规划(DP)等算法.顺 ...
手把手教你如何用 OpenCV + Python 实现人脸检测
配好了OpenCV的Python环境,OpenCV的Python环境搭建.于是迫不及待的想体验一下opencv的人脸识别,如下文. 必备知识 Haar-like Haar-like百科释义.通俗的来讲 ...

爬虫---爬取b站小视频