requests爬取梨视频主页所有视频

爬取梨视频步骤:

1.爬取梨视频主页，获取主页所有的详情页链接

- url: https://www.pearvideo.com/

- 1) 往url发送请求，获取主页的html文本

- 2) 解析并提取详情页相对路径video_1637593，与主页拼接即可

    - 拼接后获取的是电影详情页url：

    - detail_url: https://www.pearvideo.com/ + video_1637593

2.往电影详情页发送请求，解析并提取真实视频url--> .mp4后缀的视频url

- 1) 往detail_url发送请求，获取detail_url的html文本

- 2) 解析并提取详情页中视频的真实url

案例一：

单线程同步爬取

import requests

import re

import uuid

# 1.发送请求

def get_html(url):

    res = requests.get(url)

    return res

# 2.解析数据

# 解析主页，获取视频详情页url

def parse_html(res):

    # 获取所有视频的id

    video_id_data = re.findall('<a href="video_(.*?)"',res.text, re.S)

    """

    <a href="video_(.*?)" class="actwapslide-link">

    """

    return video_id_data

# 3.请求 视频详情页，并解析出视频链接

def parse_detail(video_detail_url):

    detail_html = requests.get(video_detail_url)

    video_url = re.findall('srcUrl="(.*?)"',detail_html.text, re.S)[0]

    """

    srcUrl="https://video.pearvideo.com/mp4/adshort/20191231/cont-1637727-14751751_adpkg-ad_hd.mp4"

    """

    return video_url

# 4.保存数据

def save_video(video_url):

    print('开始保存视频')

    res_video = requests.get(video_url)

    with open(f'{str(uuid.uuid4())}.mp4','wb') as f:

        for line in res_video.iter_content():

            f.write(line)

    print('结束保存视频')

if __name__ == '__main__':

    url = 'https://www.pearvideo.com'

    res = get_html(url)

    # 1.对梨视频主页进行解析，提取所有视频详情页的绝对路径

    video_id_data = parse_html(res)

    for video_id in video_id_data:

        video_detail_url = url + '/video_' + video_id

        # 2.往电影详情页发送请求，并解析

        video_url = parse_detail(video_detail_url)

        # 3.保存视频

        save_video(video_url)

案例二：

多线程异步爬取

import requests

import re

import uuid

from concurrent.futures import ThreadPoolExecutor

# 创建线程池，最大连接数为50

pool = ThreadPoolExecutor(50)

# 1.发送请求

def get_html(url):

    res = requests.get(url)

    return res

# 2.解析数据

# 解析主页，获取视频详情页url

def parse_html(res):

    # 获取所有视频的id

    video_id_data = re.findall('<a href="video_(.*?)"',res.text, re.S)

    """

    <a href="video_(.*?)" class="actwapslide-link">

    """

    return video_id_data

# 3.请求 视频详情页，并解析出视频链接

def parse_detail(res):  # res对象 --- 》 {'result': response}

    detail_html = res.result()

    # 通过回调得到的response参数是一个对象

    video_url = re.findall('srcUrl="(.*?)"',detail_html.text, re.S)[0]

    """

    srcUrl="https://video.pearvideo.com/mp4/adshort/20191231/cont-1637727-14751751_adpkg-ad_hd.mp4"

    """

    # 异步提交任务爬取真实视频数据，并保存

    pool.submit(save_video, video_url)

# 4.保存数据

def save_video(video_url):

    print('开始保存视频')

    res_video = requests.get(video_url)

    with open(f'{str(uuid.uuid4())}.mp4','wb') as f:

        for line in res_video.iter_content():

            f.write(line)

    print('结束保存视频')

if __name__ == '__main__':

    import time

    url = 'https://www.pearvideo.com'

    res = get_html(url)

    # 1.对梨视频主页进行解析，提取所有视频详情页的绝对路径

    video_id_data = parse_html(res)

    for video_id in video_id_data:

        video_detail_url = url + '/video_' + video_id

        time.sleep(0.1)

        # 循环并发异步提交任务, add_done_callback将get_html任务的执行结果，回调给parse_detail函数

        pool.submit(get_html, video_detail_url).add_done_callback(parse_detail)

requests爬取梨视频主页所有视频的更多相关文章

使用requests爬取梨视频、bilibili视频、汽车之家，bs4遍历文档树、搜索文档树，css选择器
今日内容概要使用requests爬取梨视频 requests+bs4爬取汽车之家 bs4遍历文档树 bs4搜索文档树 css选择器内容详细 1.使用requests爬取梨视频 # 模拟发送http ...
Python3 多线程爬取梨视频
多线程爬取梨视频 from threading import Thread import requests import re # 访问链接 def access_page(url): respons ...
python爬虫实践——爬取“梨视频”
一.爬虫的基本过程: 1.发送请求(请求库:request,selenium) 2.获取响应数据()服务器返回 3.解析并提取数据(解析库:re,BeautifulSoup,Xpath) 4.保存数据 ...
Python爬取简书主页信息
主要学习如何通过抓包工具分析简书的Ajax加载,有时间再写一个Multithread proxy spider提升效率. 1. 关键点: 使用单线程爬取,未登录,爬取简书主页Ajax加载的内容.主要有 ...
requests爬取百度音乐
使用requests爬取百度音乐,我想把当前热门歌手的音乐信息爬下来. 首先进行url分析,可以看到: 歌手网页: 薛之谦网页: 可以看到,似乎这些路劲的获取一切都很顺利,然后可以写代码: # -*- ...
Requests爬取网页的编码问题
Requests爬取网页的编码问题 import requests from requests import exceptions def getHtml(): try: r=requests.get ...
py3+requests+re+urllib，爬取并下载不得姐视频
实现原理及思路请参考我的另外几篇爬虫实践博客 py3+urllib+bs4+反爬,20+行代码教你爬取豆瓣妹子图:http://www.cnblogs.com/UncleYong/p/6892688. ...
nodejs爬虫笔记(三)---爬取YouTube网站上的视频信息
思路:通过笔记(二)中代理的设置,已经可以对YouTube的信息进行爬取了,这几天想着爬取网站下的视频信息.通过分析YouTube,发现可以从订阅号入手,先选择几个订阅号,然后爬取订阅号里面的视频分类 ...
Python爬取知乎上搞笑视频，一顿爆笑送给大家
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:Huangwei AI 来源:Python与机器学习之路 PS:如有需 ...

随机推荐

Spring data jpa hibernate:查询异常java.sql.SQLException: Column '列名' not found
使用spring boot,jap,hibernate不小心的错误: java.sql.SQLException: Column '列名' not found: 这句话的意思是:找不到此列为什么会出 ...
python 自动登录网页
语言:python 浏览器:chrome 工具:chrome控制台 #!/usr/bin/python # coding: GBK import urllib,urllib2,httplib,cook ...
输出Excel文件
/** * * 功能描述: <br> * 〈功能详细描述〉输出excle * * @param titles 标题 * @param contents 内容 * @param fileNa ...
win10 + 独显 + Anaconda3 + tensorflow_gpu1.13 安装教程（跑bert模型）
这里面有很多坑,最大的坑是发现各方面都装好了结果报错 Loaded runtime CuDNN library: 7.3.1 but source was compiled with: 7.4.1, ...
『PyTorch』第十一弹_torch.optim优化器每层定制参数
一.简化前馈网络LeNet 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 im ...
SuperSocket进程级别隔离
在 SuperSocket 1.5 中, 我们增加了 AppDomain 级别隔离的功能,让你可以运行多个服务器实例在相互独立的 AppDomain 上. 此功能提供了较高级别的安全性和资源的隔离,并 ...
Educational Codeforces Round 10 A B题、
A. Gabriel and Caterpillar 题意: 就是说一个小孩子去观察毛毛虫从 h1的地方爬到h2的地方.毛毛虫从10点爬到22点.每小时爬的距离是a, 晚上22点到第二天早上10点 ...
如何用简单易懂的例子解释条件随机场（CRF）模型？它和HMM有什么区别？
https://www.zhihu.com/question/35866596/answer/418341940
springmvc web.xml和application.xml配置详情（附：完整版pom.xml）
web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns="htt ...
java 集合之HashMap的三种遍历
HashMap 是一个散列表,它存储的内容是键值对(key-value)映射. 这周我们只需记住三种遍历方法 1.通过keySet()获取键,再利用hashmap里面的.get(key)方法通过键获取 ...

requests爬取梨视频主页所有视频

requests爬取梨视频主页所有视频的更多相关文章

随机推荐

热门专题