(四)基于multiprocessing.dummy线程池爬取梨视频的视频信息

功能：爬取梨视频科技栏最热的几个视频。

1. 找到视频对应的通用标签

可以看出关于视频的信息都存放在li标签中

2. 拿到视频的名称以及对应的url

3.进入Video的url，找到视频信息的地址

你会发现没有这个视频的url，那么说明这个视频可能是动态加载出来的。

4. 打开抓包工具，找到视频对应的包，对其Response进行搜索。

通过搜索，我们发现了视频的url在script标签中，那么我们可以通过正则表达式来获取视频的url

5.思路：找到视频对应的详情页url,在详情页的数据中通过正则获取视频的url.

6.代码编写

import requests

from lxml import etree

import re

from multiprocessing.dummy import Pool

def get_video_data(video_data):

    """获取视频文件"""

    data = session.get(video_data['url'],headers=headers).content

    dic = {'name':video_data['name'],

           'data':data}

    return dic

def write(data):

    """持久化存储"""

    with open(data['name']+'.mp4','wb') as f:

        f.write(data['data'])

url = 'https://www.pearvideo.com/category_8'

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36',

    'Connection': 'close'

}

session = requests.session()

page_text = session.get(url=url, headers=headers).text

tree = etree.HTML(page_text)

li_list = tree.xpath("//ul[@id='listvideoListUl']/li")

video_urls = []

for li in li_list:

    src = 'https://www.pearvideo.com/' + li.xpath('./div/a/@href')[0]

    name = li.xpath('./div/a/div[2]/text()')[0]

    detail_text = session.get(url=src, headers=headers).text

    # print(tree_2.xpath('//*[@id= "JprismPlayer"]/video/@src')) 结果为空 说明数据是动态加载

    # 在Response中搜索mp4 得到视频对应的链接地址 在script语句中 因为用re

    # srcUrl="https://video.pearvideo.com/mp4/third/20200617/cont-1680618-10008579-104906-hd.mp4",vdoUrl=srcUrl

    ex = r'srcUrl="(.*?)",vdoUrl=srcUrl'

    video_src = re.findall(ex, detail_text)[0]
　　# 将视频数据存放在字典中

    dic = {

        'name': name,

        'url': video_src

    }

    video_urls.append(dic)

# 用于获取视频信息

pool = Pool(4)

ret = pool.map(get_video_data, video_urls)

# 用于持久化存储

pool_2 = Pool(4)

pool_2.map(write,ret)

# 关闭线程池

pool.close()

pool_2.close()

# 等待主进程结束

pool.join()

pool_2.join()

(四)基于multiprocessing.dummy线程池爬取梨视频的视频信息的更多相关文章

基于requests模块的cookie,session和线程池爬取
目录基于requests模块的cookie,session和线程池爬取基于requests模块的cookie操作基于requests模块的代理操作基于multiprocessing.dummy ...
Python+Requests+异步线程池爬取视频到本地
1.本次项目为获取梨视频中的视频,再使用异步线程池下载视频到本地 2.获取视频时,其地址中的Url是会动态变化,不播放时src值为图片的地址,播放时src值为mp4格式 3.查看视频链接是否存在aja ...
使用requests、BeautifulSoup、线程池爬取艺龙酒店信息并保存到Excel中
import requests import time, random, csv from fake_useragent import UserAgent from bs4 import Beauti ...
使用requests、re、BeautifulSoup、线程池爬取携程酒店信息并保存到Excel中
import requests import json import re import csv import threadpool import time, random from bs4 impo ...
Android 四种常见的线程池
引入线程池的好处 1)提升性能.创建和消耗对象费时费CPU资源 2)防止内存过度消耗.控制活动线程的数量,防止并发线程过多. 我们来看一下线程池的简单的构造 public ThreadPoolExec ...
进程池爬取并存入mongodb
设置进程池爬取拉钩网: # coding = utf- import json import pymongo import pandas as pd import requests from lxml ...
基于scrapy框架输入关键字爬取有关贴吧帖子
基于scrapy框架输入关键字爬取有关贴吧帖子站点分析首先进入一个贴吧,要想达到输入关键词爬取爬取指定贴吧,必然需要利用搜索引擎点进看到有四种搜索方式,分别试一次,观察url变化我们得知: 搜 ...
第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多 ...
基于webmagic的种子网站爬取
代码地址如下:http://www.demodashi.com/demo/12175.html 1. 概述因为无聊,闲来没事做,故突发奇想,爬个种子,顺便学习爬虫.本文将介绍使用Spring/Myb ...
基于CrawlSpider全栈数据爬取
CrawlSpider就是爬虫类Spider的一个子类使用流程创建一个基于CrawlSpider的一个爬虫文件 :scrapy genspider -t crawl spider_name www ...

随机推荐

PolarDB-X 全局二级索引
简介: 索引是数据库的基础组件,早在1970年代,SystemR 就已经通过增加索引来支持多维度查询.单机数据库中,索引主要按照用途和使用的数据结构分为 BTree 索引.Hash 索引.全文索引.空 ...
Serverless 工程实践 | 自建 Apache OpenWhisk 平台
简介: OpenWhisk 是一个开源.无服务器的云平台,可以在运行时容器中通过执行扩展的代码响应各种事件,而无须用户关心相关的基础设施架构. OpenWhisk 简介 OpenWhisk 是基于云 ...
[Py] Python json str 字符串转为对象 (字典)
import json json = '{"code": 0}' # Deserialize ``s`` (a ``str``, ``bytes`` or ``bytearray` ...
WPF 下拉框选项做鼠标 Hover 预览效果
本文来告诉大家如何在 WPF 中,在下拉框 ComboBox 里面,鼠标移动到 ComboBoxItem 上时,自动触发对应的事件,用来预览此选项值.例如我在实现一个颜色下拉框,此时我可以通过点击下 ...
Azure 无服务器 Function 函数计算服务 dotnet core 3.1 创建和部署入门
本文用的是世纪互联的 Azure.cn 版本,这个版本因为是在国内,所以网速会快超级超级多.使用世纪互联的版本需要一块钱哦,用一块钱就能进入一个月的免费试用.本文主要告诉小伙伴如何使用 Azu ...
001_Cadence软件的安装与介绍
001_Cadence软件的安装与介绍软件版本16.6,软件下载:搜索PCB联盟; 安装步骤: 1) 把5个分卷的压缩包解压到同一文件夹; 2) 双击Setup.exe开始安装,先安装Lic ...
vue项目（cli-3）替换浏览器logo
思路: 根html文件的 <link rel="icon" href="<%= BASE_URL %>favicon.ico">是引入i ...
vue-单独引入css文件，设置公共的css样式或者修改默认的vant，mint样式
1.css文件夹下新建global.css文件并粘贴复制: ======================= :root{ --bgColor : #d3252a; --pinkColo ...
fastposter v2.8.3 发布电商海报生成器
fastposter v2.8.3 发布电商海报生成器 fastposter海报生成器,电商海报编辑器,电商海报设计器,fast快速生成海报海报制作海报开发.贰维海报,图片海报,分享海报贰维码推 ...
three.js教程6-加载外部三维模型gltf
1.建模软件 3D美术常用的三维建模软件,比如Blender.3damx.C4D.maya等等 Blender(轻量.免费.开源) 3damx C4D maya 机械相关:SW.UG等建筑相关:草图 ...

(四)基于multiprocessing.dummy线程池爬取梨视频的视频信息

(四)基于multiprocessing.dummy线程池爬取梨视频的视频信息的更多相关文章

随机推荐

热门专题