1.视频爬取

 1.下载视频的源码如下：

 import os

 import requests

 from bs4 import BeautifulSoup

 import threading

 from bj.models import Video

 # globals(repo_dir = './../tmp')

 repo_dir = './../tmp/video'

 # 定义请求数据的返回结果的函数

 def get_response(url):

     # 为了防止被网站禁止访问，携带浏览器参数，假装浏览器请求

     headers = {

         'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'

     }

     # 取出返回的数据

     response =requests.get(url=url,headers=headers).content

     return response

 # 解析网页数据获取视频描述和视频下载ｕｒｌ

 def get_content_video(html):

 # 通过ｂｓ４解析，用内置的解析器html.parser

     soup=BeautifulSoup(html,'html.parser')

     # 获取每个视频模块的信息

     cont=soup.select('.j-r-list-c')

     # 定义一个数组存放视频ｄｅｓｃ＋ｕｒｌ

     urlList=[]

     for item in cont:

         # 查找第一个a标签的内容，作为我们后面保存MP4的文件名

         name=item.find('a').text

         # 查找视频ｕｒｌ

         pmUrl=item.select('.j-video')[0].get('data-mp4')

         # 提取视频ｉｄ用于后期生成文件名

         video_id=item.select('.j-video')[0].get('data-id')

         #以元组的形式添加到数组

         urlList.append((name,pmUrl,video_id))

     return urlList

 # 使用ｔｈｒｅａｄｉｎｇ异步下载视频

 def download(urlList,page):

     #判断'./../tmp/vodeo'文件夹是否存在

     f_path=os.path.join(repo_dir,page)

     if not os._exists(f_path):

         print('路径不存在，马上创建!')

         os.makedirs(f_path)

     for item in urlList:

         #判断当前视频是否有ｕｒｌ

         if item[1] is None:

             continue

         # 创建视频的路径-->［－３：］截取文件名后缀

         f_path_video=os.path.join(f_path,'%s.%s'%(item[2],item[1][-3:]))

         #通过多线程的方式下载文件，增加下载速度

         thread=threading.Thread(target=save_video,args=(f_path_video,item[1]))

         #启动线程

         thread.start()

         #如果下载正常则将视频数据存入数据库中

         Video.objects.create(

             video_id=item[2],

             video_url=item[1],

             video_desc=item[0],

         )

 # 正式下载视频文件

 def save_video(f_path_video,video_url):

     response=get_response(video_url)#调用方法返回MP4文件的二进制流数据

     # 通过文件写入的方式保存成文件

     with open(f_path_video,'wb') as f:

         f.write(response)

 #主函数

 def main():

     for i in range(1,50):

         print("第" + i + "页")

         url = 'http://www.budejie.com/video/%s' % str(i)

         html = get_response(url)

         urlList=get_content_video(html)

         download(urlList,str(i))

 #

 # if __name__=="__main__":

 #     main()

 '''

     ** 由于我们这里仅用于测试，所以我们之抓取一页

     ** 链接最后的数字表示抓取的数据页码，由于首页的1可以不写，也可以写上

     ** 为了大家更好的理解多页的表示，这里我们仅抓取一页，并且链接后面写有页码1

 '''

 def test():

     url = 'http://www.budejie.com/video/1'

     html = get_response(url)

     urlList = get_content_video(html)

     download(urlList, str(1))

2. 切割视频 - 视频尾部多余部分的切割(这里需要安装ffmpeg很简单，问度娘)

 import os

 import subprocess

 import datetime

 def substring(date):

     r=date.decode()

     r=r.strip()

     rlist=r.split(":")

     result=(int(rlist[0])*60*60)+(int(rlist[1])*60)+(float(rlist[2]))

     return result

 def sub_video():

     # url="/home/facelive/Downloads/videos/"

     # url2="/home/facelive/Downloads/sub_videos/"

     # 硬盘路径(原视频存放路径)

     url="/media/facelive/Elements/videos/"

     # 切割后的视频存放路径

     url2="/media/facelive/Elements/sub_videos/"

     fileList= os.listdir(url)

     for file in fileList:

         #获取当前文件的视频长度

         strcmd=["ffmpeg -i "+url+file+" 2>&1 | grep 'Duration' | cut -d ' ' -f 4 | sed s/,//"]

         result=subprocess.run(args=strcmd,stdout=subprocess.PIPE,shell=True)

         date=result.stdout

         print(type(date))

         print(date)

         time=substring(date)

         end=time-4

         sub="ffmpeg -ss 0 -t "+str(end)+" -accurate_seek -i "+url+file+" -codec copy -avoid_negative_ts 1 "+url2+file+''

         videoresult=subprocess.run(args=sub,shell=True)

         print(time)

     print("视频截取完成！！")

 def test():

     url = "/home/facelive/Downloads/videos/"

     fileList = os.listdir(url)

     for file in fileList:

         print(file)

3. 视频加水印

 import os

 import subprocess

 import datetime

 def logo_video():

     # 硬盘路径

     url = "/media/facelive/Elements/videos/"

     url3="/media/facelive/Elements/logo_videos/"

     fileList = os.listdir(url)

     for file in fileList:

         sub = "ffmpeg -i "+url+file+" -i /home/facelive/Downloads/image/11.png -filter_complex overlay=W-w " + url3 + file + ''

         videoresult = subprocess.run(args=sub, shell=True)

     print("视频logo完成！！")

转载：https://blog.csdn.net/wsywb111/article/details/78855145

“

Python爬取百思不得姐的视频+视频的切割+给视频添加水印

”

20190728-Python爬取视频&切割视频&视频加水印的更多相关文章

Python 爬取单个网页所需要加载的地址和CSS、JS文件地址
Python 爬取单个网页所需要加载的URL地址和CSS.JS文件地址通过学习Python爬虫,知道根据正式表达式匹配查找到所需要的内容(标题.图片.文章等等).而我从测试的角度去使用Python爬 ...
教你用python爬取抖音app视频
记录一下如何用python爬取app数据,本文以爬取抖音视频app为例. 编程工具:pycharm app抓包工具:mitmproxy app自动化工具:appium 运行环境:windows10 思 ...
python爬取快手小姐姐视频
流程分析一.导入需要的三方库 import re #正则表表达式文字匹配 import requests #指定url,获取网页数据 import json #转化json格式 import os ...
python爬取豆瓣小组700+话题加回复啦啦啦python open file with a variable name
需求:爬取豆瓣小组所有话题(话题title,内容,作者,发布时间),及回复(最佳回复,普通回复,回复_回复,翻页回复,0回复) 解决:1. 先爬取小组下,所有的主题链接,通过定位nextpage翻页获 ...
python爬取b站排行榜视频信息
和上一篇相比,差别不是很大 import xlrd#读取excel import xlwt#写入excel import requests import linecache import wordcl ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
没有内涵段子可以刷了，利用Python爬取段友之家贴吧图片和小视频(含源码)
由于最新的视频整顿风波,内涵段子APP被迫关闭,广大段友无家可归,但是最近发现了一个"段友"的app,版本更新也挺快,正在号召广大段友回家,如下图,有兴趣的可以下载看看(ps:我不 ...
Python爬取视频指南
摘自:https://www.jianshu.com/p/9ca86becd86d 前言前两天尔羽说让我爬一下菜鸟窝的教程视频,这次就跟大家来说说Python爬取视频的经验正文 https://w ...
用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕！
众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列.通过分析弹幕,我们可以快速洞察广大观众对于视频 ...
【Python爬虫案例】用Python爬取李子柒B站视频数据
一.视频数据结果今天是2021.12.7号,前几天用python爬取了李子柒的油管评论并做了数据分析,可移步至: https://www.cnblogs.com/mashukui/p/1622025 ...

随机推荐

linux java -jar
常见命令1 nohup java -jar /xxx/xxx/xxx.jar >/dev/>& & 分析各个指令代表什么意思: >,重写文件,如果文件里面有内容会覆盖 ...
[BJOI2019]送别——非旋转treap
题目链接: [BJOI2019]送别我们将每段墙的每一面看成一个点,将每个点与相邻的点(即按题中规则前进或后退一步能走到的点)连接.那么图中所有点就形成了若干个环,而添加一段墙或删除一段墙就是把两个 ...
Android 之Activity启动模式(二)之 Intent的Flag属性
首页博客链接关于我留言板前面介绍了通过launchMode设置Activity的启动模式.本章接着介绍Activity的启动模式相关内容,讲解的内容是Intent与启动模式相关的Flag,以及and ...
安装curl依赖库后yum不能使用问题解决
安装curl 1) 进入/home目录下,解压curl-7.54.0.tar.gz [root@localhost home]# tar zxvf curl-7.54.0.tar.gz 2) 依次 ...
html中如何获取元素在文档中的位置
html中如何获取元素在文档中的位置一.总结一句话总结: $("#elem").offset().top $("#elem").offset().left ...
vue devtools无法使用
vue devtools无法使用一.总结一句话总结: 没显示vue devtools调试工具的原因是用了生产环境的版本或是压缩的vue版本,或是没有勾选:允许访问文件网址二.vue调试工具Dev ...
nginx 记录
正则 ~ 区分大小写匹配 ~* 不区分大小写匹配 !~和!~*分别为区分大小写不匹配及不区分大小写不匹配 ^ 以什么开头的匹配 $ 以什么结尾的匹配转义字符\ 可以转. * ?等 * 代表任意字符 ...
P1944 最长括号匹配_NOI导刊2009提高（1）
P1944 最长括号匹配_NOI导刊2009提高题解宁愿相信世上有鬼,也不能随便相信某谷题目标签我想了半天然后看了眼题解,发现用栈来模拟就好了栈来模拟,还要用到一个bool数组,标记是否已经匹 ...
漫谈Objective-C在语法上的改进
Objective-C 2.0从2006年正式发布至今已经有10年了.Apple在此期间也不断地为其注入新的语法特性,比如Blocks.NSNumber literal.NSArray literal ...
阶段5 3.微服务项目【学成在线】_day05 消息中间件RabbitMQ_10.RabbitMQ研究-工作模式-路由工作模式介绍
队列在绑定交换机的时候可以指定routingKey, 路由模式: 1.每个消费者监听自己的队列,并且设置routingkey. 2.生产者将消息发给交换机,由交换机根据routingkey来转发消息到 ...

20190728-Python爬取视频&切割视频&视频加水印

Python爬取百思不得姐的视频+视频的切割+给视频添加水印

20190728-Python爬取视频&切割视频&视频加水印的更多相关文章

随机推荐

热门专题