python爬虫脚本下载YouTube视频

爬虫

python

YouTube视频

工作环境：

python 2.7.13
pip
lxml, 安装 pip install lxml,主要用xpath查找节点，可以使用re模块代替
pytube, 安装 pip install pytube
***工具

参考:

源码：

# coding: utf-8
__author__ = "zwzhou"
__date__ = "2017-03-19"
import urllib2
from pytube import YouTube
from pprint import pprint
from lxml import etree
import sys,getopt
def getHtml(url):
user_agent='Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.13 (KHTML, like Gecko) Chrome/24.0.1284.0 Safari/537.13'
headers={'User-Agent':user_agent}
request=urllib2.Request(url,headers=headers)
response=urllib2.urlopen(request)
html=response.read()
return html
def getUrl(html):
global savepath
global maxNumber
global timeThreshold
global cur_count
global videoLists
tree=etree.HTML(html)
urllist=tree.xpath(u'//div[@class="thumb-wrapper"]/a/@href')
#print urllist
urllist_time=tree.xpath(u'//div[@class="thumb-wrapper"]/a/span/span/text()')
baseurl=r'https://www.youtube.com'
for (item_name,item_length) in zip(urllist,urllist_time):
#print item_name
#print item_length
try:
yt = YouTube(baseurl+item_name)
except:
print "Some thing wrong about the authority"
print("video name:"+yt.filename)
print("video time:"+item_length)
if yt.filename in videoLists: # 文件已经存在
print "This video has been downloaded!"
else:
if checktime(item_length):
video = yt.filter('mp4')[-1]
print("Now is loading %s------------>"%yt.filename)
video.download(savepath)
print("--------------->%sVideo is loaded!"%yt.filename)
cur_count+=1
videoLists.append(yt.filename)
if cur_count >= maxNumber:# 达到要求
print('There are %d videos downloaded!This task is completed!'%maxNumber)
# TODO: if necessary, the videoLists can be logged
sys.exit()
else:
print 'This video is too long and it will not be downloaded, just be ignored!'
if urllist:
getUrl(baseurl+urllist[0]) #下一个页面
def checktime(timelength):
global timeThreshold
strs=timelength.split(':')
time =int(strs[0])*60+int(strs[1])
if time< timeThreshold:
return True
else:
return False
def usage():
print '''
usage: python dl_youtube [option] [arg]
options and args:
-s : download path
-t : time threshold of the video to be loaded, in seconds
-u : start url which to be crawled, it can be set more than one time
-n : when downloading is stop, i.e. how many videos will be downloaded, default is 10000.
-h : print this help message
'''
if __name__ == "__main__":
start_urls=['https://www.youtube.com/watch?v=TThzH_sJo6o']
videoLists=[] # 保存文件名，防止重复下载
# 初始值
savepath=r"D://MyDownloads"
maxNumber=10000
timeThreshold=240
cur_count=0
opts,args=getopt.getopt(sys.argv[1:],'hs:t:n:u:')
for op,value in opts:
if op == "-s": # 下载路径，如默认 D://MyDownloads
savepath=value
elif op == '-t': # 时常限制，默认240s
timeThreshold =int(value)
elif op == "-h": # help
usage()
sys.exit()
elif op == '-n':
maxNumber=int(value)
elif op == '-u': # 初始的搜索链接
start_urls.append(value)
for item in start_urls:
html = getHtml(item)
getUrl(html)

使用

python dl_youtube.py -n 10 -s D://MyDownloads -t 600 -u https://www.youtube.com/watch?v=TThzH_sJo6o

将从页面 https://www.youtube.com/watch?v=TThzH_sJo6o 开始搜索下载10段时长小于6分钟的video保存到D://MyDownloads文件夹中。

python爬虫脚本下载YouTube视频的更多相关文章

使用python+ffmpeg+youtube-dl下载youtube上的视频
一.准备工作 1.安装python,详见https://www.cnblogs.com/cnwuchao/p/10562416.html 2.安装ffmpeg,详见https://www.cnblog ...
python爬虫之下载文件的方式总结以及程序实例
python爬虫之下载文件的方式以及下载实例目录第一种方法:urlretrieve方法下载第二种方法:request download 第三种方法:视频文件.大型文件下载实战演示第一种方法: ...
Mac电脑如何快速下载YouTube视频
如果你想下载一些教育类的视频资源,或者是一些学习的教程,那么YouTube是一个很好的视频资源平台.YouTube上面各种各样的资源都有,而且质量都很有保证,尤其是那些订阅量很多的人.可惜的是,You ...
使用在线工具下载YouTube视频
YouTube上面有数不尽的视频资源,很多人都想从上面下载自己喜欢的视频,但是不得其法.那么,究竟怎样从YouTube上面下载视频呢?其实,一点也不难.只要你在Google上面搜索free youtu ...
安卓手机下载YouTube视频的3种方法
作为全球最大的在线视频网站,YouTube上面的内容可真是应有尽有啊,从教学视频到个人手工艺品制作流程,从各种搞笑视频到电视连续集等等,包罗万象.如果你想下载YouTube视频到电脑上面的话,网上有很 ...
Python:使用youtube-dl+ffmpeg+FQ软件下载youtube视频
声明:本文所述内容都是从http://blog.csdn.net/u011475134/article/details/71023612博文中学习而来. 背景: 一同学想通过FQ软件下载一些youtu ...
python下载youtube视频
谷歌开源了一个新的数据集,BoundingBox,(网址在这里)这个数据集是经过人工标注的视频数据集,自然想将它尽快地运用在实际之中,那么首先需要将其下载下来:可以看到网址上给出的是csv文件,该文件 ...
Python 爬虫——抖音App视频抓包
APP抓包前面我们了解了一些关于 Python 爬虫的知识,不过都是基于 PC 端浏览器网页中的内容进行爬取.现在手机 App 用的越来越多,而且很多也没有网页端,比如抖音就没有网页版,那么上面的视 ...
Python 爬虫批量下载美剧 from 人人影视 HR-HDTV
本人比較喜欢看美剧.尤其喜欢人人影视上HR-HDTV 的 1024 分辨率的高清双字美剧,这里写了一个脚本来批量获得指定美剧的全部 HR-HDTV 的 ed2k下载链接.并依照先后顺序写入到文本文件, ...

随机推荐

pta习题集 5-10 切分表达式——写个tokenizer吧
[先说点出题背景] 这个题是为低年级同学.学C语言的同学准备的,因为,对这部分同学,这个题目编写起来略有一点复杂.如果是高年级.学过了正则表达式(Regular Expression)的同学或者学过了 ...
Database Sharding, The “Shared-Nothing” Approach DATABASE SHARDING
w将单个服务器上的单个数据库打碎为多个服务器上的单个数据库 http://www.agildata.com/database-sharding/ Database Sharding provides ...
Redis主从切换
案例易车网:http://www.greatops.net/?id=232 redis主从切换:http://www.cnblogs.com/itdragon/p/7932178.htmlhttps ...
小米范工具系列之一：小米范 web查找器
最新版本1.5,下载地址:http://pan.baidu.com/s/1c1NDSVe 文件名web finder,请使用java1.8运行小米范 web查找器主要功能为快速端口扫描,并识别we ...
Day21 过滤器（Filter）
day21 过滤器(Filter) 过滤器概述 1 什么是过滤器过滤器JavaWeb三大组件之一,它与Servlet很相似!不它过滤器是用来拦截请求的,而不是处理请求的. 当用户请求某个 ...
matplotlib-折线图、散点图
(一)折线图小结 1.设置图片大小(想要一个高清无码大图) # 图大小 plt.figure(figsize=(20, 8), dpi=80) 2.保存到本地 # 设置图片大小 plt.figure( ...
android 异步线程刷新UI 以及 JSON解析以及 url get请求
import android.os.Handler; import android.os.Message; 1. Handler mHandler = new Handler() { @Overrid ...
ubuntu16.04 安装指定版本Node,升级npm到指定版本
一.安装配置Node 1.下载(64位系统) wget https://nodejs.org/download/release/v10.1.0/node-v10.1.0-linux-x64.tar.g ...
高性能Web服务器Nginx
高性能Web服务器Nginx介绍 Nginx是一款轻量级的Web 服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器,并在一个BSD-like 协议下发行.其特点是占有内存少,并发能力强 ...
HTML5开发——轻量级JSON存储解决方案Lawnchair.js
Lawnchair是一个轻量级的移动应用程序数据持久化存储方案,同时也是客户端JSON文档存储方法,优点是短小,语法简洁,扩展性比较好. 现在做HTML5移动应用除了LocalStorage的兼容性比 ...

python爬虫脚本下载YouTube视频

python爬虫脚本下载YouTube视频

工作环境：

参考:

源码：

使用

python爬虫脚本下载YouTube视频的更多相关文章

随机推荐

热门专题