python爬虫脚本下载YouTube视频
python爬虫脚本下载YouTube视频
工作环境:
python 2.7.13
pip
lxml, 安装 pip install lxml,主要用xpath查找节点,可以使用re模块代替
pytube, 安装 pip install pytube
***工具
参考:
源码:
- # coding: utf-8
- __author__ = "zwzhou"
- __date__ = "2017-03-19"
- import urllib2
- from pytube import YouTube
- from pprint import pprint
- from lxml import etree
- import sys,getopt
- def getHtml(url):
- user_agent='Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.13 (KHTML, like Gecko) Chrome/24.0.1284.0 Safari/537.13'
- headers={'User-Agent':user_agent}
- request=urllib2.Request(url,headers=headers)
- response=urllib2.urlopen(request)
- html=response.read()
- return html
- def getUrl(html):
- global savepath
- global maxNumber
- global timeThreshold
- global cur_count
- global videoLists
- tree=etree.HTML(html)
- urllist=tree.xpath(u'//div[@class="thumb-wrapper"]/a/@href')
- #print urllist
- urllist_time=tree.xpath(u'//div[@class="thumb-wrapper"]/a/span/span/text()')
- baseurl=r'https://www.youtube.com'
- for (item_name,item_length) in zip(urllist,urllist_time):
- #print item_name
- #print item_length
- try:
- yt = YouTube(baseurl+item_name)
- except:
- print "Some thing wrong about the authority"
- print("video name:"+yt.filename)
- print("video time:"+item_length)
- if yt.filename in videoLists: # 文件已经存在
- print "This video has been downloaded!"
- else:
- if checktime(item_length):
- video = yt.filter('mp4')[-1]
- print("Now is loading %s------------>"%yt.filename)
- video.download(savepath)
- print("--------------->%sVideo is loaded!"%yt.filename)
- cur_count+=1
- videoLists.append(yt.filename)
- if cur_count >= maxNumber:# 达到要求
- print('There are %d videos downloaded!This task is completed!'%maxNumber)
- # TODO: if necessary, the videoLists can be logged
- sys.exit()
- else:
- print 'This video is too long and it will not be downloaded, just be ignored!'
- if urllist:
- getUrl(baseurl+urllist[0]) #下一个页面
- def checktime(timelength):
- global timeThreshold
- strs=timelength.split(':')
- time =int(strs[0])*60+int(strs[1])
- if time< timeThreshold:
- return True
- else:
- return False
- def usage():
- print '''
- usage: python dl_youtube [option] [arg]
- options and args:
- -s : download path
- -t : time threshold of the video to be loaded, in seconds
- -u : start url which to be crawled, it can be set more than one time
- -n : when downloading is stop, i.e. how many videos will be downloaded, default is 10000.
- -h : print this help message
- '''
- if __name__ == "__main__":
- start_urls=['https://www.youtube.com/watch?v=TThzH_sJo6o']
- videoLists=[] # 保存文件名,防止重复下载
- # 初始值
- savepath=r"D://MyDownloads"
- maxNumber=10000
- timeThreshold=240
- cur_count=0
- opts,args=getopt.getopt(sys.argv[1:],'hs:t:n:u:')
- for op,value in opts:
- if op == "-s": # 下载路径,如默认 D://MyDownloads
- savepath=value
- elif op == '-t': # 时常限制,默认240s
- timeThreshold =int(value)
- elif op == "-h": # help
- usage()
- sys.exit()
- elif op == '-n':
- maxNumber=int(value)
- elif op == '-u': # 初始的搜索链接
- start_urls.append(value)
- for item in start_urls:
- html = getHtml(item)
- getUrl(html)
使用
- python dl_youtube.py -n 10 -s D://MyDownloads -t 600 -u https://www.youtube.com/watch?v=TThzH_sJo6o
将从页面 https://www.youtube.com/watch?v=TThzH_sJo6o 开始搜索下载10段时长小于6分钟的video保存到D://MyDownloads文件夹中。
python爬虫脚本下载YouTube视频的更多相关文章
- 使用python+ffmpeg+youtube-dl下载youtube上的视频
一.准备工作 1.安装python,详见https://www.cnblogs.com/cnwuchao/p/10562416.html 2.安装ffmpeg,详见https://www.cnblog ...
- python爬虫之下载文件的方式总结以及程序实例
python爬虫之下载文件的方式以及下载实例 目录 第一种方法:urlretrieve方法下载 第二种方法:request download 第三种方法:视频文件.大型文件下载 实战演示 第一种方法: ...
- Mac电脑如何快速下载YouTube视频
如果你想下载一些教育类的视频资源,或者是一些学习的教程,那么YouTube是一个很好的视频资源平台.YouTube上面各种各样的资源都有,而且质量都很有保证,尤其是那些订阅量很多的人.可惜的是,You ...
- 使用在线工具下载YouTube视频
YouTube上面有数不尽的视频资源,很多人都想从上面下载自己喜欢的视频,但是不得其法.那么,究竟怎样从YouTube上面下载视频呢?其实,一点也不难.只要你在Google上面搜索free youtu ...
- 安卓手机下载YouTube视频的3种方法
作为全球最大的在线视频网站,YouTube上面的内容可真是应有尽有啊,从教学视频到个人手工艺品制作流程,从各种搞笑视频到电视连续集等等,包罗万象.如果你想下载YouTube视频到电脑上面的话,网上有很 ...
- Python:使用youtube-dl+ffmpeg+FQ软件下载youtube视频
声明:本文所述内容都是从http://blog.csdn.net/u011475134/article/details/71023612博文中学习而来. 背景: 一同学想通过FQ软件下载一些youtu ...
- python下载youtube视频
谷歌开源了一个新的数据集,BoundingBox,(网址在这里)这个数据集是经过人工标注的视频数据集,自然想将它尽快地运用在实际之中,那么首先需要将其下载下来:可以看到网址上给出的是csv文件,该文件 ...
- Python 爬虫——抖音App视频抓包
APP抓包 前面我们了解了一些关于 Python 爬虫的知识,不过都是基于 PC 端浏览器网页中的内容进行爬取.现在手机 App 用的越来越多,而且很多也没有网页端,比如抖音就没有网页版,那么上面的视 ...
- Python 爬虫批量下载美剧 from 人人影视 HR-HDTV
本人比較喜欢看美剧.尤其喜欢人人影视上HR-HDTV 的 1024 分辨率的高清双字美剧,这里写了一个脚本来批量获得指定美剧的全部 HR-HDTV 的 ed2k下载链接.并依照先后顺序写入到文本文件, ...
随机推荐
- python3.7.2 ssl版本过低导致pip无法使用的问题
环境:系统是centos6.6,python:python3.7.2 问题:安装好python3.pip后,在通过pip install xx 安装模块时,发现无法安装的问题,提示版本太低,系统默认的 ...
- rbac - 初识
一.rbac 权限组件 1 项目与应用 一个项目,可以有多个应用 一个应用,可以在多个项目下 前提:应用是组件!! 2 什么是权限? 一个包含正则表达式url就是一个权限 who what how - ...
- jQuery中通过$.browser来判断浏览器
一.使用方法 语法:$.browser.["浏览器关键字"] $(function() { if($.browser.msie) { alert("this is IE& ...
- 《Java程序猿面试笔试宝典》之Java程序初始化的顺序是如何的
在Java语言中.当实例化对象时.对象所在类的全部成员变量首先要进行初始化,仅仅有当全部类成员完毕初始化后,才会调用对象所在类的构造函数创建对象. Java程序的初始化一般遵循以下三个原则(以下 ...
- Spring源码解析(四)Bean的实例化和依赖注入
我们虽然获得了Bean的描述信息BeanDefinition,但是什么时候才会真正的实例化这些Bean呢.其实一共有两个触发点,但是最后实际上调用的是同一个方法. 第一个:在AbstractAppli ...
- gstreamer应用笔记
gstreamer官网 https://gstreamer.freedesktop.org/ 应用手册 https://gstreamer.freedesktop.org/documentation/ ...
- Django REST framework 之JWT认证
Json Web Token 1.JWT简介 JWT 是一个开放标准(RFC 7519),它定义了一种用于简洁,自包含的用于通信双方之间以 JSON 对象的形式安全传递信息的方法.JWT 可以使用 H ...
- gcc报错 can not be used when making a shared object; recompile with -fPIC
使用google protobuf时,出现错误 /usr/bin/ld: /usr/local/lib/libprotobuf.a(message_lite.o): relocation R_X86_ ...
- 5.8 Components — Composing Components(组合组件)
一.概述 当你通过和另外一个组件组合的时候,组件就会真正发挥它们的所有潜能.比如<ul>元素,只有<li>元素是适合作为它的子元素的.如果我们希望同样类型的行为,那么我们就必须 ...
- BackgroundWorker+ProgressBar+委托 实现多线程、进度条
上文在<C# 使用BackgroundWorker实现WinForm异步>介绍了如何通过BackgroundWorker实现winForm异步通信,下面介绍如何通过BackgroundWo ...