python爬虫脚本下载YouTube视频

爬虫
python
YouTube视频

工作环境:

  • python 2.7.13

  • pip

  • lxml, 安装 pip install lxml,主要用xpath查找节点,可以使用re模块代替

  • pytube, 安装 pip install pytube

  • ***工具

参考:

源码:

  1. # coding: utf-8 

  2. __author__ = "zwzhou" 

  3. __date__ = "2017-03-19" 


  4. import urllib2 

  5. from pytube import YouTube 

  6. from pprint import pprint 

  7. from lxml import etree 

  8. import sys,getopt 


  9. def getHtml(url): 

  10. user_agent='Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.13 (KHTML, like Gecko) Chrome/24.0.1284.0 Safari/537.13' 

  11. headers={'User-Agent':user_agent} 

  12. request=urllib2.Request(url,headers=headers) 

  13. response=urllib2.urlopen(request) 

  14. html=response.read() 

  15. return html 


  16. def getUrl(html): 

  17. global savepath 

  18. global maxNumber 

  19. global timeThreshold 

  20. global cur_count 

  21. global videoLists 

  22. tree=etree.HTML(html) 

  23. urllist=tree.xpath(u'//div[@class="thumb-wrapper"]/a/@href') 

  24. #print urllist 

  25. urllist_time=tree.xpath(u'//div[@class="thumb-wrapper"]/a/span/span/text()') 


  26. baseurl=r'https://www.youtube.com' 

  27. for (item_name,item_length) in zip(urllist,urllist_time): 

  28. #print item_name 

  29. #print item_length 

  30. try: 

  31. yt = YouTube(baseurl+item_name) 

  32. except: 

  33. print "Some thing wrong about the authority" 


  34. print("video name:"+yt.filename) 

  35. print("video time:"+item_length) 

  36. if yt.filename in videoLists: # 文件已经存在 

  37. print "This video has been downloaded!" 

  38. else: 

  39. if checktime(item_length): 

  40. video = yt.filter('mp4')[-1] 

  41. print("Now is loading %s------------>"%yt.filename) 

  42. video.download(savepath) 

  43. print("--------------->%sVideo is loaded!"%yt.filename) 

  44. cur_count+=1 

  45. videoLists.append(yt.filename) 

  46. if cur_count >= maxNumber:# 达到要求 

  47. print('There are %d videos downloaded!This task is completed!'%maxNumber) 

  48. # TODO: if necessary, the videoLists can be logged 

  49. sys.exit()  

  50. else: 

  51. print 'This video is too long and it will not be downloaded, just be ignored!' 

  52. if urllist: 

  53. getUrl(baseurl+urllist[0]) #下一个页面 



  54. def checktime(timelength): 

  55. global timeThreshold 

  56. strs=timelength.split(':') 

  57. time =int(strs[0])*60+int(strs[1]) 

  58. if time< timeThreshold: 

  59. return True 

  60. else: 

  61. return False 


  62. def usage(): 

  63. print ''' 

  64. usage: python dl_youtube [option] [arg] 

  65. options and args: 

  66. -s : download path 

  67. -t : time threshold of the video to be loaded, in seconds 

  68. -u : start url which to be crawled, it can be set more than one time 

  69. -n : when downloading is stop, i.e. how many videos will be downloaded, default is 10000. 

  70. -h : print this help message 

  71. ''' 


  72. if __name__ == "__main__": 

  73. start_urls=['https://www.youtube.com/watch?v=TThzH_sJo6o'] 

  74. videoLists=[] # 保存文件名,防止重复下载 

  75. # 初始值 

  76. savepath=r"D://MyDownloads" 

  77. maxNumber=10000 

  78. timeThreshold=240 

  79. cur_count=0 


  80. opts,args=getopt.getopt(sys.argv[1:],'hs:t:n:u:') 

  81. for op,value in opts: 

  82. if op == "-s": # 下载路径,如默认 D://MyDownloads 

  83. savepath=value 

  84. elif op == '-t': # 时常限制,默认240s 

  85. timeThreshold =int(value) 

  86. elif op == "-h": # help 

  87. usage() 

  88. sys.exit() 

  89. elif op == '-n': 

  90. maxNumber=int(value) 

  91. elif op == '-u': # 初始的搜索链接 

  92. start_urls.append(value) 


  93. for item in start_urls: 

  94. html = getHtml(item) 

  95. getUrl(html) 


使用

  1. python dl_youtube.py -n 10 -s D://MyDownloads -t 600 -u https://www.youtube.com/watch?v=TThzH_sJo6o 

将从页面 https://www.youtube.com/watch?v=TThzH_sJo6o 开始搜索下载10段时长小于6分钟的video保存到D://MyDownloads文件夹中。

python爬虫脚本下载YouTube视频的更多相关文章

  1. 使用python+ffmpeg+youtube-dl下载youtube上的视频

    一.准备工作 1.安装python,详见https://www.cnblogs.com/cnwuchao/p/10562416.html 2.安装ffmpeg,详见https://www.cnblog ...

  2. python爬虫之下载文件的方式总结以及程序实例

    python爬虫之下载文件的方式以及下载实例 目录 第一种方法:urlretrieve方法下载 第二种方法:request download 第三种方法:视频文件.大型文件下载 实战演示 第一种方法: ...

  3. Mac电脑如何快速下载YouTube视频

    如果你想下载一些教育类的视频资源,或者是一些学习的教程,那么YouTube是一个很好的视频资源平台.YouTube上面各种各样的资源都有,而且质量都很有保证,尤其是那些订阅量很多的人.可惜的是,You ...

  4. 使用在线工具下载YouTube视频

    YouTube上面有数不尽的视频资源,很多人都想从上面下载自己喜欢的视频,但是不得其法.那么,究竟怎样从YouTube上面下载视频呢?其实,一点也不难.只要你在Google上面搜索free youtu ...

  5. 安卓手机下载YouTube视频的3种方法

    作为全球最大的在线视频网站,YouTube上面的内容可真是应有尽有啊,从教学视频到个人手工艺品制作流程,从各种搞笑视频到电视连续集等等,包罗万象.如果你想下载YouTube视频到电脑上面的话,网上有很 ...

  6. Python:使用youtube-dl+ffmpeg+FQ软件下载youtube视频

    声明:本文所述内容都是从http://blog.csdn.net/u011475134/article/details/71023612博文中学习而来. 背景: 一同学想通过FQ软件下载一些youtu ...

  7. python下载youtube视频

    谷歌开源了一个新的数据集,BoundingBox,(网址在这里)这个数据集是经过人工标注的视频数据集,自然想将它尽快地运用在实际之中,那么首先需要将其下载下来:可以看到网址上给出的是csv文件,该文件 ...

  8. Python 爬虫——抖音App视频抓包

    APP抓包 前面我们了解了一些关于 Python 爬虫的知识,不过都是基于 PC 端浏览器网页中的内容进行爬取.现在手机 App 用的越来越多,而且很多也没有网页端,比如抖音就没有网页版,那么上面的视 ...

  9. Python 爬虫批量下载美剧 from 人人影视 HR-HDTV

    本人比較喜欢看美剧.尤其喜欢人人影视上HR-HDTV 的 1024 分辨率的高清双字美剧,这里写了一个脚本来批量获得指定美剧的全部 HR-HDTV 的 ed2k下载链接.并依照先后顺序写入到文本文件, ...

随机推荐

  1. MP3 ID3信息编辑器(附源码)

    练习WPF时写的编辑MP3 ID3信息的小工具,方便对歌曲的统一管理,同时增加了调用豆瓣音乐API获取专辑信息的功能:1.主界面: 2.没有ID3 信息的MP3歌曲: 3.点击自动获取,从豆瓣音乐获取 ...

  2. SaltStack配置管理-jinja模板

    上一篇:SaltStack配置管理-状态间关系 需求:需要apache配置文件里面监听的端口是每个minion本地的地址 saltstack默认的模板是jinjia模板 参考文档:http://doc ...

  3. codeforces#510 Div2

    pre过了三题 后来A题被hack了 B题终测挂了 两题其实都是有一个小细节没有处理好 中间C还因为cinT了一次 唉本来打的还不错的 还是太菜了 继续加油吧 A-Benches 有n张椅子 原来第i ...

  4. Oracle安装部署之RAC安装环境配置脚本

    #!/bin/bash#Usage:Log on as the superuser('root'),and then execute the command:#./1preusers.sh group ...

  5. nodejs学习笔记Node.js 调试命令

    3.4  调试        47  下面是一个简单的例子: $ node debug debug.js < debugger listening on port 5858 connecting ...

  6. What Powers Instagram: Hundreds of Instances, Dozens of Technologies(译文,转)

    add by zhj: 对译文略有修改.原文发表时,Instagram还没被Facebook收购,读完只感觉Instagram这三个后台工程师真牛逼. 三个人就可以搞定1400万注册用户.不过,另一方 ...

  7. format的用法:python

    https://www.cnblogs.com/wongbingming/p/6848701.html 它通过{}和:来代替%.通过位置 In [1]: '{0},{1}'.format('kzc', ...

  8. Mirror--镜像断开的解决办法

    如果镜像在搭建一段时候后出现问题,可能存在以下原因: 1. 因为主库或镜像库存在内存压力,导致无法完成镜像日志传送和重做 解决办法:设置数据库最小内存,保证数据库有足够内存完成镜像操作 2. 因为主库 ...

  9. POJ2992:Divisors(求N!因子的个数,乘性函数,分解n!的质因子(算是找规律))

    题目链接:http://poj.org/problem?id=2992 题目要求:Your task in this problem is to determine the number of div ...

  10. Selenium IDE脚本录制步骤简介

    录制脚本步骤: 1.打开Selenium IDE,输入需要录制脚本的地址,然后启动Firefox,输入selenium IDE需录制的地址,根据实际需求,做相关操作: 2.录制过程中,会发现做的相关操 ...