2019-02-09 python爬取mooc视频项目初级简单版

今天花了一下午时间来做这东西，之前没有自己写过代码，50几行的代码还是查了很多东西啊，果然学起来和自己动起手来完全是两码事。

方案：requests库+正则表达式提取视频下载链接+urlretrieve下载到本地

import requests

from urllib.request import urlretrieve

import re

def geturl(url):

    requ = requests.get(url,headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.96 Safari/537.36'})

    req = requ.text

    regexname = re.compile(r'_shd\.mp4\?(.*?)</a>')

    regexgetname=re.compile(r'cb550>(.*)')

    regexmp4 = re.compile(r'href=(.*_shd?.mp4)')

    prename = regexname.findall(req)

    name=[]

    list=[]

    for i in prename:

        name += regexgetname.findall(i)

    load = regexmp4.findall(req)

    for i in range(len(name)):

        list +=(name[i],load[i])

    print(list)

    return list

def download(list):

    filename= r'C:\Users\47461\Desktop\DownloadVedio\\'

    for i in range(0,len(list),2):

        name=list[i]

        url=list[i+1]

        local = filename+name+'.mp4'

        try:

            print("\""+name+"\""+"已经开始下载")

            urlretrieve(url,local,reporthook=callback)

            print("\""+name+"\""+"已经下载完成")

        except:

            pass

def callback(count,blockSize,totalSize):  #下载进度回调函数，count表示已下载的个数，blocksize为已经下载的大小，totalsize为总大小

    if not count:

        print("开始下载")

    if totalSize<0:

        print("要下载的文件大小为0")

    else:

        per = 100*count*blockSize/totalSize

        if per>100:

            per=100

        print("-----当前已下载："+'%.2f%%' % per + "-----")

        if per==100:

            return True

list = geturl(r'http://www.feemic.cn/mooc/icourse163/1002161029?type=hot')

if list:

    print("开始下载")

    download(list)

    print("下载完成")

主要正则表达式不是特别熟练花了点时间

之后可以改成多线程？反正还可以从很多地方改进啊。

2019-02-09 python爬取mooc视频项目初级简单版的更多相关文章

python爬取豆瓣视频信息代码
目录一:代码二:结果如下(部分例子) 这里是爬取豆瓣视频信息,用pyquery库(jquery的python库). 一:代码 from urllib.request import quote ...
python爬取快手视频多线程下载
就是为了兴趣才搞的这个,ok 废话不多说直接开始. 环境: python 2.7 + win10 工具:fiddler postman 安卓模拟器首先,打开fiddler,fiddler作为htt ...
python 爬取bilibili 视频弹幕
# -*- coding: utf-8 -*- # @author: Tele # @Time : 2019/04/09 下午 4:50 # 爬取弹幕 import requests import j ...
python爬取百思不得姐视频
# _*_ coding:utf-8 _*_ from Tkinter import * from ScrolledText import ScrolledText import urllib #im ...
python 爬取bilibili 视频信息
抓包时发现子菜单请求数据时一般需要rid,但的确存在一些如游戏->游戏赛事不使用rid,对于这种未进行处理,此外rid一般在主菜单的响应中,但有的如番剧这种,rid在子菜单的url中,此外返回的 ...
python爬取youtube视频多线程非中文自动翻译
声明:我写的所有文章都是发在博客园的,我看到其他复制粘贴过去的连个出处也不写,直接打上自己的水印...真是没的说了. 前言:前段时间搞了一些爬视频的项目,代码都写好了,这里写文章那就在来重新分析一遍 ...
python爬取网站视频保存到本地
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Woo_home PS:如有需要Python学习资料的小伙伴可以加点 ...
python 爬取头条视频
知识点总结 1. 利用webdriver 模拟浏览器访问 from selenium import webdriver 2.import requests 3. from bs4 import Bea ...
2019.02.09 bzoj2560: 串珠子（状压dp+简单容斥）
传送门题意简述:nnn个点的带边权无向图,定义一个图的权值是所有边的积,问所有nnn个点都连通的子图的权值之和. 思路: fif_ifi表示保证集合iii中所有点都连通其余点随意的方案数. gig ...

随机推荐

Alink漫谈(四) : 模型的来龙去脉
Alink漫谈(四) : 模型的来龙去脉目录 Alink漫谈(四) : 模型的来龙去脉 0x00 摘要 0x01 模型 1.1 模型包含内容 1.2 Alink的模型文件 0x02 流程图 0x03 ...
Educational Codeforces Round 56 (Rated for Div. 2) F. Vasya and Array
题意:长度为n的数组,数组中的每个元素的取值在1-k的范围内或者是-1,-1代表这个元素要自己选择一个1-k的数字去填写,然后要求填完的数组中不能出现连续长度大于len的情况,询问填空的方案数. 题解 ...
ImportError: /lib64/libstdc++.so.6: version `CXXABI_1.3.9' not found
问题背景描述: 在做图片验证码识别安装 tensorflow 启动程序报错: ImportError: /lib64/libstdc++.so.6: version `CXXABI_1.3.9' no ...
SQL——SQL约束
SQL约束 - 用于限制加入表的数据的类型可以在创建表时规定约束(通过 CREATE TABLE 语句),或者在表创建之后也可以(通过 ALTER TABLE 语句). NOT NULL ...
剑指Offer之变态跳台阶
题目描述一只青蛙一次可以跳上1级台阶,也可以跳上2级……它也可以跳上n级.求该青蛙跳上一个n级的台阶总共有多少种跳法. 思路:由于青蛙每次可以跳上1级台阶,也可以跳上2级……它也可以跳上n级,故除了 ...
服务器开发 Ubuntu
一.Ubuntu安装: 为什么用Ubuntu,作为服务器初学者开发,如果真的要买苹果系统电脑性价比不高,所以在window系统中安装Linux虚拟机是不二之选.为什么用Ubuntu不多说了,开始安装吧 ...
PAT1065 单身狗 (25分) 思路记录——参考大神柳婼
1065 单身狗 (25分) “单身狗”是中文对于单身人士的一种爱称.本题请你从上万人的大型派对中找出落单的客人,以便给予特殊关爱. 输入格式: 输入第一行给出一个正整数 N(≤ 50 000), ...
【朝夕技术专刊】RabbitMQ路由解析（上篇）
欢迎大家阅读<朝夕Net社区技术专刊> 我们致力于.NetCore的推广和落地,为更好的帮助大家学习,方便分享干货,特创此刊!很高兴你能成为忠实读者,文末福利不要错过哦! 上篇文章介绍了如 ...
Java实现 LeetCode 747 至少是其他数字两倍的最大数（暴力）
747. 至少是其他数字两倍的最大数在一个给定的数组nums中,总是存在一个最大元素 . 查找数组中的最大元素是否至少是数组中每个其他数字的两倍. 如果是,则返回最大元素的索引,否则返回-1. 示例 ...
Java实现 LeetCode 674 最长连续递增序列（暴力）
674. 最长连续递增序列给定一个未经排序的整数数组,找到最长且连续的的递增序列. 示例 1: 输入: [1,3,5,4,7] 输出: 3 解释: 最长连续递增序列是 [1,3,5], 长度为3. ...

2019-02-09 python爬取mooc视频项目初级简单版

2019-02-09 python爬取mooc视频项目初级简单版的更多相关文章

随机推荐

热门专题