py3+requests+re+urllib，爬取并下载不得姐视频

实现原理及思路请参考我的另外几篇爬虫实践博客

py3+urllib+bs4+反爬，20+行代码教你爬取豆瓣妹子图：http://www.cnblogs.com/UncleYong/p/6892688.html
py3+requests+json+xlwt，爬取拉勾招聘信息：http://www.cnblogs.com/UncleYong/p/6960044.html
py3+urllib+re，轻轻松松爬取双色球最近100期中奖号码：http://www.cnblogs.com/UncleYong/p/6958242.html

实现代码如下：

import urllib.request, re, requests

url_name = []

def get():

    hd = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}

    url = 'http://www.budejie.com/video/'

    html = requests.get(url, headers=hd).text

    # print(html)

    url_content = re.compile(r'(<div class="j-r-list-c">.*?</div>.*?</div>)',re.S)

    url_contents = re.findall(url_content,html)

    # print(url_contents)

    for i in url_contents: # 大盒子里面的html

        url_reg = r'data-mp4="(.*?)"'

        url_item = re.findall(url_reg,i)

        # print(type(url_items)) # <class 'list'>

        # print(url_item)

        if url_item:

            name_reg = re.compile(r'<a href="/detail-.{8}?.html">(.*?)</a>',re.S) # .{8}?匹配8位数字

            name_item = re.findall(name_reg,i) # findall返回的是一个列表

            # print(type(name_items)) # <class 'list'>

            # print(name_items)

            for i,k in zip(name_item,url_item):

                url_name.append([i,k]) # 将列表添加到列表中，其实，也可以将元组存入列表，url_name.append((i,k))

                # print(url_name)

                # print(i,k)

    for i in url_name:

        print('正在下载>>>>>  '+i[0]+':'+i[1])

        # 每个元素的i[0]是名称，i[1]是视频url

        urllib.request.urlretrieve(i[1],'video/%s.mp4'%(i[0])) # video\\%s

if __name__ == '__main__':

    get()

py3+requests+re+urllib，爬取并下载不得姐视频的更多相关文章

Python使用urllib,urllib3,requests库+beautifulsoup爬取网页
Python使用urllib/urllib3/requests库+beautifulsoup爬取网页 urllib urllib3 requests 笔者在爬取时遇到的问题 1.结果不全 2.'抓取失 ...
爬虫系列(十) 用requests和xpath爬取豆瓣电影
这篇文章我们将使用 requests 和 xpath 爬取豆瓣电影 Top250,下面先贴上最终的效果图: 1.网页分析 (1)分析 URL 规律我们首先使用 Chrome 浏览器打开豆瓣电影 T ...
爬虫系列(十一) 用requests和xpath爬取豆瓣电影评论
这篇文章,我们继续利用 requests 和 xpath 爬取豆瓣电影的短评,下面还是先贴上效果图: 1.网页分析 (1)翻页我们还是使用 Chrome 浏览器打开豆瓣电影中某一部电影的评论进行分析 ...
requests+xpath+map爬取百度贴吧
# requests+xpath+map爬取百度贴吧 # 目标内容:跟帖用户名,跟帖内容,跟帖时间 # 分解: # requests获取网页 # xpath提取内容 # map实现多线程爬虫 impo ...
Java爬取并下载酷狗音乐
本文方法及代码仅供学习,仅供学习. 案例: 下载酷狗TOP500歌曲,代码用到的代码库包含:Jsoup.HttpClient.fastJson等. 正文: 1.分析是否可以获取到TOP500歌单打开 ...
整理requests和正则表达式爬取猫眼Top100中遇到的问题及解决方案
最近看崔庆才老师的爬虫课程,第一个实战课程是requests和正则表达式爬取猫眼电影Top100榜单.虽然理解崔老师每一步代码的实现过程,但自己敲代码的时候还是遇到了不少问题: 问题1:获取respo ...
在python3下使用requests,xpath，urllib爬取不得姐网站相关视频爬虫源代码
#coding=utf-8 from lxml import etreeimport requestsimport urllibimport os # 获取url的html等内容def getHtml ...
使用webdriver+urllib爬取网页数据(模拟登陆，过验证码)
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...
Requests+BeautifulSoup+正则表达式爬取猫眼电影Top100（名称，演员，评分，封面，上映时间，简介）
# encoding:utf-8 from requests.exceptions import RequestException import requests import re import j ...

随机推荐

BJOI2018简要题解
BJOI2018简要题解 D1T1 二进制题意 pupil 发现对于一个十进制数,无论怎么将其的数字重新排列,均不影响其是不是 \(3\) 的倍数.他想研究对于二进制,是否也有类似的性质. 于是他生 ...
TensorFlow入门（五）多层 LSTM 通俗易懂版
欢迎转载,但请务必注明原文出处及作者信息. @author: huangyongye @creat_date: 2017-03-09 前言: 根据我本人学习 TensorFlow 实现 LSTM 的经 ...
vue 中使用 async/await 将 axios 异步请求同步化处理
1. axios 常规用法: export default { name: 'Historys', data() { return { totalData: 0, tableData: [] } }, ...
java中字符串的排序（1）
按照前段时间在快速.冒泡等排序的评论中提到是否可以进行字符串的排序,由于最近有考试,时间比较紧,所以今天才实现此功能.此功能是针对一串字符川进行的实现,运行后的结果如下所示: 具体的程序相对较为简单, ...
《面向对象程序设计》c++第五次作业___calculator plus plus
c++第五次作业 Calculator plusplus 代码传送门 PS:这次作业仍然orz感谢一位同学与一位学长的windows帮助,同时再次吐槽作业对Mac系统用户的不友好.(没朋友千万别用Ma ...
第三个spring冲刺第4天
今天,我们在难度选择方面做了谈论,根据难度选择题目的难易和数量,在计时器方面应该有相应的配合,由此决定难易度,因此,我们要做好谈论,为这个难易度做好准备去编译,以免出现混乱.
Android动画总结
本文总结常用属性方法等,详细学习可使用如下郭霖大神文章: Android属性动画完全解析(上),初识属性动画的基本用法 Android属性动画完全解析(中),ValueAnimator和ObjectA ...
PAT 1004 成绩排名
https://pintia.cn/problem-sets/994805260223102976/problems/994805321640296448 读入n名学生的姓名.学号.成绩,分别输出成绩 ...
Typecho博客迁移
在新的机器上先搭建好一个新的Typecho博客,数据库名称和原博客相同(可以省不少事). 备份原来博客的usr目录. 备份mysql数据库,命令: mysqldump -uroot -p --all- ...
PHP + JS 实现大文件分割上传
服务器上传文件会有一定的限制.避免内存消耗过大影响性能,在 php.ini 配置文件中,有几个影响参数: upload_max_filesize = 2M //PHP最大能接受的文件大小 post_m ...

py3+requests+re+urllib，爬取并下载不得姐视频

py3+requests+re+urllib，爬取并下载不得姐视频的更多相关文章

随机推荐

热门专题