Python爬虫：爬取美拍小姐姐视频

最近在写一个应用，需要收集微博上一些热门的视频，像这些小视频一般都来自秒拍，微拍，美拍和新浪视频，而且没有下载的选项，所以只能动脑想想办法了。

第一步

分析网页源码。例如：http://video.weibo.com/show?fid=1034:0988e59a12e5178acb7f23adc3fe5e97，右键查看源码，一般视频都是mp4后缀，搜索发现没有，但是有的直接就能看到了比如美拍的视频。

第二步

抓包，分析请求和返回。这个也可以通过强大的chrome实现，还是上面的例子，右键->审查元素->NetWork，然后F5刷新网页

发现有很多请求，只能一条一条的分析了，其实视频格式就是那几种mp4，flv，avi了，一下就能看到了，复制到浏览器中打开，果然就是我们想要的下载链接了。

第三步

分析下载链接和视频链接的规律。即http://video.weibo.com/show?fid=1034:0988e59a12e5178acb7f23adc3fe5e97与xxx.mp4的关系。这个又需要分析网页源码了，其实可以注意上面那个以.m3u8后缀的链接,m3u8记录了一个索引纯文本文件，打开它时播放软件并不是播放它，而是根据它的索引找到对应的音视频文件的网络地址进行在线播放,打开看，里面确实记录着我们想要的下载链接。而且.m3u8后缀的链接就在网页源码中。

总结

经过前三步的分析，获取视频下载链接的思路就是先从网页源码中获取.m3u8后缀的链接，下载该文件，从里面得到视频下载链接，最后下载视频就好了

源码

#sinavideo.py

#coding=utf-8

import os

import re

import urllib2

import urllib

from common import Common

class SinaVideo():

    URL_PIRFIX = "http://us.sinaimg.cn/"

    def getM3u8(self,html):

        reg = re.compile(r'list=([\s\S]*?)&fid')

        result = reg.findall(html)

        return result[0]

    def getName(self,url):

         return url.split('=')[1]

    def getSinavideoUrl(self,filepath):

        f = open(filepath,'r')

        lines = f.readlines()

        f.close()

        for line in lines:

            if line[0] !='#':

                return line

    def download(self,url,filepath):

        #获取名称

        name = self.getName(url)

        html = Common.getHtml(url)

        m3u8 = self.getM3u8(html)

        Common.download(urllib.unquote(m3u8),filepath,name + '.m3u8')

        url = self.URL_PIRFIX + self.getSinavideoUrl(filepath+name+'.m3u8')

        Common.download(url,filepath,name+'.mp4')

#common.py

#coding=utf-8

import urllib2

import os

import re

class Common():

    #  获取网页源码

    @staticmethod

    def getHtml(url):

        html = urllib2.urlopen(url).read()

        print  "[+]获取网页源码:"+url

        return html

    # 下载文件

    @staticmethod

    def download(url,filepath,filename):

        headers = {

            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

            'Accept-Charset': 'UTF-8,*;q=0.5',

            'Accept-Encoding': 'gzip,deflate,sdch',

            'Accept-Language': 'en-US,en;q=0.8',

            'User-Agent': 'Mozilla/5.0 (Linux; Android 4.4.2; Nexus 4 Build/KOT49H) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.114 Mobile Safari/537.36'

        }

        request = urllib2.Request(url,headers = headers);

        response = urllib2.urlopen(request)

        path = filepath + filename

        with open(path,'wb') as output:

            while True:

                buffer = response.read(1024*256);

                if not buffer:

                    break

                # received += len(buffer)

                output.write(buffer)

        print "[+]下载文件成功:"+path

    @staticmethod

    def isExist(filepath):

        return os.path.exists(filepath)

    @staticmethod

    def createDir(filepath):

         os.makedirs(filepath,0777)

调用方式：

 url = "http://video.weibo.com/show?fid=1034:0988e59a12e5178acb7f23adc3fe5e97"

sinavideo = SinaVideo()         sinavideo.download(url,""/Users/cheng/Documents/PyScript/res/"")

结果

Python爬虫：爬取美拍小姐姐视频的更多相关文章

python爬取快手小姐姐视频
流程分析一.导入需要的三方库 import re #正则表表达式文字匹配 import requests #指定url,获取网页数据 import json #转化json格式 import os ...
用python写一个爬虫——爬取性感小姐姐
忍着鼻血写代码今天写一个简单的网上爬虫,爬取一个叫妹子图的网站里面所有妹子的图片. 然后试着先爬取了三页,大概有七百多张图片吧!各个诱人的很,有兴趣的同学可以一起来爬一下,大佬级程序员勿喷,简单爬虫 ...
Python爬虫---爬取抖音短视频
目录前言抖音爬虫制作选定网页分析网页提取id构造网址拼接数据包链接获取视频地址下载视频全部代码实现结果待解决的问题前言最近一直想要写一个抖音爬虫来批量下载抖音的短视频,但是经 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...

随机推荐

Oracle 实例管理
理解初始化参数文件实例由内存中构建它的参数来定义.许多参数(但不是全部)可以在启动后更改.有些参数在启动时就固定了,只能在关闭实例并再次启动时更改. 静态和动态参数文件参数文件由两类:静态参数文件(也 ...
【最新最全】为 iOS 和 Android 的真机和模拟器编译 Luajit 库
编译 Luajit 库,的确是一个挑战.因为官网的教程,在当前版本的 Xcode 和 NDK 环境中,已经不适用了.以前只是编译了适用于真机的 Luajit 库.最近在尝试编译模拟器 Luajit 库 ...
执行 sql 报错未缓冲查询，错误码 2014
sql语句为 SELECT COUNT(id) AS tp_count FROM `tableName` WHERE `status` = 0 AND `source` = 1 AND ( `end_ ...
树莓3B+_apt-get update && apt-get upgrade
在Windows下安装软件,我们只需要有EXE文件,然后双击,下一步直接OK就可以了.但在LINUX下,不是这样的.每个LINUX的发行版,都会维护一个自己的软件仓库,我们常用的几乎所有软件都在这里面 ...
前端框架---jQuery---一分钟下载使用
这里通过自己手动的方式“做”一个jQuery来使用,需要5步 1. 访问 https://jquery.com 2. 点击download 3. 拉到最下方,点击 JQuery CDN 4. 得到所有 ...
20155213 实验三《敏捷开发与XP实践》实验报告
20155213 实验三<敏捷开发与XP实践>实验报告实验内容 XP基础 XP核心实践相关工具实验要求 1.没有Linux基础的同学建议先学习<Linux基础入门(新版)> ...
20155315 2016-2017-2 《Java程序设计》第二周学习总结
教材学习内容总结在教材中,有一句话叫做伪代码是最好的注释. 一开始我不理解什么是伪代码,但在参考了百度和C语言的学习过程后,我发现伪代码的作用就相当于是解决问题前期的流程图设计,伪代码设计好了之后 ...
20155334 实验二 Java面向对象程序设计
实验二 Java面向对象程序设计实验内容初步掌握单元测试和TDD 理解并掌握面向对象三要素:封装.继承.多态初步掌握UML建模熟悉S.O.L.I.D原则了解设计模式实验要求完成实验.撰写 ...
快读板子fread
struct ios { inline char read(){ <<|; static char buf[IN_LEN],*s,*t; ,IN_LEN,stdin)),s==t?-:*s ...
Drupal views 学习之初识
1. 简介用过Yii框架的同学,应该都会用到过GridView和ListView组件.可以很方便的用网格或列表展示内容. 例如淘宝: 网格显示列表显示 2. 使用view可以方便的配出类似上面的展 ...

Python爬虫：爬取美拍小姐姐视频

第一步

第二步

第三步

总结

源码

结果

Python爬虫：爬取美拍小姐姐视频的更多相关文章

随机推荐

热门专题