基于selenium微博个人主页视频下载

# -*- coding: utf-8 -*-

import selenium

from selenium import webdriver

import time

import urllib.request

from selenium.webdriver.support.wait import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.common.by import By

import re

class WeiBoVdeioDown(object):

    def __init__(self, url, fileName):

        # 设置下载某一个人相册中的视频地址

        self.url = url

        # 设置下载文件本地地址

        self.fileName = fileName

    def __get_fileName_and_down_url(self):

        """

        获得下载视频名称与视频地址

        :return:

        """

        self.driver = webdriver.Firefox()

        self.driver.get(self.url)

        WebDriverWait(self.driver, 200, 0.5).until(

            EC.presence_of_element_located((By.CLASS_NAME, 'photo_module')))

        # 指定像素  var c = document.getElementsByClassName('WB_frame')[0].scrollHeight=1000

        # js_code = "document.getElementsByClassName('WB_frame')[0].scrollHeight=8000"

        # self.driver.execute_script(js_code)

        # print("拖动滑动条到底部...")

        # time.sleep(60)

        self.li = self.driver.find_elements_by_class_name('photo_module')

        # 遍历li得到视频说明与视频连接,并保存

        video_inf = {}

        # 得到第一个窗口的句柄值

        self.fu_handle = self.driver.current_window_handle

        for i in self.li:

            file_name = i.find_element_by_xpath('./a/div').text

            video_url = i.find_element_by_xpath('./a').get_attribute('href')

            print("视频名称：", file_name, "视频连接地址：", video_url)

            # 此处的视频连接地址不是最终的需要在此请求爬取

            if video_url.find("http://video.weibo.com") != -1:

                new_url = self.__get_final_video_url(video_url)

                video_inf[file_name] = new_url

        return video_inf

    def __get_final_video_url(self, url):

        """

        得到最终的视频地址

        :param url:

        :return:

        """

        # 根据url打开新的窗口

        js = "window.open('{}')".format(url)

        self.driver.execute_script(js)

        # 输出当前窗口的句柄

        # print("当前窗口的句柄：", self.driver.current_window_handle, "ddd:", self.fu_handle)

        # 获取当前窗口句柄集合（列表类型）

        # 得到新的窗口的句柄

        child_handle = None

        handles = self.driver.window_handles

        for handle in handles:

            if handle != self.fu_handle:

                child_handle = handle

        # print("子窗口句柄值：", child_handle)

        # print(handles)  # 输出句柄集合

        # 切换窗口

        self.driver.switch_to.window(child_handle)

        try:

            WebDriverWait(self.driver, 200, 0.5).until(

                EC.presence_of_element_located((By.ID, 'playerRoom')))

            time.sleep(3)

            temp = re.findall(r'<video src="(.*)"', self.driver.page_source)

            if len(temp) > 0:

                final_url = temp[0].replace("amp;", "")

                print("新的地址：ee", "html:" + final_url)

            else:

                final_url = ""

                print("无地址")

            time.sleep(3)

            self.driver.close()

            # 切换回主窗口

            self.driver.switch_to.window(self.fu_handle)

        except:

            final_url = ""

        return "http:" + final_url

    def download(self, url):

        """

        视频下载

        :return:

        """

        msg = self.__get_fileName_and_down_url()

        for file_name, url in msg.items():

            print("fileName:", file_name, "url:", url)

            if len(url) > 0:

                print("正在下载视频{}".format(file_name))

                print("路径：", '{}{}.mp4'.format(self.fileName, file_name))

                urllib.request.urlretrieve(url, '{}{}.mp4'.format(self.fileName, file_name))

        # //f.us.sinaimg.cn/001S2GEdlx07rpeAv93O01041200q03A0E010.mp4?label=mp4_hd&template=844x480.25.0&Expires=1550404650&ssig=kTARYMkU1Y&KID=unistore,video

if __name__ == '__main__':

    url = "https://weibo.com/p/1005052420864952/photos?type=video#place"  # 个人主页相册中的视频地址（自己可以更改，也可以添加程序来自动爬取）

    aa = WeiBoVdeioDown(url, 'E:\玉面小嫣然') # 创建对象，输入下载地址和本地保存地址，默认保存文件名是微博上面名称

    url1 = "//f.us.sinaimg.cn/001S2GEdlx07rpeAv93O01041200q03A0E010.mp4?label=mp4_hd&template=844x480.25.0&Expires=1550404650&ssig=kTARYMkU1Y&KID=unistore,video"

    # aa.down_url(url)

    aa.download(url)

出现问题： 1、可能会出现异常，这里程序对异常处理不是很合适，可以通过后期对函数中的url地址进行判断，
　　　　　　2、滑动条自动加载，向下滑动，自动加载内容，查看网上解释可以通过以下实现

　　　　　　# js_code = "document.getElementsByClassName('WB_frame')[0].scrollHeight=8000"

          # self.driver.execute_script(js_code)
其中js_code 是要执行的代码，scrollHeight=10000是滑动到底部，这里测试没有成功，其他页面有些可以成功，似乎是元素找错了，需要找到这个滚动条的真正属于的容器才可以，有兴趣的可以自己去试试

第一次实现，不喜勿

#  下载视频，音乐和图片还可以通过如下实现
import re

url= 'https://m10.music.126.net/20190218085252/d95768f7ab127a67ba24c1f6cba652e3/ymusic/015f/0f52/0f0b/65259539178803971cd18a5de46cfb76.mp3'

import requests

r = requests.get(url, stream=True)

with open('E:\\a.mp3', 'wb') as f:

    for i in r.iter_content(1024):

        f.write(i)

url = 'http://f.us.sinaimg.cn/001R971olx07re2bg08g01041203HWqe0E020.mp4?label=mp4_720p&template=1268x720.20.0&Expires=1550453293&ssig=CZ7K3Algxi&KID=unistore,video'

r = requests.get(url, stream=True)

with open('E:\\a.mp4', 'wb') as f:

    for i in r.iter_content(1024):

        f.write(i)

对于小文件还可以是使用如下下载
with open('E:\\a.mp4', 'wb') as f: 
　　f.write(r.raw.read()

基于selenium微博个人主页视频下载的更多相关文章

基于selenium的pyse自动化测试框架
WebUI automation testing framework based on Selenium 介绍: pyse基于selenium(webdriver)进行了简单的二次封装,比seleni ...
TestNG测试框架在基于Selenium进行的web自动化测试中的应用
转载请注明出自天外归云的博客园:http://www.cnblogs.com/LanTianYou/ TestNG+Selenium+Ant TestNG这个测试框架可以很好的和基于Selenium的 ...
转载基于Selenium WebDriver的Web应用自动化测试
转载原地址: https://www.ibm.com/developerworks/cn/web/1306_chenlei_webdriver/ 对于 Web 应用,软件测试人员在日常的测试工作中, ...
基于Xilinx FPGA的视频图像采集系统
本篇要分享的是基于Xilinx FPGA的视频图像采集系统,使用摄像头采集图像数据,并没有用到SDRAM/DDR.这个工程使用的是OV7670 30w像素摄像头,用双口RAM做存储,显示窗口为320x ...
基于selenium+phantomJS的动态网站全站爬取
由于需要在公司的内网进行神经网络建模试验(https://www.cnblogs.com/NosenLiu/articles/9463886.html),为了更方便的在内网环境下快速的查阅资料,构建深 ...
视频下载四大神器—如何下载优酷/爱奇艺/腾讯/B站超清无水印视频
视频下载四大神器—如何下载优酷/爱奇艺/腾讯/B站超清无水印视频 2018-07-11 | 标签»下载, 下载工具, 视频又是视频下载,老生常谈的话题.阿刚同学已在乐软博客多次与大家分享推荐 ...
YouTube视频下载的12个软件(Win和Mac)
如今,观看视频已经成为人们生活中重要的一部分.很多时候,我们都需要用到视频,比如教育用途.会议报告.休闲娱乐以及广告宣传等.如果你觉得有时候资源不好找的话,不放去看下YouTube.YouTube是世 ...
如何把手机app的视频下载到手机上？网页上的视频怎么下载？
手机上小视频怎么下载?求推荐不需要安装软件的下载方法? 如何把手机app的视频下载到手机上?比如把快手上的视频下载到手机上? 如何免费下载视频? ... 答案当然是用iiiLab提供的在线视频解析下载 ...
YouTube视频下载方法汇总
YouTube是一个视频共享网站,YouTuber们自己拍摄并制作视频,上传到YouTube,然后用户观看.分享并评论这些内容.虽然在线观看很方便,但是有些时候你却只能处于离线的状态,比如出差.旅游. ...

随机推荐

ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES)解决方案
在Win7下使用MySQL5.6.35创建用户时,提示权限不足,具体解决方案如下: 1 停止mysql服务 net stop mysql 2 打开新的cmd窗口,切换到bin目录,运行如下命令,cmd ...
JProfiler 教程使用说明
JProfiler (本文原创转载请注明) 简介 JProfiler是一个重量级的JVM监控工具,提供对JVM精确监控,其中堆遍历.CPU剖析.线程剖析看成定位当前系统瓶颈的得力工具.可以统计压 ...
添加Google网络地图功能
在MeteoInfo中添加了Google网络地图功能.打开MeteoInfo软件,选中图层管理区的一个Map Frame(New Map Frame),点击鼠标右键,在弹出菜单中点击Add Web L ...
centos8安装kafka(单机方式)
一,下载kafka 1,官网地址 http://kafka.apache.org/downloads.html 2,下载 [root@localhost source]# wget http://mi ...
在VMware虚拟机Ubuntu使用traceroute
Linux traceroute命令用于显示数据包到主机间的路径 traceroute指令让你追踪网络数据包的路由途径,预设数据包大小是40Bytes,用户可另行设置. Ubuntu命令行输入: 后面 ...
fiddler 实用小技巧
1.添加查看响应时间
一个例子"入坑"布谷鸟算法(附完整py代码)
布谷鸟是比较新的启发式最优化算法,但其与传统的遗传算法,退火算法等相比,被证明收敛速度更快,计算效率更高! 文章目录本文诞生的缘由布谷鸟算法思想简介更新位置的方式莱维飞行局部随机行走抛出个 ...
Java安全之安全加密算法
Java安全之安全加密算法 0x00 前言本篇文来谈谈关于常见的一些加密算法,其实在此之前,对算法的了解并不是太多.了解的层次只是基于加密算法的一些应用上.也来浅谈一下加密算法在安全领域中的作用.写 ...
python如何连接数据库操作？
1.首先导入模块(提前pip安装) import pymysql ; 2.打开数据库连接 db = pymysql.connect("localhost", "us ...
用 Java 训练深度学习模型，原来可以这么简单！
本文适合有 Java 基础的人群作者:DJL-Keerthan&Lanking HelloGitHub 推出的<讲解开源项目> 系列.这一期是由亚马逊工程师:Keerthan V ...

基于selenium微博个人主页视频下载

基于selenium微博个人主页视频下载的更多相关文章

随机推荐

热门专题