前言

继使用requests库爬取好看视频的文章后，本文分享使用python第三方库selenium库接着来爬取视频网站，后续也会接着分享使用第三方库DrissionPage爬取视频。

selenium简介

selenium是一个用于web应用测试的工具集，它可以直接运行在浏览器中，就像真正的用户在操作一样。它主要应用在自动化测试，web爬虫和自动化任务中。selenium提供了很多编程语言的接口，如java，python，c#等。这让开发者可以自己编写脚本来自动化web应用的测试。

实战案例

话不多说，直接上源码

from selenium import webdriver   # 浏览器驱动

from selenium.webdriver.common.by import By  # 用来定位web页面上的元素

import time             # 时间函数

import os               # 文件管理模块

import requests        # 数据请求模块

if not os.path.exists('./videos1'):  # 创建文件夹

    os.mkdir('./videos1')

def video(data):     # 定义请求每个详细视频的函数

    for url in data:   # 遍历每个详细视频的地址

        driver=webdriver.Chrome()   # 初始化浏览器实例

        driver.get(url)               # 打开url页面

        src=driver.find_element(by=By.CLASS_NAME, value='art-video')  # 获取每个详细视频的详细地址

        src=src.get_attribute('src')

        name=driver.find_element(by=By.CLASS_NAME, value='videoinfo-title')  # 获取每个详细视频的标题

        name=name.text

        video_detail=requests.get(src).content     # 对每个详细视频进行请求

        with open('./videos1/'+name+'.mp4','wb') as f:  # 存储视频

            f.write(video_detail)

        print(name,src)

        driver.quit()        # 关闭浏览器

driver=webdriver.Chrome()     # 初始化浏览器实例

driver.get("https://haokan.baidu.com/")  # 打开网址

for i in range(1,6):

    driver.execute_script("document.documentElement.scrollTop=2000")  # 页面下滑

    time.sleep(1)

time.sleep(2)

data_video=driver.find_elements(by=By.CLASS_NAME,value='videoItem_videoitem__Z_x08') # 对视频信息进行定位

data=[]        # 定义空列表，用来存储每个时评的地址

for a in data_video:  #

    href=a.get_attribute("href")  # 获取视频地址

    data.append(href)

print(data)

time.sleep(2)

driver.quit()   # 关闭浏览器

video(data)   # 调用video()函数

共勉

能力决定下限，机会决定上限

博客

本人是一个渗透爱好者，不时会在微信公众号（laity的渗透测试之路）更新一些实战渗透的实战案例，感兴趣的同学可以关注一下，大家一起进步。
- 之前在公众号发布了一个kali破解WiFi的文章，感兴趣的同学可以去看一下，在b站（up主:laity1717）也发布了相应的教学视频。

爬虫案例2-爬取视频的三种方式之一：selenium篇(2)的更多相关文章

js页面取值的三种方式
<input id=""<radio <checkbox<div<img对于这些标签内参数取值,一般分为三种类型:一.有关id取值用 #:取id处的v ...
python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
【爬虫问题】爬取tv.sohu.com的页面, 提取视频相关信息
尝试解决下面的问题问题: 爬取tv.sohu.com的页面, 提取视频相关信息,不可用爬虫框架完成何为视频i关信息?属性有哪些? 需求: 做到最大可能的页面覆盖率 *使用httpClient 模拟 ...
Python网络爬虫与如何爬取段子的项目实例
一.网络爬虫 Python爬虫开发工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页 ...
Python爬取视频指南
摘自:https://www.jianshu.com/p/9ca86becd86d 前言前两天尔羽说让我爬一下菜鸟窝的教程视频,这次就跟大家来说说Python爬取视频的经验正文 https://w ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
爬虫实战——Scrapy爬取伯乐在线所有文章
Scrapy简单介绍及爬取伯乐在线所有文章一.简说安装相关环境及依赖包 1.安装Python(2或3都行,我这里用的是3) 2.虚拟环境搭建: 依赖包:virtualenv,virtualenvwr ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...

随机推荐

面试官：Dubbo一次RPC调用会经过哪些环节？
大家好,我是三友~~ 今天继续探秘系列,扒一扒一次RPC请求在Dubbo中经历的核心流程. 本文是基于Dubbo3.x版本进行讲解一个简单的Demo 这里还是老样子,为了保证文章的完整性和连贯性,方 ...
服务之间的调用之RPC深入理解
一:RPC RPC 即远程过程调用(Remote Procedure Call Protocol,简称RPC),像调用本地服务(方法)一样调用服务器的服务(方法).通常的实现有 XML-RPC , J ...
oeasy教您玩转vim - 58 - # 块可视化
块可视化编辑回忆上节课内容上次我们了解到行可视模式行可视模式 V 也可配合各种motion o切换首尾选区的开头和结尾是mark标记开头是 '< 结尾是 '> 可以在选区内进 ...
Microsoft Azure AI 机器学习笔记-1
机器学习基础: 数据与建模: 数据统计和数学建模是处理数据和描述现实情况的关键工具. 观测值是记录的数据实例,而特征是描述观测对象的属性. 标签则代表监督式学习中的已知输出值. 学习类型: 监督式学习 ...
openEuler 安装 DocekrCE
就个人而言,openEuler 算是不错的国产化操作系统."一脉传承"自redhat让实际的使用体验非常丝滑.软件源都是国内的,开箱即用,漏洞的补丁发的也挺及时.美中不足的是貌似 ...
新版宝塔面板快速搭建WordPress新手教程
一.宝塔面板介绍 1. 介绍宝塔面板是一款服务器管理软件,支持Windows和Linux系统,可以通过Web端轻松管理服务器,提升运维效率,该软件内置了创建管理网站.FTP.数据库.可视化文件管理器 ...
将txt转化为csv的方法和遇到问题
一.无法修改扩展名步骤如下二.转换之后所有数据都挤在第一列 win10系统修改文件扩展名只需4部,打开我的电脑->查看->选择->查看->取消勾选(已知隐藏文件的扩展名)-& ...
测试工程师-生产环境Bug收集表
1.目的:记录生产环境的故障,有利于分析反推项目或个人的一些不足,从而改进. 2.缺陷分类用例覆盖不足: 测试用例没有覆盖到(如此类问题居高则需对该测试人员进行严格用例评审): 未测试上线: 开 ...
【WSDL】01 JAX-WS 入门案例
去年这个时候工作遇见时暂时总结的笔记: https://www.cnblogs.com/mindzone/p/14777493.html 当时也不是很清楚,直到最近前同事又遇上了这项技术, 除了WSD ...
【DataBase】MySQL 05 基础查询
MySQL数据库 05 基础查询视频参考自:P18 - P27 https://www.bilibili.com/video/BV1xW411u7ax 配套的SQL脚本:https://shimo. ...

爬虫案例2-爬取视频的三种方式之一：selenium篇(2)

前言

selenium简介

实战案例

共勉

博客

爬虫案例2-爬取视频的三种方式之一：selenium篇(2)的更多相关文章

随机推荐

热门专题