scrapy 爬取视频

利用FilesPipeline 下载视频

1.setting.py

# 保存log信息的文件名
LOG_LEVEL = "INFO"
# LOG_STDOUT = True
# LOG_ENCODING = 'utf-8'
# # 路径  os.path.dirname(os.path.dirname(os.path.dirname(__file__)))
# LOG_FILE = "info.log"

# 下载延迟
import random

DOWNLOAD_DELAY = random.random() + random.random()
RANDOMIZE_DOWNLOAD_DELAY = True

# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.87 Safari/537.36'

# 视频下载路径
import os

BASE_DIR = os.path.dirname((os.path.abspath(__file__)))
MEDIA_ALLOW_REDIRECTS = True
FILES_STORE = os.path.join(BASE_DIR, "videos")  # 文件保存路径
FILES_URLS_FIELD = 'file_urls'  # 这里对应着item.py文件中的字段
FILES_RESULT_FIELD = 'files'  # 同样对应item.py文件中的字段
# 120 days of delay for files expiration
# FILES_EXPIRES = 120  # 设置文件失效时间

ITEM_PIPELINES = {
    'steam_video.pipelines.SteamVideoPipeline': 300,
    'steam_video.pipelines.SteamDownLoadPipeline': 100,   # 视频下载的管道
}

2.spider.py

import scrapy, pymysql, re

class VideosSpider(scrapy.Spider):
    name = 'videos'
    allowed_domains = ['.com']
    start_urls = ['https://www.baidu.com/']

    def parse(self, response):
        db = pymysql.connect(host='localhost', port=3306, database='game', user='root', password='root',
                             charset='utf8', autocommit=True)
        cursor = db.cursor()
        cursor.execute(
            'SELECT id, appid, data_webm_source, data_webm_hd_source, data_mp4_source, data_mp4_hd_source, data_poster from steam_game_video WHERE id<5')  # 获取图片url
        for appid in cursor.fetchall():
            for i in range(2, 7):
                item = {}
                item['id'] = appid[0]
                item['appid'] = appid[1]
                item['file_url'] = appid[i]  # 下载视频的url    前面要自己获取到 视频的url   可以自己爬
                item['video_name'] = str(item['appid']) + '_' + re.findall(r'/(\d+)/', appid[i])[0] + '_' + \
                                     appid[i].split('/')[-1].split('?')[0]  # 后面图片要命名的名称
                print(item)
                print('*' * 100)
                yield item

3.pipelines.py

# -*- coding: utf-8 -*-
from scrapy.pipelines.images import FilesPipeline  # 导入文件下载类
import scrapy, os, hashlib
from scrapy.http import Request
from scrapy.utils.python import to_bytes
from steam_video.settings import FILES_STORE as FILS

class SteamVideoPipeline(object):
    def process_item(self, item, spider):
        return item

# 下载图片管道
class SteamDownLoadPipeline(FilesPipeline):
    def get_media_requests(self, item, info):
        return scrapy.Request(item['file_url'],
                              meta={'video_name': item.get('video_name', None)})  # 下载视频  video_name为视频名称

    def file_path(self, request, response=None, info=None):

        def _warn():
            from scrapy.exceptions import ScrapyDeprecationWarning
            import warnings
            warnings.warn('FilesPipeline.file_key(url) method is deprecated, please use '
                          'file_path(request, response=None, info=None) instead',
                          category=ScrapyDeprecationWarning, stacklevel=1)

        # check if called from file_key with url as first argument
        if not isinstance(request, Request):
            _warn()
            url = request
        else:
            url = request.url

        # detect if file_key() method has been overridden
        if not hasattr(self.file_key, '_base'):
            _warn()
            return self.file_key(url)

        media_guid = hashlib.sha1(to_bytes(url)).hexdigest()  # change to request.url after deprecation
        media_ext = os.path.splitext(url)[1]  # change to request.url after deprecation
        # 这里我们使用自定义的文件名，如果meta中没有video_name,就使用url的hash值作为文件名
        file_path = FILS + '\\' + request.meta.get('video_name')
        file = file_path.replace('\\{}'.format(file_path.split('\\')[-1]), '')
        if not os.path.exists(file):
            os.makedirs(file)
        return '{}'.format(request.meta.get('video_name'))
        # return 'full/%s.mp4' % (''.join(request.meta.get('video_name', media_guid).split(' ')))

    def file_key(self, url):   # 服务器部署需要家里这个代码
        return self.file_path(url)
    file_key._base = True

    def item_completed(self, results, item, info):
        print('******the results is********:',
              results)  # resulte [(True, {'url': 'https://media.st.dl.bscstorage.net/steam/apps/904/movie480.mp4?t=1569623096', 'path': '220_904_movie480.mp4', 'checksum': '0f22435cdfe2d605480fc5396160d3a5'})]
        if results[0][0]:  # 判断视频是否下载成功
            print('下载成功:{}'.format(item))
        else:
            print('下载失败:{}'.format(item))

scrapy 爬取视频的更多相关文章

Scrapy爬取美女图片 (原创)
有半个月没有更新了,最近确实有点忙.先是华为的比赛,接着实验室又有项目,然后又学习了一些新的知识,所以没有更新文章.为了表达我的歉意,我给大家来一波福利... 今天咱们说的是爬虫框架.之前我使用pyt ...
以豌豆荚为例，用 Scrapy 爬取分类多级页面
本文转载自以下网站:以豌豆荚为例,用 Scrapy 爬取分类多级页面 https://www.makcyun.top/web_scraping_withpython17.html 需要学习的地方: 1 ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
scrapy爬取西刺网站ip
# scrapy爬取西刺网站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem class Xicispi ...
scrapy爬取豆瓣电影top250
# -*- coding: utf-8 -*- # scrapy爬取豆瓣电影top250 import scrapy from douban.items import DoubanItem class ...
scrapy爬取极客学院全部课程
# -*- coding: utf-8 -*- # scrapy爬取极客学院全部课程 import scrapy from pyquery import PyQuery as pq from jike ...
scrapy爬取全部知乎用户信息
# -*- coding: utf-8 -*- # scrapy爬取全部知乎用户信息 # 1:是否遵守robbots_txt协议改为False # 2: 加入爬取所需的headers: user-ag ...
Scrapy爬取Ajax（异步加载）网页实例——简书付费连载
这两天学习了Scrapy爬虫框架的基本使用,练习的例子爬取的都是传统的直接加载完网页的内容,就想试试爬取用Ajax技术加载的网页. 这里以简书里的优选连载网页为例分享一下我的爬取过程. 网址为: ht ...
Scrapy爬取静态页面
Scrapy爬取静态页面安装Scrapy框架: Scrapy是python下一个非常有用的一个爬虫框架 Pycharm下: 搜索Scrapy库添加进项目即可终端下: #python2 sudo p ...

随机推荐

DenyHosts
下载软件并解压cd DenyHosts-2.6 #进入安装解压目录python setup.py install #安装DenyHostscd /usr/share/denyhosts/ #默认安装路 ...
05. Go 语言函数
Go 语言函数函数是组织好的.可重复使用的.用来实现单一或相关联功能的代码段,其可以提高应用的模块性和代码的重复利用率. Go 语言支持普通函数.匿名函数和闭包,从设计上对函数进行了优化和改进,让函 ...
python之海龟绘图
1. 基本功能介绍在海龟作图中,我们可以编写指令让一个虚拟的(想象中的)海龟在屏幕上来回移动.这个海龟带着一只钢笔,我们可以让海龟无论移动到哪都使用这只钢笔来绘制线条.通过编写代码,以各种很酷的模式 ...
Vue 修饰符once的方法使用
once:只执行一次代码: <!doctype html> <html lang="en"> <head> <meta charset= ...
# Spring 练习ioc 、aop
Spring 练习通过学习spring的基础知识,了解了Spring为了降低Java开发的复杂性,采取了以下4种关键策略: 基于POJO的轻量级和最小侵入性编程: 通过依赖注入和面向接口实现松耦合: ...
Django中的跨域请求问题
本文目录一同源策略二 CORS(跨域资源共享)简介三 CORS基本流程四 CORS两种请求详解五 Django项目中支持CORS 回到目录一同源策略同源策略(Same origin ...
ReactNative: 使用Text文本组件
一.简言初学RN,一切皆新.Text组件主要用于显示文本,Text组件的重要性不言而喻,无论是Web开发还是客户端开发,都离不开它.它具有响应特性,也即表现为当它被触摸时是否显示为高亮状态.在Web ...
【JS】JS数组添加元素的三种方法
1.push() 方法可向数组的末尾添加一个或多个元素,并返回新的长度. 1).语法: arrayObject.push(newelement1,newelement2,....,newelement ...
JS 从内存空间谈到垃圾回收机制
壹 ❀ 引从事计算机相关技术工作的同学,对于内存空间相关概念多少有所耳闻,毕竟像我这种非计算机科班出身的人,对于栈堆,垃圾回收都能简单说道几句:当我明白JS 基本类型与引用类型数据存储方式不同,才 ...
【shell脚本】自动磁盘分区，格式化，挂载===autoMount.sh
#!/bin/bash # 自动对磁盘分区.格式化.挂载 # 对虚拟机的 vdb 磁盘进行分区格式化,使用<<将需要的分区指令导入给程序 fdisk # n(新建分区),p(创建主分区), ...

scrapy 爬取视频

利用FilesPipeline 下载视频

1.setting.py

2.spider.py

3.pipelines.py

scrapy 爬取视频的更多相关文章

随机推荐

热门专题