pyspider—爬取视频链接

#!/usr/bin/env python

# -*- encoding: utf-8 -*-

# Created on 2015-03-20 09:46:20

# Project: fly_spider

import re

import time

#from pyspider.database.mysql.mysqldb import SQL

from pyspider.libs.base_handler import *

from pyquery import PyQuery as pq

class Handler(BaseHandler):

    headers= {

    "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",

    "Accept-Encoding":"gzip, deflate, sdch",

    "Accept-Language":"zh-CN,zh;q=0.8",

    "Cache-Control":"max-age=0",

    "Connection":"keep-alive",

    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36"

    }

    crawl_config = {

        "headers" : headers,

        "timeout" : 100

    }

    @every(minutes= 1)

    def on_start(self):

        self.crawl('http://www.zhanqi.tv/games',callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)

    def index_page(self, response):

        print(response)

        for each in response.doc('a[href^="http://www.zhanqi.tv/games/"]').items():

            if re.match("http://www.zhanqi.tv/games/\w+", each.attr.href, re.U):

                self.crawl(each.attr.href,

                fetch_type='js',

                js_script="""

                function() {

                    setTimeout(window.scrollTo(0,document.body.scrollHeight), 5000);

                }

                """,callback=self.list_page)  

    @config(age=1*60*60, priority=2)

    def list_page(self, response):

        for each in response.doc('.active > div.live-list-tabc > ul#hotList.clearfix > li > a').items():

            if re.match("http://www.zhanqi.tv/\w+", each.attr.href, re.U):

                self.crawl(each.attr.href,

                fetch_type='js',

                js_script="""

                function() {

                    setTimeout(window.scrollTo(0,document.body.scrollHeight), 5000);

                }

                """,callback=self.detail_page)    

    @config(age=1*60*60, priority=2)

    def detail_page(self, response):

        for each in response.doc('.video-flash-cont').items():

            d = pq(each)

            print(d.html())

        return {

            "url": response.url,

            "author":response.doc('.meat > span').text(),

            "title":response.doc('.title-name').text(),

            "game-name":response.doc('span > .game-name').text(),

            "users2":response.doc('div.live-anchor-info.clearfix > div.sub-anchor-info > div.clearfix > div.meat-info > span.num.dv.js-onlines-panel > span.dv.js-onlines-txt > span').text(),

            "flash-cont":d.html(),

            "picture":response.doc('.active > img').text(),

            }

pyspider—爬取视频链接的更多相关文章

Python爬取视频指南
摘自:https://www.jianshu.com/p/9ca86becd86d 前言前两天尔羽说让我爬一下菜鸟窝的教程视频,这次就跟大家来说说Python爬取视频的经验正文 https://w ...
python爬虫（爬取视频）
爬虫爬视频爬取步骤第一步:获取视频所在的网页第二步:F12中找到视频真正所在的链接第三步:获取链接并转换成机械语言第四部:保存保存步骤代码 import re import request ...
爬虫概念与编程学习之如何爬取视频网站页面（用HttpClient）（二）
先看,前一期博客,理清好思路. 爬虫概念与编程学习之如何爬取网页源代码(一) 不多说,直接上代码. 编写代码运行 <!DOCTYPE html><html><head& ...
20190728-Python爬取视频&切割视频&视频加水印
1.视频爬取 1.下载视频的源码如下: import os import requests from bs4 import BeautifulSoup import threading from bj ...
网络字体反爬之pyspider爬取起点中文小说
前几天跟同事聊到最近在看什么小说,想起之前看过一篇文章说的是网络十大水文,就想把起点上的小说信息爬一下,搞点可视化数据看看.这段时间正在看爬虫框架-pyspider,觉得这种网站用框架还是很方便的,所 ...
使用pyspider爬取巨量淘宝MM图片
具体搭建步骤不再赘述,这里主要使用到了fakeagent,phantomjs和proxy pyspider的爬取相当智能,在不能获取图片的时候会适当的暂停一段时间再试探性的爬取,配合fakeagent ...
PySpider爬取去哪儿攻略数据项目
1 创建项目点击WEB中的Create创建项目填入相关项目名和其实爬取URL 创建后进入项目首页右边 Handler 是pyspider的主类,整个爬虫一个Handler,其中可定义爬虫的爬取. ...
以“有匪”为实战案例，用python爬取视频弹幕
最近腾讯独播热剧"有匪"特别火,我也一直在追剧,每次看剧的时候都是把弹幕开启的,这样子看剧才有灵魂呀.借助手中的技术,想爬取弹幕分析下这部电视剧的具体情况和网友们的评论!对于弹幕的 ...
Python+Requests+异步线程池爬取视频到本地
1.本次项目为获取梨视频中的视频,再使用异步线程池下载视频到本地 2.获取视频时,其地址中的Url是会动态变化,不播放时src值为图片的地址,播放时src值为mp4格式 3.查看视频链接是否存在aja ...

随机推荐

Win10图标显示不正常解决办法
当缓存文件出现问题时,就会引发系统图标显示不正常: 1.由于图标缓存文件是隐藏文件,我们需要在资源管理器中将设置改为“显示所有文件”. 2.同时按下快捷键 Win+R,在打开的运行窗口中输入 %loc ...
MapReduce分区和排序
一.排序排序: 需求:根据用户每月使用的流量按照使用的流量多少排序接口-->WritableCompareable 排序操作在hadoop中属于默认的行为.默认按照字典殊勋排序. 排序的分类 ...
21.SQL to MongoDB Mapping Chart-官方文档摘录
有关关系型数据库跟Mongod的语法对比 In addition to the charts that follow, you might want to consider the Frequentl ...
python常见模块之os模块
os模块是python系统与操作系统交互的一个接口 os.getcwd() 获取当前工作目录,即当前python脚本工作的目录路径 os.chdir("dirname") 改变当前 ...
shell_02
if判断: if [$? -eq 0];then echo "xxxxxxxxxxx" else echo "xxxxxxxxxxxxx" fi case判断: ...
go-009-函数
一.概述 Go 语言最少有个 main() 函数. 你可以通过函数来划分不同功能,逻辑上每个函数执行的是指定的任务. 函数声明告诉了编译器函数的名称,返回类型,和参数. Go 语言标准库提供了多种可动 ...
kettle部分传输场景应用（每个作业都实验过啦）
不过都是全量的,没有增量的,增量的需要自行写脚本实现 1.mysql->mysql 2.ftp->mysql(整个文件夹下面读取) 3.hdfs->mysql 4.sftp-> ...
matplotlib 的 subplot, axes and axis
fig = plt.figure('多图', (10, 10), dpi=80) #第一个指定窗口名称,第二个指定图片大小,创建一个figure对象 plt.subplot(222) #2*2的第二个 ...
Python（异常处理）
一错误和异常程序中难免出现错误,而错误分成两种 1.语法错误(这种错误,根本过不了python解释器的语法检测,必须在程序执行前就改正) 2.逻辑错误(逻辑错误) 什么是异常异常就是程序运行时发 ...
JAVA_HOME is not defined correctly
这是个神奇的问题.系统运行着运行着,突然就挂了.各种Java包丢失. 1.检查maven配置 .bash_profile 2.检查运行调取文件 .mavenrc 运行 java -version ...

pyspider—爬取视频链接

pyspider—爬取视频链接的更多相关文章

随机推荐

热门专题