macOS下python3通过scrapy框架重新生成不得姐网站视频采集过程日志

1.搭建虚拟python3环境（Virtualenvwrapper）

参考http://www.cnblogs.com/it-tsz/p/pyhton.html

2.安装scrapy

前提先安装好pip,setuptools，然后安装以下模块

pip install lxml

pip install twisted

pip install pyopenssl

windows下需要安装pywin32(pip install pywin32)

最后安装scrapy

pip install scrapy

3.通过scrapy生成scrapy spider 工程模版

scrapy startproject <project_name> [project_dir]

如：

scrapy startproject budejie

4.生成spider模块

scrapy genspider [options] <name> <domain>

如：

cd budejie

scrapy genspider getbudejievideo budejie.com

5.修改spider模块（getbudejievideo.py）

# -*- coding: utf-8 -*-
import scrapy
import os
import urllib
from lxml import etree

# urlretrieve()的回调函数，显示当前的下载进度
# a为已经下载的数据块
# b为数据块大小
# c为远程文件的大小

def jindu(a, b, c):
    if not a:
        print("连接打开")
    if c < 0:
        print("要下载的文件大小为0")
    else:

        per = 100 * a * b / c

        if per > 100:
            per = 100
        print("\r当前下载进度为：" + '%.2f%%' % per, end='')
    if per == 100:
        return True

''' def __init__(self):
        self.headers = {
        # 'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
        # 'Accept-Encoding': 'gzip, deflate',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'
        }
   '''

class GetbudejievideoSpider(scrapy.Spider):
    name = 'getbudejievideo'
    allowed_domains = ['budejie.com']
    start_urls = ['http://budejie.com/video']   

    cur_page = 1

    def parse(self, response):
        print('*' * 100)      

        # 创建video文件保持目录
        path = os.path.join(os.path.abspath(os.path.curdir), 'videos')
        if not os.path.exists(path):
            os.mkdir(path)
        # 获取当前页所有video 的url

        try:
            data = etree.HTML(response.text)
            video_urls = data.xpath('//div[@class="j-video-c"]/div[@data-mp4]')

            # <a href="2" class="pagenxt">下一页</a>
            nextpage = data.xpath('//a[@class="pagenxt"]')
            if nextpage:
                nextpage = nextpage[0].get('href')

        except Exception:
            print('lxml parse failed------------------------------')
            return
        if not video_urls:
            return
        # 下载当前页下所有video url对应的视频文件
        for v in video_urls:
            # if v:
            video_url = v.get('data-mp4')
            print('下载：{}'.format(video_url))
            p = os.path.join(path, v.get('data-mp4').split('/')[-1])

            print(p)

            if not os.path.exists(p):
                try:
                    urllib.request.urlretrieve(video_url, p, jindu)
                except Exception:
                    print("\n下载文件：{}失败".format(video_url))

        # 检测是否有下一页
        if nextpage:
            if nextpage == '1':
                return
            nextpage_url = self.start_urls【0】 + '/' + nextpage

            self.cur_page += 1
            print('\n下载第{}页视频数据:{}'.format(self.cur_page, nextpage_url))
            #通过生成器对新生成的url继续回调parse
            yield scrapy.Request(nextpage_url, callback=self.parse)

        else:
            return
4.修改配置文件settings.py以下参数选项
。。。
#以下为模拟浏览器验证

# Crawl responsibly by identifying yourself (and your website) on the user-agent
# USER_AGENT = 'budejie (+http://www.budejie.com)'
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'

# Obey robots.txt rules 跳过robots协议验证
ROBOTSTXT_OBEY = False
。。。
5.通过scrapy开启爬虫数据采集
scrapy crawl getbudejievideo
6.测试成功。
通过该案例，进一步学习了scrapy,xpath等相关知识，实践过程中提高了分析问题和解决问题的能力，继续加油！

不使用外部xpath库源代码修改spider模块（getbudejievideo.py）修改如下：

# -*- coding: utf-8 -*-
import scrapy
import os
import urllib
import re

# urlretrieve()的回调函数，显示当前的下载进度
# a为已经下载的数据块
# b为数据块大小
# c为远程文件的大小

def jindu(a, b, c):
    if not a:
        print("连接打开")
    if c < 0:
        print("要下载的文件大小为0")
    else:
        # global myper
        per = 100 * a * b / c

        if per > 100:
            per = 100
        print("\r当前下载进度为：" + '%.2f%%' % per, end='')
    if per == 100:
        return True

class GetbudejievideoSpider(scrapy.Spider):
    name = 'getbudejievideo'
    allowed_domains = ['www.budejie.com']
    start_urls = ['http://www.budejie.com/video']

    cur_page = 1

    def parse(self, response):
        print('下载url:{}'.format(response.url))
        # 创建video文件保持目录
        path = os.path.join(os.path.abspath(os.path.curdir), 'videos')
        if not os.path.exists(path):
            os.mkdir(path)
        # 获取当前页所有video 的url
        print('-' * 100)
        try:
            # data = etree.HTML(response.text)
            video_urls = response.xpath('//div[@class="j-video-c"]/div[@data-mp4]').extract()
            v_urls=[]
            for i in video_urls:
                v= re.findall(r'data-mp4="(.*?)"', i,re.M)
                if v:
                    v_urls.append(v[0])
            # <a href="2" class="pagenxt">下一页</a>
            nextpage = response.xpath('//a[@class="pagenxt"]').extract()
            if nextpage:
                nextpage = re.findall(r'href="(.*?)"', nextpage[0])

        except Exception:
            print('lxml parse failed:')
            return
        if not v_urls:
            return
        # 下载当前页下所有video url对应的视频文件
        for v in v_urls:
            # video_url = v.get('data-mp4')
            print('下载：{}'.format(v))
            p = os.path.join(path, v.split('/')[-1])

            print(p)

            if not os.path.exists(p):
                try:
                    urllib.request.urlretrieve(v, p, jindu)
                except Exception:
                    print("\n下载文件：{}失败".format(v))

        # 检测是否有下一页
        if nextpage:
            if nextpage[0] == '1':
                return

            nextpage_url = self.start_urls[0] + '/' + nextpage[0]
            print(nextpage_url)

            self.cur_page += 1
            print('\n下载第{}页视频数据:{}'.format(self.cur_page, nextpage_url))
            # 通过生成器对新生成的url继续回调parse
            yield scrapy.Request(nextpage_url, callback=self.parse)
        else:
            return

附属调试模块：（debug.py）

from scrapy import cmdline

if __name__ == '__main__':
    cmdline.execute('scrapy crawl getbudejievideo'.split(' '))

from scrapy import cmdline

if __name__ == '__main__':
    cmdline.execute('scrapy crawl getbudejievideo'.split(' '))

macOS下python3通过scrapy框架重新生成不得姐网站视频采集过程日志的更多相关文章

Python3安装scrapy框架步骤
Python3安装scrapy框架步骤 1. 安装wheel a) Pip install wheel 2. 安装lxml Pip install lxml 3. ...
scrapy框架爬取糗妹妹网站妹子图分类的所有图片
爬取所有图片,一个页面的图片建一个文件夹.难点,图片中有不少.gif图片,需要重写下载规则, 创建scrapy项目 scrapy startproject qiumeimei 创建爬虫应用 cd qi ...
windows7下安装python3的scrapy框架
强大的Anaconda和Spyder.不过如何在这个平台上安装Scrapy呢. 打开MS-DOS(win+R输入cmd回车) 然后输入: conda install -c scrapinghub sc ...
ubuntu下python3安装scrapy，OpenSSL
环境:ubuntu 16.04 , python3.5.1+ 安装顺序如下: sudo apt-get install build-essential sudo apt-get install p ...
【解决】MacOS下 Python3.7 使用 pyinstaller 打包后执行报错 Failed to execute script pyi_rth__tkinter
Fix tcl/tk libs inclusion in tkinter with Python3.7 under MacOS 使用 Pyinstaller 打包时候报错 3027 ERROR: Tc ...
Python3.6+Scrapy爬取知名技术文章网站
爬取分析伯乐在线已经提供了所有文章的接口,还有下一页的接口,所有我们可以直接爬取一页,再翻页爬. 环境搭建 Windows下安装Python: http://www.cnblogs.com/0bug ...
python爬虫scrapy框架——爬取伯乐在线网站文章
一.前言 1. scrapy依赖包: 二.创建工程 1. 创建scrapy工程: scrapy staratproject ArticleSpider 2. 开始(创建)新的爬虫: cd Artic ...
scrapy框架来爬取壁纸网站并将图片下载到本地文件中
首先需要确定要爬取的内容,所以第一步就应该是要确定要爬的字段: 首先去items中确定要爬的内容 class MeizhuoItem(scrapy.Item): # define the fields ...
Python爬虫 ---scrapy框架初探及实战
目录 Scrapy框架安装操作环境介绍安装scrapy框架(linux系统下) 检测安装是否成功 Scrapy框架爬取原理 Scrapy框架的主体结构分为五个部分: 它还有两个可以自定义下载功能的 ...

随机推荐

接口登录CSDN发布博客---封装方法，使用unittest框架
一个简单的跑接口流程:登录后发表带图片的博客.这里涉及到的知识点: 1.登录时通过cookies去保持登录状态,把cookies添加到一个session中,这样可以保持长时间登录状态: 2.我们通过爬 ...
EM算法的直观描述
解决含有隐变量的问题有三种方法,其中第三种方法就是通常所说的em算法.下面以统计学习方法中给出的三硬币问题为例来分别描述这三种方法.(a,b,c三硬币抛出来为正的概率分别为pai,p,q,每轮抛硬币先 ...
C语言的第次作业总结
PTA实验作业第一题: 使用函数输出水仙花数 1.设计思路: 2.碰到的问题及解决方法: 实验中碰到的主要问题是:虽然知道如何求每一位的数但不知道如何输出m到n之间的水仙花数,我上面截图中的和瓮恺视 ...
tornado options
tornado.options.define() 用来定义options选项变量的方法,定义的变量可以在全局的tornado.options.options中获取使用,传入参数: name 选项变量名 ...
python 一致性哈希分布式
hash_ring # -*- coding: utf-8 -*- """ hash_ring ~~~~~~~~~~~~~~ Implements consistent ...
java图片处理开源框架
java图片处理开源框架以前一直不明白,java开源框架什么意思,搜集资料得出以下结论其实java框架可以理解为一个工具或者一个插件,将一个公用的.常用的技术封装起来,处理一些基础的.繁琐的问题. ...
JavaScript 实现二叉树
JavaScript 实现二叉树: // JavaScript 实现二叉树 function BinaryTree () { var Node = function (key) { this.key ...
Web Api HttpWebRequest 请求 Api 及异常处理
HttpWebRequest request = WebRequest.CreateHttp(url); request.Method = "post"; request.Head ...
Zepto.js库touch模块代码解析
Zepto.js也许并不陌生,专门针对移动端开发,Zepto有一些基本的触摸事件可以用来做触摸屏交互(tap事件.swipe事件),Zepto是不支持IE浏览器的. 下面来解析一些Zepto.js触摸 ...
windbg查找Kernel32.dll基址
一.首先准备好一个程序,运行起来,用windbg进行附加调试,由于每个windows下的程序都会加载kernel32.dll,因此,找基址的过程是一样的: 二.查看PEB地址: 法一.r $peb ...

macOS下python3通过scrapy框架重新生成不得姐网站视频采集过程日志

macOS下python3通过scrapy框架重新生成不得姐网站视频采集过程日志的更多相关文章

随机推荐

热门专题