macOS下python3通过scrapy框架重新生成不得姐网站视频采集过程日志

1.搭建虚拟python3环境（Virtualenvwrapper）

参考http://www.cnblogs.com/it-tsz/p/pyhton.html

2.安装scrapy

前提先安装好pip,setuptools，然后安装以下模块

pip install lxml

pip install twisted

pip install pyopenssl

windows下需要安装pywin32(pip install pywin32)

最后安装scrapy

pip install scrapy

3.通过scrapy生成scrapy spider 工程模版

scrapy startproject <project_name> [project_dir]

如：

scrapy startproject budejie

4.生成spider模块

scrapy genspider [options] <name> <domain>

如：

cd budejie

scrapy genspider getbudejievideo budejie.com

5.修改spider模块（getbudejievideo.py）

# -*- coding: utf-8 -*-
import scrapy
import os
import urllib
from lxml import etree

# urlretrieve()的回调函数，显示当前的下载进度
# a为已经下载的数据块
# b为数据块大小
# c为远程文件的大小

def jindu(a, b, c):
    if not a:
        print("连接打开")
    if c < 0:
        print("要下载的文件大小为0")
    else:

        per = 100 * a * b / c

        if per > 100:
            per = 100
        print("\r当前下载进度为：" + '%.2f%%' % per, end='')
    if per == 100:
        return True

''' def __init__(self):
        self.headers = {
        # 'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
        # 'Accept-Encoding': 'gzip, deflate',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'
        }
   '''

class GetbudejievideoSpider(scrapy.Spider):
    name = 'getbudejievideo'
    allowed_domains = ['budejie.com']
    start_urls = ['http://budejie.com/video']   

    cur_page = 1

    def parse(self, response):
        print('*' * 100)      

        # 创建video文件保持目录
        path = os.path.join(os.path.abspath(os.path.curdir), 'videos')
        if not os.path.exists(path):
            os.mkdir(path)
        # 获取当前页所有video 的url

        try:
            data = etree.HTML(response.text)
            video_urls = data.xpath('//div[@class="j-video-c"]/div[@data-mp4]')

            # <a href="2" class="pagenxt">下一页</a>
            nextpage = data.xpath('//a[@class="pagenxt"]')
            if nextpage:
                nextpage = nextpage[0].get('href')

        except Exception:
            print('lxml parse failed------------------------------')
            return
        if not video_urls:
            return
        # 下载当前页下所有video url对应的视频文件
        for v in video_urls:
            # if v:
            video_url = v.get('data-mp4')
            print('下载：{}'.format(video_url))
            p = os.path.join(path, v.get('data-mp4').split('/')[-1])

            print(p)

            if not os.path.exists(p):
                try:
                    urllib.request.urlretrieve(video_url, p, jindu)
                except Exception:
                    print("\n下载文件：{}失败".format(video_url))

        # 检测是否有下一页
        if nextpage:
            if nextpage == '1':
                return
            nextpage_url = self.start_urls【0】 + '/' + nextpage

            self.cur_page += 1
            print('\n下载第{}页视频数据:{}'.format(self.cur_page, nextpage_url))
            #通过生成器对新生成的url继续回调parse
            yield scrapy.Request(nextpage_url, callback=self.parse)

        else:
            return
4.修改配置文件settings.py以下参数选项
。。。
#以下为模拟浏览器验证

# Crawl responsibly by identifying yourself (and your website) on the user-agent
# USER_AGENT = 'budejie (+http://www.budejie.com)'
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'

# Obey robots.txt rules 跳过robots协议验证
ROBOTSTXT_OBEY = False
。。。
5.通过scrapy开启爬虫数据采集
scrapy crawl getbudejievideo
6.测试成功。
通过该案例，进一步学习了scrapy,xpath等相关知识，实践过程中提高了分析问题和解决问题的能力，继续加油！

不使用外部xpath库源代码修改spider模块（getbudejievideo.py）修改如下：

# -*- coding: utf-8 -*-
import scrapy
import os
import urllib
import re

# urlretrieve()的回调函数，显示当前的下载进度
# a为已经下载的数据块
# b为数据块大小
# c为远程文件的大小

def jindu(a, b, c):
    if not a:
        print("连接打开")
    if c < 0:
        print("要下载的文件大小为0")
    else:
        # global myper
        per = 100 * a * b / c

        if per > 100:
            per = 100
        print("\r当前下载进度为：" + '%.2f%%' % per, end='')
    if per == 100:
        return True

class GetbudejievideoSpider(scrapy.Spider):
    name = 'getbudejievideo'
    allowed_domains = ['www.budejie.com']
    start_urls = ['http://www.budejie.com/video']

    cur_page = 1

    def parse(self, response):
        print('下载url:{}'.format(response.url))
        # 创建video文件保持目录
        path = os.path.join(os.path.abspath(os.path.curdir), 'videos')
        if not os.path.exists(path):
            os.mkdir(path)
        # 获取当前页所有video 的url
        print('-' * 100)
        try:
            # data = etree.HTML(response.text)
            video_urls = response.xpath('//div[@class="j-video-c"]/div[@data-mp4]').extract()
            v_urls=[]
            for i in video_urls:
                v= re.findall(r'data-mp4="(.*?)"', i,re.M)
                if v:
                    v_urls.append(v[0])
            # <a href="2" class="pagenxt">下一页</a>
            nextpage = response.xpath('//a[@class="pagenxt"]').extract()
            if nextpage:
                nextpage = re.findall(r'href="(.*?)"', nextpage[0])

        except Exception:
            print('lxml parse failed:')
            return
        if not v_urls:
            return
        # 下载当前页下所有video url对应的视频文件
        for v in v_urls:
            # video_url = v.get('data-mp4')
            print('下载：{}'.format(v))
            p = os.path.join(path, v.split('/')[-1])

            print(p)

            if not os.path.exists(p):
                try:
                    urllib.request.urlretrieve(v, p, jindu)
                except Exception:
                    print("\n下载文件：{}失败".format(v))

        # 检测是否有下一页
        if nextpage:
            if nextpage[0] == '1':
                return

            nextpage_url = self.start_urls[0] + '/' + nextpage[0]
            print(nextpage_url)

            self.cur_page += 1
            print('\n下载第{}页视频数据:{}'.format(self.cur_page, nextpage_url))
            # 通过生成器对新生成的url继续回调parse
            yield scrapy.Request(nextpage_url, callback=self.parse)
        else:
            return

附属调试模块：（debug.py）

from scrapy import cmdline

if __name__ == '__main__':
    cmdline.execute('scrapy crawl getbudejievideo'.split(' '))

from scrapy import cmdline

if __name__ == '__main__':
    cmdline.execute('scrapy crawl getbudejievideo'.split(' '))

macOS下python3通过scrapy框架重新生成不得姐网站视频采集过程日志的更多相关文章

Python3安装scrapy框架步骤
Python3安装scrapy框架步骤 1. 安装wheel a) Pip install wheel 2. 安装lxml Pip install lxml 3. ...
scrapy框架爬取糗妹妹网站妹子图分类的所有图片
爬取所有图片,一个页面的图片建一个文件夹.难点,图片中有不少.gif图片,需要重写下载规则, 创建scrapy项目 scrapy startproject qiumeimei 创建爬虫应用 cd qi ...
windows7下安装python3的scrapy框架
强大的Anaconda和Spyder.不过如何在这个平台上安装Scrapy呢. 打开MS-DOS(win+R输入cmd回车) 然后输入: conda install -c scrapinghub sc ...
ubuntu下python3安装scrapy，OpenSSL
环境:ubuntu 16.04 , python3.5.1+ 安装顺序如下: sudo apt-get install build-essential sudo apt-get install p ...
【解决】MacOS下 Python3.7 使用 pyinstaller 打包后执行报错 Failed to execute script pyi_rth__tkinter
Fix tcl/tk libs inclusion in tkinter with Python3.7 under MacOS 使用 Pyinstaller 打包时候报错 3027 ERROR: Tc ...
Python3.6+Scrapy爬取知名技术文章网站
爬取分析伯乐在线已经提供了所有文章的接口,还有下一页的接口,所有我们可以直接爬取一页,再翻页爬. 环境搭建 Windows下安装Python: http://www.cnblogs.com/0bug ...
python爬虫scrapy框架——爬取伯乐在线网站文章
一.前言 1. scrapy依赖包: 二.创建工程 1. 创建scrapy工程: scrapy staratproject ArticleSpider 2. 开始(创建)新的爬虫: cd Artic ...
scrapy框架来爬取壁纸网站并将图片下载到本地文件中
首先需要确定要爬取的内容,所以第一步就应该是要确定要爬的字段: 首先去items中确定要爬的内容 class MeizhuoItem(scrapy.Item): # define the fields ...
Python爬虫 ---scrapy框架初探及实战
目录 Scrapy框架安装操作环境介绍安装scrapy框架(linux系统下) 检测安装是否成功 Scrapy框架爬取原理 Scrapy框架的主体结构分为五个部分: 它还有两个可以自定义下载功能的 ...

随机推荐

input输入框限制输入正整数、小数、字母、文字
有的时候需要限制input的输入格式: 例如,输入大于0的正整数 <input onkeyup="if(this.value.length==1){this.value=this.va ...
关于C语言的第0次作业
1.你认为大学的学习生活.同学关系.师生关系应该是怎样的?请一个个展开描述. 我认为的大学学习生活是充实的,丰富多彩的,与高中快节奏.繁忙的生活有所不同.在上了大学我们都成熟了很多,懂得了包容与忍让, ...
20162328蔡文琛week04
学号 20162328 <程序设计与数据结构>第4周学习总结教材学习内容总结本周学习了第四章和第七章,第四章中的内容已经有了初步定的掌握,布尔表达式的运用,是条件和循环语句的基础及数组 ...
利用flask 实现简单模版站
from flask import Flask,render_template from flask import request app = Flask(__name__) @app.route(' ...
android之SVG制作与应用
文章解析及例子:http://www.jcodecraeer.com/a/anzhuokaifa/androidkaifa/2015/0825/3362.html 工具:Photoshop CC+sv ...
基本数据类型 Symbol
ES6 规范之前, JavaScript 一共有六种数据类型,分别是五种基本数据类型: string . number , boolean , null , undefined ,和一种引用数据类型: ...
JAVA_SE基础——27.匿名对象
黑马程序员入学blog... 匿名对象:没有引用类型变量指向的对象称作为匿名对象. 匿名对象要注意的事项:1. 我们一般不会给匿名对象赋予属性值,因为永远无法获取到.2. 两个匿名对象永远都不可能是同 ...
Spring邮件发送2
前言:上一篇博文讲解了邮件发送的基础用法(数据是写死的),然而在实际开发中,大多数情况下邮件内容都是根据业务来动态生成的.所以在此篇博文中,我们将讲解邮件发送携带数据的几种方案. 一.解析自定义占位符 ...
Win10安装Ubuntu14.04.5双系统（显示器为DP接口）
系统安装主要参考了这篇博文Win10+Ubuntu17.04双系统安装,不再重复. 重点说说DP接口的事,如果主机有VGA接口的话可以到此为止了,如果只有DP接口的话可以参考以下内容. 一.Ubunt ...
Jenkins+maven+git配置
1) 安装maven 如下图我已装好maven(这是我很早以前装的,安装教程大家可以百度一下,很容易安装的) 2) 安装git客户端如下图所示,我也安装好了git客户 ...

macOS下python3通过scrapy框架重新生成不得姐网站视频采集过程日志

macOS下python3通过scrapy框架重新生成不得姐网站视频采集过程日志的更多相关文章

随机推荐

热门专题