pyspider简介

PySpider：一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写，分布式架构，支持多种数据库后端，强大的WebUI支持脚本编辑器，任务监视器，项目管理器以及结果查看器。在线示例：http://demo.pyspider .org/，学习教程：http://www.pyspider.cn/page/1.html

项目需求:

爬去 http://www.adquan.com/ 上面的文章供公司内部学习

简单实现，初步版（命名规范忽略）：

# -*- coding: utf-8 -*-

#__author:jiangjing

#date:2018/2/2

# !/usr/bin/env python

# -*- encoding: utf-8 -*-

# Created on 2017-12-07 13:40:43

# Project: adquan

from pyspider.libs.base_handler import *

import os

import urlparse

import datetime

import re

import requests

import uuid

UPLOAD_IMAGE_URL = "http://10.32.64.194:8233/api/NoLogin/UploadImage"       #上传图片至目标服务器

ADD_WEIBO_ARTICLE_URL = "http://10.32.64.194:8233/api/NoLogin/AddDraft"     #把当前文章添加到草稿

WEIBO_IMAGE_URL = "/upload/image"                                               #地址拼接用

PLAY_VIDEO_URL = "http://10.32.64.196:10001/hls/video/catch"                         #播放视频的地址

IMAGE_DIR_PATH = "/var/hls/image/catch"                                         #图片存放地址

VIDEO_DIR_PATH = "/var/hls/video/catch"                                         #视频存放地址

class Handler(BaseHandler):

    crawl_config = {

    }

    def __init__(self):

        self.deal = Deal()

    @every(minutes=24 * 60 * 3)

    def on_start(self):

        self.crawl('http://www.adquan.com', callback=self.index_page)

    @config(age=100 * 24 * 60 * 60)

    def index_page(self, response):

        for each in response.doc('.work_list_left .w_l_inner_img a').items():

            self.crawl(each.attr.href, callback=self.detail_page)

    @config(priority=2)

    def detail_page(self, response):

        today_str = datetime.date.today().strftime("%Y-%m-%d")

        # 抓取封面

        cover_guid = ''

        for img in response.doc('.con_pic_title img').items():

            url = img.attr.src

            if url:

                image_path = self.deal.getImageDirPath()

                extension = self.deal.getExtension(url)

                guid = str(uuid.uuid1()).replace('-', '')

                file_name = "origin_" + guid + '.' + extension

                file_path = image_path + '/' + file_name

                content = requests.get(url).content

                self.deal.saveImg(content, file_path)

                self.upload_image_to_weibo(file_path, guid, file_name)

                cover_guid = guid

        # 爬取图片

        for img in response.doc('.con_Text img').items():

            url = img.attr.src

            if url:

                extension = self.deal.getExtension(url)

                guid = str(uuid.uuid1()).replace('-', '')

                file_name = "origin_" + guid + '.' + extension

                self.crawl(img.attr.src, callback=self.save_img, save={'file_name': file_name, 'guid': guid})

                img.attr.src = '%s/%s/%s' % (WEIBO_IMAGE_URL, datetime.date.today().strftime("%Y%m%d"), file_name)

        # 抓取视频

        for video in response.doc('.con_Text iframe').items():

            width = video.attr.width

            if not width:

                width = 600

            iframe_url = str(video.attr('data-src')).strip()

            if not video.attr('data-src'):

                iframe_url = str(video.attr.src).strip()

            if not iframe_url:

                continue

            ret = urlparse.urlparse(iframe_url)

            vids = re.findall('vid=(\d|\w*)&?', ret.query)

            if not vids or not vids[0].strip():

                logger.error("get video id failed, url:%s" % (url))

                continue

            guid = str(uuid.uuid1()).replace('-', '')

            play_url = '%s/%s/%s.mp4' % (PLAY_VIDEO_URL, today_str, guid)

            cover_img= '%s/%s/%s.jpg' % (PLAY_VIDEO_URL, today_str, guid)

            video.replaceWith('<video controls="1" src=%s width=%s poster=%s></video>' % (play_url, str(width), cover_img))

            video.attr.poster = cover_img

            self.download_video(vids[0].strip(), guid)

        if response.doc('.text_title').text() != '':

            html_content = response.doc('.con_Text').html()

            text_content = self.deal.filterTag(html_content)

            self.add_article_to_weibo(response.doc('.text_title').text(), html_content , text_content, 2,

                                      cover_guid)

    def add_article_to_weibo(self, title, content, contentText, articleType, picguid):

        data = {'title': title, "content": content, "contentText": contentText, "articleType": articleType,

                "picguid": picguid}

        response = requests.post(ADD_WEIBO_ARTICLE_URL, data=data)

        return {

            "add_article_to_weibo": response.text

        }

    def download_video(self, vid, guid):

        data = {

            "otype": "xml",

            "platform": 11,

            "format": 2,

            "vid": vid,

            "filename": "1.mp4",

            "appver": '3.2.19.333'

        }

        vurl = 'http://vv.video.qq.com/getkey';

        try:

            response = requests.post('http://vv.video.qq.com/getkey', data=data)

            keys = re.findall('<key>([\s\S]+?)</key>', response.text)

            if len(keys) != 0:

                video_url = 'http://videohy.tc.qq.com/video.dispatch.tc.qq.com/%s.mp4?vkey=%s&ocid=2692093356' % (

                vid, keys[0].strip())

                ext = ".mp4"

                ret = urlparse.urlsplit(video_url)

                items = ret.path.split('/')

                today_str = datetime.date.today().strftime("%Y-%m-%d")

                if items[-1]:

                    idx = items[-1].find(".")

                    ext = items[-1][idx:]

                response = requests.get(video_url)

                self.save_vedio(response.content, guid)

        finally:

            pass

    def save_img(self, response):

        content = response.content

        image_path = self.deal.getImageDirPath()

        file_name = response.save['file_name']

        guid = response.save['guid']

        file_path = image_path + '/' + file_name

        self.deal.saveImg(content, file_path)

        self.upload_image_to_weibo(file_path, guid, file_name)

    def upload_image_to_weibo(self, file_path, guid, file_name):

        data = {'guid': guid, "fileName": file_name}

        files = {'file': open(file_path, 'rb')}

        response = requests.post(UPLOAD_IMAGE_URL, data=data, files=files)

        return {

            "upload_image": response.text

        }

    def save_vedio(self, content, guid):

        import threading

        ext = ".mp4"

        file_name = guid + ext

        video_path = self.deal.getVideoDirPath()

        file_path = video_path + '/' + file_name

        self.deal.saveVedio(content, file_path)

        os.system('ffmpeg -i %s -y -f  image2  -ss 1 -vframes 1  %s' % (file_path, file_path.replace('.mp4', '.jpg')))

    def cut_video(self, shell):

        os.system(shell)

class Deal:

    def __init__(self):

        today_str = datetime.date.today().strftime("%Y-%m-%d")

        self.mkDir('%s/%s' % (IMAGE_DIR_PATH, today_str))

        self.mkDir('%s/%s' % (VIDEO_DIR_PATH, today_str))

    def getImageDirPath(self):

        today_str = datetime.date.today().strftime("%Y-%m-%d")

        return '%s/%s' % (IMAGE_DIR_PATH, today_str);

    def getVideoDirPath(self):

        today_str = datetime.date.today().strftime("%Y-%m-%d")

        return '%s/%s' % (VIDEO_DIR_PATH, today_str);

    def mkDir(self, path):

        path = path.strip()

        exists = os.path.exists(path)

        if not exists:

            os.makedirs(path)

            return path

        else:

            return path

    def saveImg(self, content, path):

        f = open(path, 'wb')

        f.write(content)

        f.close()

    def saveVedio(self, content, path):

        f = open(path, 'wb')

        f.write(content)

        f.close()

    def getExtension(self, url):

        extension = url.split('.')[-1]

        return extension

    #将HTML中标签等信息去掉

    #@param htmlstr HTML字符串.'''

    def filterTag(self, htmlstr):

        re_cdata = re.compile('<!DOCTYPE HTML PUBLIC[^>]*>', re.I)

        re_script = re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>', re.I) #过滤脚本

        re_style = re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>', re.I) #过滤style

        re_br = re.compile('<br\s*?/?>')

        re_h = re.compile('</?\w+[^>]*>')

        re_comment = re.compile('<!--[\s\S]*-->')

        s = re_cdata.sub('', htmlstr)

        s = re_script.sub('', s)

        s=re_style.sub('',s)

        s=re_br.sub('\n',s)

        s=re_h.sub(' ',s)

        s=re_comment.sub('',s)

        blank_line=re.compile('\n+')

        s=blank_line.sub('\n',s)

        s=re.sub('\s+',' ',s)

        s=self.replaceCharEntity(s)

        return s

    '''##替换常用HTML字符实体.

    #使用正常的字符替换HTML中特殊的字符实体.

    #你可以添加新的实体字符到CHAR_ENTITIES中,处理更多HTML字符实体.

    #@param htmlstr HTML字符串.'''

    def replaceCharEntity(self, htmlstr):

        CHAR_ENTITIES={'nbsp':'','':'',

                        'lt':'<','':'<',

                        'gt':'>','':'>',

                        'amp':'&','':'&',

                        'quot':'"''"','':'"'}

        re_charEntity=re.compile(r'&#?(?P<name>\w+);') #命名组,把 匹配字段中\w+的部分命名为name,可以用group函数获取

        sz=re_charEntity.search(htmlstr)

        while sz:

            #entity=sz.group()

            key=sz.group('name') #命名组的获取

            try:

                htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1) #1表示替换第一个匹配

                sz=re_charEntity.search(htmlstr)

            except KeyError:

                htmlstr=re_charEntity.sub('',htmlstr,1)

                sz=re_charEntity.search(htmlstr)

        return htmlstr

9.python爬虫--pyspider的更多相关文章

Python爬虫-pyspider框架的使用
pyspider 是一个用python实现的功能强大的网络爬虫系统,能在浏览器界面上进行脚本的编写,功能的调度和爬取结果的实时查看,后端使用常用的数据库进行爬取结果的存储,还能定时设置任务与任务优 ...
[转]Python爬虫框架--pyspider初体验
标签: python爬虫pyspider 2015-09-05 10:57 9752人阅读评论(0) 收藏举报分类: Python(8) 版权声明:本文为博主原创文章,未经博主允许不得转载. ...
Python爬虫进阶四之PySpider的用法
审时度势 PySpider 是一个我个人认为非常方便并且功能强大的爬虫框架,支持多线程爬取.JS动态解析,提供了可操作界面.出错重试.定时爬取等等的功能,使用非常人性化. 本篇内容通过跟我做一个好玩的 ...
python爬虫框架（2）--PySpider框架安装配置
1.安装 1.phantomjs PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API.它全面支持web而不需浏览器支持,其快速.原生支持各种Web标准:DOM 处理 ...
Python爬虫之PySpider框架
概述 pyspider 是一个支持任务监控.项目管理.多种数据库,具有 WebUI 的爬虫框架,它采用 Python 语言编写,分布式架构.详细特性如下: 拥有 Web 脚本编辑界面,任务监控器,项目 ...
[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium
最近准备深入学习Python相关的爬虫知识了,如果说在使用Python爬取相对正规的网页使用"urllib2 + BeautifulSoup + 正则表达式"就能搞定的话:那么动态 ...
python爬虫如何入门
学爬虫是循序渐进的过程,作为零基础小白,大体上可分为三个阶段,第一阶段是入门,掌握必备的基础知识,第二阶段是模仿,跟着别人的爬虫代码学,弄懂每一行代码,第三阶段是自己动手,这个阶段你开始有自己的解题思 ...
芝麻软件： Python爬虫进阶之爬虫框架概述
综述爬虫入门之后,我们有两条路可以走. 一个是继续深入学习,以及关于设计模式的一些知识,强化Python相关知识,自己动手造轮子,继续为自己的爬虫增加分布式,多线程等功能扩展.另一条路便是学习一些优 ...
Python爬虫开发与项目实战
Python爬虫开发与项目实战(高清版)PDF 百度网盘链接:https://pan.baidu.com/s/1MFexF6S4No_FtC5U2GCKqQ 提取码:gtz1 复制这段内容后打开百度 ...

随机推荐

C Program基础-宏定义
写好c语言,漂亮的宏定义是非常重要的,我们在阅读别人工程时,往往能看到大量的宏定义,宏定义可以增加代码的可读性,也能增加代码的可移植性,一个好的宏定义甚至是一件艺术品.今天我们就来看看宏定义的方方面面 ...
小程序之web-view打开外部链接
小程序之web-view - 传送门 web-view 组件是一个可以用来承载网页的容器,会自动铺满整个小程序页面.个人类型与海外类型的小程序暂不支持使用. 一:小程序使用web-view打开链接的前 ...
条款02：尽量以const，enum，inline替换#define
一.概述尽量少用预处理器——宏替换二.细节 1. 关于宏替换之常量旧版本:#define N 10; 新版本:const int n = 10; 比较:#define不被视为语言的一部分,记号名 ...
Android中使用ViewPager制作广告栏效果 - 解决ViewPager占满全屏页面适配问题
. 参考界面 : 携程app首页的广告栏, 使用ViewPager实现自制页面效果图 : 源码下载地址: http://download.csdn.net/detail/han1202 ...
Python中对变量是否为None的判断
三种主要的写法有: 第一种:if X is None; 第二种:if not X: 当X为None, False, 空字符串"", 0, 空列表[], 空字典{}, 空元组()这 ...
【android】实现手指滑动来切换activity(转)
http://code.eoe.cn/115 1.jpg外部引用原始文档 MainActivity.java外部引用原始文档 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 ...
ACM 第一天
标签库元素: 队列<queue> FIFO 栈 <stack> FICO 集合 set 不定长数组 vector 映射 map Maximum Multiple Time ...
C# HttpWebRequest post提交数据,提交对象
1.客户端方法 //属于客户端 //要向URL Post的方法 public void PostResponse() { HttpWebRequest req = (HttpWebRequest)Ht ...
jzoj3865[JSOI2014]士兵部署
‘ 数据范围:n,m<=10^5,传送门:https://jzoj.net/senior/#main/show/3865 感觉jzoj好高明啊,就是访问不太稳定. 首先题意中被n个点控制的区域相 ...
javascript中面向对象的5种写法
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

9.python爬虫--pyspider

pyspider简介

9.python爬虫--pyspider的更多相关文章

随机推荐

热门专题