pyspider示例代码七：自动登陆并获得PDF文件下载地址

自动登陆并获得PDF文件下载地址

#!/usr/bin/env python

# -*- encoding: utf- -*-

# Created on -- ::

# Project: pdf_spider

import re

from pyspider.libs.base_handler import *

class Handler(BaseHandler):

    global Cookie

    Cookie= {"tsclub_bb90_saltkey":"xozcC32l",

"tsclub_bb90_lastvisit":"",

"tsclub_bb90_visitedfid":"",

"tsclub_bb90_ulastactivity":"1428579196%7C0",

"tsclub_bb90_auth":"f9f8KcrDaj3q9aY9OxESFgE2Cz%2BArVk0gZ5jv%2BQohyhctLjeopEZrXU%2FEbsF6pk%2B754%2Fsi5DnB0W%2BmsmLwMvtC3xkWLt",

"tsclub_bb90_lastcheckfeed":"5470207%7C1428579196",

"tsclub_bb90_lip":"122.13.84.73%2C1428579196",

"tsclub_bb90_nofavfid":"",

"pgv_pvi":"",

"pgv_info":"ssi=s5025153920",

"Hm_lvt_ee0d63d2db0dfbf9e0d399bccbd5fce7":"1428461128,1428578830",

"Hm_lpvt_ee0d63d2db0dfbf9e0d399bccbd5fce7":"",

"tsclub_bb90_lastact":"1428581519%09misc.php%09patch",

"tjpctrl":"",

             }

    headers= {

        "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",

        "Accept-Encoding":"gzip;deflate;sdch",

        "Accept-Language":"zh-CN,zh;en-US;q=0.8",

        "Cache-Control":"no-cache",

        "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 UBrowser/4.0.4368.102 Safari/537.36",

        "Host":"club.topsage.com",

        "Pragma":"no-cache",

        "Refer":"http://club.topsage.com",

        "Connection":"keep-alive",

    }

    crawl_config = {

        "headers" : headers,

        "timeout" : ,

        "cookies" : Cookie

    }

    @every(minutes= * )

    def on_start(self):

        self.crawl('http://club.topsage.com/', callback=self.index_page)

    @config(age= *  *  * )

    def index_page(self, response):

        for each in response.doc('a[href^="http"]').items():

            if(re.match("http://club\.topsage\.com/forum-.+\.html", each.attr.href, re.U)):

                self.crawl(each.attr.href, callback=self.forum_page)

            elif re.match("http://club\.topsage\.com/thread-.+\.html", each.attr.href, re.U):

                self.crawl(each.attr.href, callback=self.detail_page)

    @config(age= *  *  * , priority=)

    def forum_page(self, response):

        response_url=response.url

        #print('forum_page >> response url is ' + response_url)

        for each in response.doc('a[href^="http://club.topsage.com"]').items():

            #if each.attr.href!=response.url:

            #detail page

            if re.match("http://club\.topsage\.com/thread-.+\.html", each.attr.href, re.U):

                self.crawl(each.attr.href, callback=self.detail_page)

            #forum forum page

            elif re.match("http://club\.topsage\.com/forum-.+\.html", each.attr.href, re.U):

                self.crawl(each.attr.href, callback=self.forum_page)

        #next page

        for each in response.doc('html > body > div > div > div > div > a').items():

            self.crawl(each.attr.href, callback=self.forum_page)

    @config(priority=)

    def detail_page(self, response):

        response_url=response.url

        print('detail_page >> response url is ' + response_url)

        for each in response.doc('table tr > td > a').items():

                if(self.is_url_matched(each.attr.href)):

                    print('attachment url is ' + each.attr.href)

                    return {

                        "download_url":each.attr.href,

                        "file_name":each.text(),

                        }

    def is_url_matched(self, url):

        if(re.match('^(http|ftp|https)://.+\.(zip|rar|tar|pdf|doc|docx|excel|ppt|pptx)$', url, re.U)):

            return True

        if(re.match('^http://club\.topsage\.com/forum\.php\?mod=attachment.+', url, re.U)):

            return True

        return False

pyspider示例代码七：自动登陆并获得PDF文件下载地址的更多相关文章

pyspider示例代码：解析JSON数据
pyspider示例代码官方网站是http://demo.pyspider.org/.上面的示例代码太多,无从下手.因此本人找出一下比较经典的示例进行简单讲解,希望对新手有一些帮助. 示例说明: py ...
pyspider示例代码三：用PyQuery解析页面数据
本系列文章主要记录和讲解pyspider的示例代码,希望能抛砖引玉.pyspider示例代码官方网站是http://demo.pyspider.org/.上面的示例代码太多,无从下手.因此本人找出一些 ...
pyspider示例代码二：解析JSON数据
本系列文章主要记录和讲解pyspider的示例代码,希望能抛砖引玉.pyspider示例代码官方网站是http://demo.pyspider.org/.上面的示例代码太多,无从下手.因此本人找出一下 ...
pyspider示例代码一：利用phantomjs解决js问题
本系列文章主要记录和讲解pyspider的示例代码,希望能抛砖引玉.pyspider示例代码官方网站是http://demo.pyspider.org/.上面的示例代码太多,无从下手.因此本人找出一下 ...
pyspider示例代码五：实现自动翻页功能
实现自动翻页功能示例代码一 #!/usr/bin/env python # -*- encoding: utf- -*- # Created on -- :: # Project: v2ex fro ...
pyspider示例代码六：传递参数
传递参数示例一 #!/usr/bin/env python # -*- encoding: utf- -*- # vim: ts= sts= ff=unix fenc=utf8: # Created ...
pyspider示例代码四：搜索引擎爬取
搜索引擎爬取 #!/usr/bin/env python # -*- encoding: utf- -*- # Created on -- :: # Project: __git_lab_fix fr ...
QQ互联OAuth2.0 .NET SDK 发布以及网站QQ登陆示例代码(转)
OAuth: OAuth(开放授权)是一个开放标准,允许用户授权第三方网站访问他们存储在另外的服务提供者上的信息,而不需要将用户名和密码提供给第三方网站或分享他们数据的所有内容. QQ登录OAuth2 ...
QQ互联OAuth2.0 .NET SDK 发布以及网站QQ登陆示例代码
OAuth: OAuth(开放授权)是一个开放标准,允许用户授权第三方网站访问他们存储在另外的服务提供者上的信息,而不需要将用户名和密码提供给第三方网站或分享他们数据的所有内容. QQ登录OAuth2 ...

随机推荐

Struts2:No result defined for action com.yibai.user.action.LoginAction and result input
转自:https://zhidao.baidu.com/question/133574016.html 1 String 里面有5个static 常量分别是: ERROR INPUT LOGIN NO ...
MySQLNonTransientConnectionException: No operations allowed after connection closed
原因分析查看了Mysql的文档,以及Connector/J的文档以及在线说明发现,出现这种异常的原因是: Mysql服务器默认的"wait_timeout"是8小时,也就是说一个 ...
Spring声明式事务不回滚问题
疑问,确实像往常一样在service上添加了注解 @Transactional,为什么查询数据库时还是发现有数据不一致的情况,想想肯定是事务没起作用,出现异常的时候数据没有回滚.于是就对相关代码进行了 ...
tensorflow笔记之学习率设置
在使用梯度下降最小化损失函数时,如果学习率过大会导致问题不能收敛到最优解,学习率过小,虽然可以收敛到最优解,但是需要的迭代次数会大大增加,在Tensorflow中,可以用指数衰减法设置学习率,tf.t ...
迷你MVVM框架 avalonjs 1.3.9发布
本次升级,avalon改进了许多内部方法,大大提升性能,并且带来异步刷新视图的新功能. ms-html内部不再使用异步 head元素中的avalon元素加入ms-skip指令重构计算属性,现在超级轻 ...
数据类型-Series
数据类型-Series Series数据类型由一组数据和数据相关的索引组成,键 -> 值 Series数据类型可视为:一维带标签数组 Series基本操作类似数组和字典 Series数据类型 ...
MySQL中实现Oracle里面 rank()over ( PARTITION BY ORDER BY) 分类分组功能
各班级学生成绩测试表 select * from TMP_A; 实现目的: 按照班级分类后按照分数倒序排序采用MySQL变量简单实现,SQL如下: SELECT a.stu_id,a.point, ...
注释和取消注释程序中的log日志
有点简单,但也是原创哦..亲测有效,期待指正. 更改了log多行的问题.. 例如//Log Util: 一.注释log import java.io.BufferedReader;import ...
vmadm命令
VMADM(1M)VMADM(1M) 名称 vmadm - 管理SmartOS虚拟机概要 / usr / vm / sbin / vmadm <command> [-d] [-v] [特 ...
smartos介绍
https://wiki.smartos.org A Little History 2005年,Sun Microsystems开源了其著名的Unix操作系统Solaris,最终被发布为一个名为Ope ...

pyspider示例代码七：自动登陆并获得PDF文件下载地址

自动登陆并获得PDF文件下载地址

pyspider示例代码七：自动登陆并获得PDF文件下载地址的更多相关文章

随机推荐

热门专题