pyspider示例代码五：实现自动翻页功能

实现自动翻页功能

示例代码一

#!/usr/bin/env python

# -*- encoding: utf- -*-

# Created on -- ::

# Project: v2ex

from pyspider.libs.base_handler import *

#import re

class Handler(BaseHandler):

    crawl_config = {

    }

    @every(minutes= * )

    def on_start(self):

        self.crawl('https://www.v2ex.com/', callback=self.index_page, validate_cert=False)

    @config(age= *  *  * )

    def index_page(self, response):

        for each in response.doc('a[href^="https://www.v2ex.com/?tab="]').items():

            self.crawl(each.attr.href, callback=self.tab_page, validate_cert=False)

    @config(age= *  *  * )

    def tab_page(self, response):

        for each in response.doc('a[href^="https://www.v2ex.com/go/"]').items():

            self.crawl(each.attr.href, callback=self.board_page, validate_cert=False)

    @config(priority=)

    def board_page(self, response):

        #实现自动翻页功能

        for each in response.doc('a[href^="https://www.v2ex.com/t/"]').items():

            url = each.attr.href

            if url.find('#reply')>:

                url = url[:url.find('#')]

            self.crawl(url, callback=self.detail_page, validate_cert=False)

        for each in response.doc('a.page_normal').items():

            self.crawl(each.attr.href, callback=self.board_page, validate_cert=False) 

    @config(priority=)

    def detail_page(self, response):

        title = response.doc('h1').text()

        content = response.doc('div.topic_content').html().replace('"', '\\"')

        tmp = zip(response.doc('a[href^="/member/"]').items(), response.doc('div.reply_content').items())

        reply_content = list()

        for e1, e2 in tmp:

            reply_content.append((e1.text(), e2.text()))

        #self.add_question(title, content)  #插入数据库

        return {

            "url": response.url,

            "title": title,

            "content": content,

            "reply_content": reply_content,

        }

示例代码二

#!/usr/bin/env python

# -*- encoding: utf- -*-

# Created on -- ::

# Project: tutorial_douban_movie

import re

from pyspider.libs.base_handler import *

class Handler(BaseHandler):

    """

    This is a sample script for: pyspider 爬虫教程（一）：HTML 和 CSS 选择器

    http://blog.binux.me/2015/01/pyspider-tutorial-level-1-html-and-css-selector/

    """

    @every(minutes= * )

    def on_start(self):

        self.crawl('http://movie.douban.com/tag/', callback=self.index_page)

    @config(age= *  * )

    def index_page(self, response):

        for each in response.doc('a[href^="http"]').items():

            if 'tag' in each.attr.href:

                self.crawl(each.attr.href, callback=self.list_page)

    @config(age=***, priority=)

    def list_page(self, response):

        for each in response.doc('HTML>BODY>DIV#wrapper>DIV#content>DIV.grid-16-8.clearfix>DIV.article>DIV>TABLE TR.item>TD>DIV.pl2>A').items():

            self.crawl(each.attr.href, priority=, callback=self.detail_page)

        # 翻页

        for each in response.doc('HTML>BODY>DIV#wrapper>DIV#content>DIV.grid-16-8.clearfix>DIV.article>DIV.paginator>A').items():

            self.crawl(each.attr.href, callback=self.list_page)

    @config(priority=)

    def detail_page(self, response):

        return {

            "url": response.url,

            "title": response.doc('HTML>BODY>DIV#wrapper>DIV#content>H1>SPAN').text(),

            "rating": response.doc('#interest_sectl > div.rating_wrap.clearbox > div.rating_self.clearfix > strong').text(),

            "导演": [x.text() for x in response.doc('a[rel="v:directedBy"]').items()],

        }

pyspider示例代码五：实现自动翻页功能的更多相关文章

ViewPager实现自动翻页功能 --转载出处找不到了，根据自己的理解写个随笔方便以后的记忆以及代码的共享，感谢给我启发的那位高手--第一次写博客哈
xml文件 textview 用于显示图片的标题 viewpager 用于实现翻页效果 <LinearLayout xmlns:android="http://schemas.andr ...
pyspider示例代码七：自动登陆并获得PDF文件下载地址
自动登陆并获得PDF文件下载地址 #!/usr/bin/env python # -*- encoding: utf- -*- # Created on -- :: # Project: pdf_sp ...
pyspider示例代码三：用PyQuery解析页面数据
本系列文章主要记录和讲解pyspider的示例代码,希望能抛砖引玉.pyspider示例代码官方网站是http://demo.pyspider.org/.上面的示例代码太多,无从下手.因此本人找出一些 ...
万能js实现翻页，动态生成内容自动翻页，兼容各种浏览器（已测试）----神器版！
转--http://www.2cto.com/kf/201402/277535.html 万能js实现翻页,动态生成内容自动翻页,兼容各种浏览器(已测试)----神器版! 2014-02-11 ...
Python-爬虫之股转系统下载文件自动翻页
上次代码只能抓取一个网页上的链接,本次可以自主设定抓取的页面个数. 代码如下: from selenium import webdriver import os, time class Downloa ...
C#图片采集软件自动翻页自动分类（收集美图必备工具）（一）
网站管理员希望将别人的整站数据下载到自己的网站里或者将别人网站的一些内容保存到自己的服务器上.从内容中抽取相关的字段,发布到自己的网站系统中.有时需要将网页相关的文件也保存到本地,如图片.附件等. 图 ...
10款无限滚动自动翻页jquery插件
2012年3月29日无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术,它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果,改变了一直以来只能通过点击下一页来翻页 ...
pyspider示例代码：解析JSON数据
pyspider示例代码官方网站是http://demo.pyspider.org/.上面的示例代码太多,无从下手.因此本人找出一下比较经典的示例进行简单讲解,希望对新手有一些帮助. 示例说明: py ...
vue10行代码实现上拉翻页加载更多数据，纯手写js实现下拉刷新上拉翻页不引用任何第三方插件
vue10行代码实现上拉翻页加载更多数据,纯手写js实现下拉刷新上拉翻页不引用任何第三方插件/库一提到移动端的下拉刷新上拉翻页,你可能就会想到iScroll插件,没错iScroll是一个高性能,资源 ...

随机推荐

今天练手了下mysqlbinlog，标记下
1 首先查看是否开启了 bin log 登录mysql后使用命令 show variables like "log_%"; show binary logs; 2 确认开启了 ...
sqlserver导入导出数据库结构及创建用户分配权限
1.创建用户分配权限 https://www.cnblogs.com/jennyjiang-00/p/5803140.html 2.sqlserver2008导出表结构和表数据导出表结构 htt ...
获取ASPxGridView 中的数据（仅仅是获取;注意模板是如何获取的）
1.取得控件值 using System.Collections.Generic; //取得当前控件值的集合直接寻找控件的ID List<object> keyValues = this ...
location 对象属性
Location 对象属性 hash 返回一个URL的锚部分 host 返回一个URL的主机名和端口 hostname 返回URL的主机名 href 返回完整的URL pathname 返回的URL路 ...
Spring MVC 视图及视图解析器
org.springframework.web.servlet.view.InternalResoureceViewResolve 把逻辑视图改为物理视图可混用多种视图不进过Handler直接进入 ...
File 操作
文件乱码服务器地址 try-with-resource 属性文件获取文件排序文件过滤文件下载流文件传递文件乱码: WINDOWS系统桌面默认使用GBK,Linux系统默认使用UTF-8. ...
MCI 录制指定格式音频
可先用其他格式转换软件转换一段0秒指定格式的音频,然后用mcisendstring(L"open xxx.avi alias abc",0,0,0)打开,在进行录音mcisends ...
Object-c中的单例
#import <UIKit/UIKit.h> @interface UniAudioPlayer:NSObject{ } +(UniAudioPlayer*) getInstance; ...
Haskell语言学习笔记（41）Parsec（1）
Parsec Parsec是一个词法及语法分析器. 匹配字符与字符串 Prelude Text.Parsec> parseTest anyChar "a" 'a' Prelu ...
libUpnp缓冲区溢出、拒绝服务等漏洞分析
该漏洞存在于UPnP™设备的便携式SDK中,也叫做 libupnp.这个库是用来实现媒体播放(DLAN)或者NAT地址转换(UPnP IGD).智能手机上的应用程序可用这些功能播放媒体文件或者利用用户 ...

pyspider示例代码五：实现自动翻页功能

实现自动翻页功能

示例代码一

示例代码二

pyspider示例代码五：实现自动翻页功能的更多相关文章

随机推荐

热门专题