pyspider 示例

数据存放目录：

C:\Users\Administrator\data

升级版（可加载文章内所有多层嵌套的图片标签）

#!/usr/bin/env python

# -*- encoding: utf-8 -*-

# Created on 2019-04-08 14:24:34

# Project: qunaer

from pyspider.libs.base_handler import *

class Handler(BaseHandler):

    crawl_config = {

    }

    @every(minutes=24 * 60)

    def on_start(self):

        self.crawl('https://travel.qunar.com/travelbook/list.htm', callback=self.index_page,validate_cert=False)

    @config(age=10 * 24 * 60 * 60)

    def index_page(self, response):

        for each in response.doc('li > .tit>a').items():

            self.crawl(each.attr.href, callback=self.detail_page,validate_cert=False,fetch_type='js',js_viewport_height='')

        next1=response.doc('.next').attr.href

        self.crawl(next1,callback=self.index_page,validate_cert=False)

    @config(priority=2)

    def detail_page(self, response):

        imgs=response.doc('.js_memo_node').find('img')#获取id下的所有（包括多层嵌套的）img标签

        img_list=''                                  #必须事先声明，否则return,img_list时会报错：引用未事先声明的局部变量

        for img in imgs.items():

            img_list+=img.attr.src+','              #把所有图片用,组合在一起

                                                    #【复习】img_list=', '.join(['cats', 'rats', 'bats'])

        return {

            "url": response.url,

            "title": response.doc('title').text(),

            "date":response.doc('li.f_item.when > p > span.data').text(),

            "day":response.doc('li.f_item.howlong > p > span.data').text(),

            "text":response.doc('#b_panel_schedule').text(),

            "img":img_list

        }

#ele-3076663-2 > div.bottom > div.e_img_schedule > div > dl:nth-child(2) > dt > img

例子A

#!/usr/bin/env python

# -*- encoding: utf-8 -*-

# Created on 2019-04-08 14:24:34

# Project: qunaer

from pyspider.libs.base_handler import *

class Handler(BaseHandler):

    crawl_config = {

    }

    @every(minutes=24 * 60)

    def on_start(self):

        self.crawl('https://travel.qunar.com/travelbook/list.htm', callback=self.index_page,validate_cert=False)

    @config(age=10 * 24 * 60 * 60)

    def index_page(self, response):

        for each in response.doc('li > .tit>a').items():

            self.crawl(each.attr.href, callback=self.detail_page,validate_cert=False,fetch_type='js',js_viewport_height='')#用js加载，指定页面高度，防止懒加载图片只加载一半

        next1=response.doc('.next').attr.href

        self.crawl(next1,callback=self.index_page,validate_cert=False)

    @config(priority=2)

    def detail_page(self, response):

        #imgs=response.doc('#js_mainleft').find('img')

        #for img in imgs.items():

        #    img_list=img_list+img+','

        return {

            "url": response.url,

            "title": response.doc('title').text(),

            "date":response.doc('li.f_item.when > p > span.data').text(),

            "day":response.doc('li.f_item.howlong > p > span.data').text(),

            "text":response.doc('#b_panel_schedule').text(),

            "img":response.doc('#js_mainleft').find('img').attr.src

        }

#ele-3076663-2 > div.bottom > div.e_img_schedule > div > dl:nth-child(2) > dt > img

pyspider 示例的更多相关文章

pyspider示例代码：解析JSON数据
pyspider示例代码官方网站是http://demo.pyspider.org/.上面的示例代码太多,无从下手.因此本人找出一下比较经典的示例进行简单讲解,希望对新手有一些帮助. 示例说明: py ...
pyspider 示例二升级完整版绕过懒加载，直接读取图片
pyspider 示例二升级完整版绕过懒加载,直接读取图片,见[升级写法处] #!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on ...
pyspider示例代码三：用PyQuery解析页面数据
本系列文章主要记录和讲解pyspider的示例代码,希望能抛砖引玉.pyspider示例代码官方网站是http://demo.pyspider.org/.上面的示例代码太多,无从下手.因此本人找出一些 ...
pyspider示例代码二：解析JSON数据
本系列文章主要记录和讲解pyspider的示例代码,希望能抛砖引玉.pyspider示例代码官方网站是http://demo.pyspider.org/.上面的示例代码太多,无从下手.因此本人找出一下 ...
pyspider示例代码一：利用phantomjs解决js问题
本系列文章主要记录和讲解pyspider的示例代码,希望能抛砖引玉.pyspider示例代码官方网站是http://demo.pyspider.org/.上面的示例代码太多,无从下手.因此本人找出一下 ...
pyspider示例代码六：传递参数
传递参数示例一 #!/usr/bin/env python # -*- encoding: utf- -*- # vim: ts= sts= ff=unix fenc=utf8: # Created ...
pyspider示例代码五：实现自动翻页功能
实现自动翻页功能示例代码一 #!/usr/bin/env python # -*- encoding: utf- -*- # Created on -- :: # Project: v2ex fro ...
pyspider示例代码七：自动登陆并获得PDF文件下载地址
自动登陆并获得PDF文件下载地址 #!/usr/bin/env python # -*- encoding: utf- -*- # Created on -- :: # Project: pdf_sp ...
pyspider示例代码四：搜索引擎爬取
搜索引擎爬取 #!/usr/bin/env python # -*- encoding: utf- -*- # Created on -- :: # Project: __git_lab_fix fr ...

随机推荐

pandas网页操作基础
ipython notebook 命令行输入ipython notebook 此时,浏览器会自动运行并打开ipython网页基本操作如上图所示,新建一个项目导入相关模块,建立一个数据集制造数据 ...
for in 循环
for in循环可以循环遍历数组关键也可以循环遍历对象!而一般的for循环只能循环遍历数组, 当循环遍历对象时key值代表键值对的键,obj[key]则是对应键的值: 当循环遍历数组时,数组不是 ...
【Python爬虫】selenium基础用法
selenium 基础用法阅读目录初识selenium 基本使用查找元素元素互交操作执行JavaScript 获取元素信息等待前进后退 Cookies 选项卡管理异常处理初识sele ...
python练习题-day3
1.有变量name="aleX leNb" 1)移除 name 变量对应的值两边的空格,并输出处理结果 print(name.strip()) 2)移除name变量左边的" ...
【JMeter】JMeter如何输出测试报告
环境要求 1:jmeter3.0版本之后开始支持动态生成测试报表 2:jdk版本1.7以上 3:需要jmx脚本文件基本操作 1:在你的脚本文件路径下,执行cmd命令:jmeter -n -t tes ...
使用SBT构建Scala应用【转载】
使用SBT构建Scala应用 SBT简介 SBT是Simple Build Tool的简称,如果读者使用过Maven,那么可以简单将SBT看做是Scala世界的Maven,虽然二者各有优劣,但完成的工 ...
对k8s service的一些理解
服务service service是一个抽象概念,定义了一个服务的多个pod逻辑合集和访问pod的策略,一般把service称为微服务举个例子一个a服务运行3个pod,b服务怎么访问a服务的pod, ...
一个基于JRTPLIB的轻量级RTSP客户端(myRTSPClient)——实现篇：（七）RTP音视频传输解析层之H264传输格式
一.H264传输封包格式的2个概念 (1)组包模式(Packetization Modes) RFC3984中定义了3种组包模式:单NALU模式(Single Nal Unit Mode).非交错模式 ...
[Leetcode] Template to rotate matrix
Rotate the image by 90 degrees (clockwise). Given input matrix = [ [1,2,3,4], [5,6,7,8], [9,10,11,12 ...
sess.run() 中的fetches和feed_dict
sess.run()由fetches和feed_dict组成 sess.run(fetches,feed_dict) sess.run是让fetches节点动起来,告诉tensorflow,想要此节点 ...

pyspider 示例

pyspider 示例的更多相关文章

随机推荐

热门专题