pyspider示例代码一：利用phantomjs解决js问题

本系列文章主要记录和讲解pyspider的示例代码，希望能抛砖引玉。pyspider示例代码官方网站是http://demo.pyspider.org/。上面的示例代码太多，无从下手。因此本人找出一下比较经典的示例进行简单讲解，希望对新手有一些帮助。

示例说明：

如果页面中部分数据或文字由js生成，pyspider不能直接提取页面的数据。pyspider获取页面的代码，但是其中的js代码phantomjs，解决js代码执行问题。

使用方法：

方法一：在self.crawl函数中添加fetch_type="js"调用phantomjs执行js代码。

方法二：为函数添加参数@config(fetch_type="js")。

示例代码：

1、www.sciencedirect.com网站示例

#!/usr/bin/env python

# -*- encoding: utf- -*-

# vim: set et sw= ts= sts= ff=unix fenc=utf8:

# Created on -- ::

import re

from libs.base_handler import *

class Handler(BaseHandler):

    '''

    this is a sample handler

    '''

    crawl_config = {

        "headers": {

            "User-Agent": "BaiDu_Spider",

        },

        "timeout":,

        "connect_timeout":

    }

    def on_start(self):

        self.crawl('http://www.sciencedirect.com/science/article/pii/S1568494612005741',timeout=,connect_timeout=,

                   callback=self.detail_page)

        self.crawl('http://www.sciencedirect.com/science/article/pii/S0167739X12000581',timeout=,connect_timeout=,

                   age=, callback=self.detail_page)

        self.crawl('http://www.sciencedirect.com/science/journal/09659978',timeout=,connect_timeout=,

                   age=, callback=self.index_page)

    @config(fetch_type="js")

    def index_page(self, response):

        for each in response.doc('a').items():

            url=each.attr.href

            #print(url)

            if url!=None:

                if re.match('http://www.sciencedirect.com/science/article/pii/\w+$', url):

                    self.crawl(url, callback=self.detail_page,timeout=,connect_timeout=)

    @config(fetch_type="js")

    def detail_page(self, response):

        self.index_page(response)

        self.crawl(response.doc('#relArtList > li > .cLink').attr.href, callback=self.index_page,timeout=,connect_timeout=)

        return {

                "url": response.url,

                "title": response.doc('.svTitle').text(),

                "authors": [x.text() for x in response.doc('.authorName').items()],

                "abstract": response.doc('.svAbstract > p').text(),

                "keywords": [x.text() for x in response.doc('.keyword span').items()],

                }

pyspider示例代码一：利用phantomjs解决js问题的更多相关文章

pyspider示例代码：解析JSON数据
pyspider示例代码官方网站是http://demo.pyspider.org/.上面的示例代码太多,无从下手.因此本人找出一下比较经典的示例进行简单讲解,希望对新手有一些帮助. 示例说明: py ...
pyspider示例代码二：解析JSON数据
本系列文章主要记录和讲解pyspider的示例代码,希望能抛砖引玉.pyspider示例代码官方网站是http://demo.pyspider.org/.上面的示例代码太多,无从下手.因此本人找出一下 ...
pyspider示例代码三：用PyQuery解析页面数据
本系列文章主要记录和讲解pyspider的示例代码,希望能抛砖引玉.pyspider示例代码官方网站是http://demo.pyspider.org/.上面的示例代码太多,无从下手.因此本人找出一些 ...
爬虫：selenium + phantomjs 解决js抓取问题(一)
selenium模块主要用来做测试,模拟键盘.鼠标来操作浏览器. phantomjs 就像一个无界面的浏览器一样. 两个结合能很好的解决js抓取的问题. 测试代码: #coding=utf-8 fro ...
pyspider示例代码五：实现自动翻页功能
实现自动翻页功能示例代码一 #!/usr/bin/env python # -*- encoding: utf- -*- # Created on -- :: # Project: v2ex fro ...
pyspider示例代码六：传递参数
传递参数示例一 #!/usr/bin/env python # -*- encoding: utf- -*- # vim: ts= sts= ff=unix fenc=utf8: # Created ...
pyspider示例代码七：自动登陆并获得PDF文件下载地址
自动登陆并获得PDF文件下载地址 #!/usr/bin/env python # -*- encoding: utf- -*- # Created on -- :: # Project: pdf_sp ...
pyspider示例代码四：搜索引擎爬取
搜索引擎爬取 #!/usr/bin/env python # -*- encoding: utf- -*- # Created on -- :: # Project: __git_lab_fix fr ...
利用PhantomJS进行网页截屏，完美解决截取高度的问题
关于PhantomJS PhantomJS 是一个基于WebKit的服务器端 JavaScript API.它全面支持web而不需浏览器支持,其快速,原生支持各种Web标准: DOM 处理, CSS ...

随机推荐

[BZOJ4802]欧拉函数
bzoj description 给出\(n\),求\(\varphi(n)\).\(n\le10^{18}\) sol \(Pollard\ Rho\),存个代码. code #include< ...
对类 sizeof
sizeof一个类的时候,都什么会被计算?静态成员会被计算进来么?如果这是一个子类,它的父类成员会被计算么? #include <iostream> using namespace std ...
关于_WIN32_WINNT的含义
在使用一些新版本的API,或者控件的新特性(比如新版的ComCtl32.dll)的时候,你可能会得到“error C2065: undeclared identifier.“这个错误.原因是这些功能是 ...
文件读取错误UnicodeDecodeError: 'utf-8' codec can't decode byte 0x92 in position 884: invalid start byte
参考: https://segmentfault.com/q/1010000004268196/a-1020000004269556 ubuntu下Python3使用open('filename', ...
Linux C 一些函数所属的头文件
在编写程序时,有时总是不记得所使用的函数在哪个库函数中.现在先把自己以前经常用到的函数头文件总结一下. 有不对的地方还请指教. 1,系统调用文件的操作函数 #inlclude <fcntl.h& ...
ESN
1.对于一般的硬件设备,ESN是设备序列号,主要用来识别设备,包括未来服务鉴权的需要 2.对于需要license的设备,ESN也是设备序列号的意思,只不过这个序列号可能是根据设备硬件信息算出来的一串字 ...
C++实现大正整数及其相关运算(长期更新)
/** 只考虑正数[1, +∞); “-”运算只允许大数减小数; 小端存储: */ typedef struct BigInteger0 { vector<int> v; BigInteg ...
Python开发一个堡垒机
项目实战:运维堡垒机开发前景介绍到目前为止,很多公司对堡垒机依然不太感冒,其实是没有充分认识到堡垒机在IT管理中的重要作用的,很多人觉得,堡垒机就是跳板机,其实这个认识是不全面的,跳板功能只是堡垒 ...
Spring Boot自动配置
Spring Boot自动配置原理 Spring Boot的自动配置注解是@EnableAutoConfiguration, 从上面的@Import的类可以找到下面自动加载自动配置的映射. org.s ...
解决pip安装时的Readtime out问题
方法一 pip --default-timeout=100 install -U Pillow就可以了方法二 pip install pyinstaller -i https://pypi.douba ...