python爬虫框架Pyspider初次接触

　　pyspider网站地址：http://docs.pyspider.org/en/latest/。文档比较好，安装起来也非常方便。既然是基于python的框架，那么首先得安装python。微软出的一款编辑软件VSCode，运行速度快，提供了丰富的插件，本人用它安装了python的插件，学习python。

我分别在Linux、window上都安装过pyspider，window上貌似有问题。以下是我改写的一段代码：

#!/usr/bin/env python

# -*- encoding: utf-8 -*-

# Created on 2018-04-18 07:17:21

# Project: emeraldinsight

from pyspider.libs.base_handler import *

class Handler(BaseHandler):

    crawl_config = {

    }

    @every(minutes=24 * 60)

    def on_start(self):

        self.crawl('https://www.emeraldinsight.com/action/doSearch?AllField=computer&content=articlesChapters', callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)

    def index_page(self, response):

        for each in response.doc('.hlFld-Title a').items():

            self.crawl(each.attr.href, callback=self.list_page)

    @config(priority=2)

    def list_page(self, response):

        downloadurl='https://www.emeraldinsight.com/action/downloadCitation'

        detailUrl=response.url

        print '详细地址:'+detailUrl

        doi=detailUrl.replace('https://www.emeraldinsight.com/doi/full/','')

        print 'doi:'+doi

        postdata={

         'doi':doi,

         'format':'bibtex'

        }

        self.crawl(downloadurl,callback=self.detail_page,method='POST',data=postdata)

    @config(priority=2)

    def detail_page(self, response):

        print response.text

这个简单的例子中包含有Get、Post请求以及对文档解析，它采用的是PQuery和JQuery的语法类似，所以上手特别快，几乎不用学习。

此框架提供了任务调度、队列、文档解析、web端图形化的界面等。

python爬虫框架Pyspider初次接触的更多相关文章

[转]Python爬虫框架--pyspider初体验
标签: python爬虫pyspider 2015-09-05 10:57 9752人阅读评论(0) 收藏举报分类: Python(8) 版权声明:本文为博主原创文章,未经博主允许不得转载. ...
Python爬虫框架--pyspider初体验
之前接触scrapy本来是想也许scrapy能够让我的爬虫更快,但是也许是我没有掌握scrapy的要领,所以爬虫运行起来并没有我想象的那么快,看这篇文章就是之前使用scrapy的写得爬虫.然后昨天我又 ...
Python爬虫之PySpider框架
概述 pyspider 是一个支持任务监控.项目管理.多种数据库,具有 WebUI 的爬虫框架,它采用 Python 语言编写,分布式架构.详细特性如下: 拥有 Web 脚本编辑界面,任务监控器,项目 ...
Python的两个爬虫框架PySpider与Scrapy安装
Python的两个爬虫框架PySpider与Scrapy安装 win10安装pyspider: 最好以管理员身份运行CMD,不然可能会出现拒绝访问文件夹的情况! pyspider:pip instal ...
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
Linux 安装python爬虫框架 scrapy
Linux 安装python爬虫框架 scrapy http://scrapy.org/ Scrapy是python最好用的一个爬虫框架.要求: python2.7.x. 1. Ubuntu14.04 ...
Python爬虫框架Scrapy实例（三）数据存储到MongoDB
Python爬虫框架Scrapy实例(三)数据存储到MongoDB任务目标:爬取豆瓣电影top250,将数据存储到MongoDB中. items.py文件复制代码# -*- coding: utf-8 ...
Python爬虫框架Scrapy
Scrapy是一个流行的Python爬虫框架, 用途广泛. 使用pip安装scrapy: pip install scrapy scrapy由一下几个主要组件组成: scheduler: 调度器, 决 ...

随机推荐

初学JQuery相关知识点
[简单的JQuery]注册事件的函数. $(document).ready(function(){}) [JQuery提供的函数]$.map(array,fn) 对数组array中每个元素调用fn函数 ...
Zuul
一.zuul是什么 zuul 是netflix开源的一个API Gateway 服务器, 本质上是一个web servlet应用. Zuul 在云平台上提供动态路由,监控,弹性,安全等边缘服务的框架. ...
$Android自定义控件在不同状态下的属性
在写代码的时候,有时候需要控件在不同状态下显示不同的外观,比如在按钮按下的时候要变颜色,EditText获取焦点时候边框要变颜色等.那么下面就来梳理一下这些是怎么实现的. (一)按钮按下时候变颜色 1 ...
Github结合Eclipse出现的问题
半年前因为学习Git花费了很长时间,半年过去了,因为不使用,基本全部忘记了,最近在公司需要使用Eclipse开发相关项目,用到前期的测试数据挖掘的小算法,又重拾Git,不过这次不再是命令行模式,而是结 ...
springboot-vue项目后台2
Main.java package com.hcxy.car; import org.springframework.boot.SpringApplication; import com.hcxy.c ...
Android相机实时自动对焦的完美实现
https://zhidao.baidu.com/question/873328177698804372.html Android相机实时自动对焦的完美实现 http://blog.csdn.net/ ...
前端自动化构建工具-gulp
gulp 和grunt这两个是我知道的自动构建工具,但是说实话都没在项目中用过,不太清楚自动化构建是什么意思, 1.grunt和gulp有什么相同点和不同点? (1).易于使用:采用代码优于配置策略, ...
windows7 安装Apache2时出现failed to open the winNT service manager 提示
因为电脑实在太慢了,C盘的空间所剩无几,要想再安装大一点的软件的话,可能性很小.加之系统已经好久没有重装过了,于是重新安装windows7旗舰版,系统装好后,免不了一堆软件的重装和开发环境配置,首要的 ...
Java 访问修饰符总结
Java中的访问修饰符 Java面向对象的基本思想之一是封装细节并且公开接口. Java语言采用访问控制修饰符来封装类及类的方法和属性的访问权限,从而向使用者暴露接口.隐藏细节. Java访问控制分为 ...
Django 模板标签[转]
Django 模板标签if/else 标签基本语法格式如下: {% if condition %} ... display{% endif %} 或者: {% if condition1 % ...

python爬虫框架Pyspider初次接触

python爬虫框架Pyspider初次接触的更多相关文章

随机推荐

热门专题