python爬虫框架Pyspider初次接触

　　pyspider网站地址：http://docs.pyspider.org/en/latest/。文档比较好，安装起来也非常方便。既然是基于python的框架，那么首先得安装python。微软出的一款编辑软件VSCode，运行速度快，提供了丰富的插件，本人用它安装了python的插件，学习python。

我分别在Linux、window上都安装过pyspider，window上貌似有问题。以下是我改写的一段代码：

#!/usr/bin/env python

# -*- encoding: utf-8 -*-

# Created on 2018-04-18 07:17:21

# Project: emeraldinsight

from pyspider.libs.base_handler import *

class Handler(BaseHandler):

    crawl_config = {

    }

    @every(minutes=24 * 60)

    def on_start(self):

        self.crawl('https://www.emeraldinsight.com/action/doSearch?AllField=computer&content=articlesChapters', callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)

    def index_page(self, response):

        for each in response.doc('.hlFld-Title a').items():

            self.crawl(each.attr.href, callback=self.list_page)

    @config(priority=2)

    def list_page(self, response):

        downloadurl='https://www.emeraldinsight.com/action/downloadCitation'

        detailUrl=response.url

        print '详细地址:'+detailUrl

        doi=detailUrl.replace('https://www.emeraldinsight.com/doi/full/','')

        print 'doi:'+doi

        postdata={

         'doi':doi,

         'format':'bibtex'

        }

        self.crawl(downloadurl,callback=self.detail_page,method='POST',data=postdata)

    @config(priority=2)

    def detail_page(self, response):

        print response.text

这个简单的例子中包含有Get、Post请求以及对文档解析，它采用的是PQuery和JQuery的语法类似，所以上手特别快，几乎不用学习。

此框架提供了任务调度、队列、文档解析、web端图形化的界面等。

python爬虫框架Pyspider初次接触的更多相关文章

[转]Python爬虫框架--pyspider初体验
标签: python爬虫pyspider 2015-09-05 10:57 9752人阅读评论(0) 收藏举报分类: Python(8) 版权声明:本文为博主原创文章,未经博主允许不得转载. ...
Python爬虫框架--pyspider初体验
之前接触scrapy本来是想也许scrapy能够让我的爬虫更快,但是也许是我没有掌握scrapy的要领,所以爬虫运行起来并没有我想象的那么快,看这篇文章就是之前使用scrapy的写得爬虫.然后昨天我又 ...
Python爬虫之PySpider框架
概述 pyspider 是一个支持任务监控.项目管理.多种数据库,具有 WebUI 的爬虫框架,它采用 Python 语言编写,分布式架构.详细特性如下: 拥有 Web 脚本编辑界面,任务监控器,项目 ...
Python的两个爬虫框架PySpider与Scrapy安装
Python的两个爬虫框架PySpider与Scrapy安装 win10安装pyspider: 最好以管理员身份运行CMD,不然可能会出现拒绝访问文件夹的情况! pyspider:pip instal ...
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
Linux 安装python爬虫框架 scrapy
Linux 安装python爬虫框架 scrapy http://scrapy.org/ Scrapy是python最好用的一个爬虫框架.要求: python2.7.x. 1. Ubuntu14.04 ...
Python爬虫框架Scrapy实例（三）数据存储到MongoDB
Python爬虫框架Scrapy实例(三)数据存储到MongoDB任务目标:爬取豆瓣电影top250,将数据存储到MongoDB中. items.py文件复制代码# -*- coding: utf-8 ...
Python爬虫框架Scrapy
Scrapy是一个流行的Python爬虫框架, 用途广泛. 使用pip安装scrapy: pip install scrapy scrapy由一下几个主要组件组成: scheduler: 调度器, 决 ...

随机推荐

HackerRank - maximum-perimeter-triangle 【水】
题意给出一系列数字,判断其中哪三个数字可以构成一个三角形,如果有多个,输出周长最大的那个,如果没有输出 - 1 思路数据较小,所有情况FOR一遍判断一下 AC代码 #include <cs ...
Java生成json
JSON(JavaScript Object Notation):一种轻量级的数据交换格式: Be JSON:在线JSON校验格式化工具 www.bejson.com 需求:编写代码生成如下的json ...
mybatis使用注意的细节
1.mybatis对sql执行后会对结果进行封装,如果没有返回任何记录,只是封装后的对象没有值,而对象并不为空null: (这个问题疏忽坑了两次,在对返回数组结果进行判断的时候,我用的if(Array ...
qt的udp的初步使用（转）
该程序实现的功能是:局域网内,每个用户登录到聊天软件,则软件界面的右端可以显示在线用户列表,分别显示的是用户名,主机名,ip地址.软件左边那大块是聊天内容显示界面,这里局域网相当于qq中的qq群,即群 ...
Python字符串格式转换
转换类型转换类型说明 d, i 带符号十进制 b 无符号二进制 o 无符号八进制 u 无符号十进制 x 无符号十六进制(小写) X 无符号十六进制(大写) e 科学计数法表示的浮点数(小写) E ...
JavaWeb CSS
1. CSS介绍 1.1. 什么是CSS CSS全称为Cascading Style Sheets,译为层叠样式表. 样式定义如何显示HTML元素. 样式通常存储在样式表中. 1.2. 百度百科 CS ...
how to use Inspector in fiddler
打开fiddler之后,会自动捕获本机的http请求,以列表的形式显示在左侧双击左侧列表中的某一个request,右侧会自动切换到Inspectors窗口. 右侧上半部分是request的raw G ...
【bzoj2819】Nim（dfs序+树状数组/线段树）
题目传送门:https://www.lydsy.com/JudgeOnline/problem.php?id=2819 首先根据SG定理,可得若每堆石子数量的异或值为0,则后手必胜,反之先手必胜.于是 ...
DataX-ElasticSearch(写)
DataX写入ElasticSearch 1 快速介绍数据导入elasticsearch的插件 2 实现原理使用elasticsearch的rest api接口, 批量把从reader读入的数据写 ...
1.java实现——正规表达式判断
目标:这个代码仅局限于所展示的正规表达式判断,也就是这是一个较单一的正规表达式判断(简易版). 既然是简易版的,所以若要修改这个正规表达式也是非常容易的,只要将二维数组中的数组修改即可.数组数据依据, ...

python爬虫框架Pyspider初次接触

python爬虫框架Pyspider初次接触的更多相关文章

随机推荐

热门专题