pyspider爬取tourism management 所有文章的标题作者摘要关键词等等所有你想要的信息

#!/usr/bin/env python

# -*- encoding: utf-8 -*-

# vim: set et sw=4 ts=4 sts=4 ff=unix fenc=utf8:

# Created on 2014-10-31 13:05:52

import re

from libs.base_handler import *

class Handler(BaseHandler):

    '''

    this is a sample handler

    '''

    crawl_config = {

        "headers": {

            "User-Agent": "BaiDu_Spider",

        },

        "timeout":300,

        "connect_timeout":100

    }

    def on_start(self):

       self.crawl('http://www.sciencedirect.com/science/journal/02615177',timeout=300,connect_timeout=100,age=0, callback=self.index_page)

    @config(fetch_type="js")

    def index_page(self, response):

        for each in response.doc('a').items():

            url=each.attr.href

            #print(url)

            if url!=None:

                if re.match('http://www.sciencedirect.com/science/article/pii/\w+$', url):

                    self.crawl(url,callback=self.detail_page,timeout=300,connect_timeout=100)

        self.crawl(response.doc('#volumeIssueData ul.navigation li a.ActionButton').attr.href, callback=self.index_page,timeout=300,connect_timeout=100)     

    @config(fetch_type="js")

    def detail_page(self, response):

       #self.index_page(response)      

        return {

                "url": response.url,

                "title": response.doc('h1.article-title span').text(),

                "authors": [x.text() for x in response.doc('.author.size-m.workspace-trigger span.content span.text').items()],

                "abstract": response.doc('.Abstracts div div p').text(),

                "keywords": [x.text() for x in response.doc('.keyword span').items()],
　　　　　　　　　　#这里可以根据你想得到的信息自己根据 csspath添加

                }

pyspider爬取tourism management 所有文章的标题作者摘要关键词等等所有你想要的信息的更多相关文章

爬取博主所有文章并保存到本地（.txt版）--python3.6
闲话: 一位前辈告诉我大学期间要好好维护自己的博客,在博客园发布很好,但是自己最好也保留一个备份. 正好最近在学习python,刚刚从py2转到py3,还有点不是很习惯,正想着多练习,于是萌生了这个想 ...
爬虫实战——Scrapy爬取伯乐在线所有文章
Scrapy简单介绍及爬取伯乐在线所有文章一.简说安装相关环境及依赖包 1.安装Python(2或3都行,我这里用的是3) 2.虚拟环境搭建: 依赖包:virtualenv,virtualenvwr ...
Node爬取简书首页文章
Node爬取简书首页文章博主刚学node,打算写个爬虫练练手,这次的爬虫目标是简书的首页文章流程分析使用superagent发送http请求到服务端,获取HTML文本用cheerio解析获得的 ...
使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)
前言第一次写博客,主要内容是爬取微信公众号的文章,将文章以PDF格式保存在本地. 爬取微信公众号文章(使用wechatsogou) 1.安装 pip install wechatsogou --up ...
网络字体反爬之pyspider爬取起点中文小说
前几天跟同事聊到最近在看什么小说,想起之前看过一篇文章说的是网络十大水文,就想把起点上的小说信息爬一下,搞点可视化数据看看.这段时间正在看爬虫框架-pyspider,觉得这种网站用框架还是很方便的,所 ...
Python爬取CSDN博客文章
0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.win ...
python3 爬取搜狗微信的文章
目标地址:http://weixin.sogou.com/weixin? 这个地址是搜狗微信的文章搜索,可以搜索到微信的文章,而我们目标就是这些文章内容这个url经过测试,当我们没登陆微信只能看到1 ...
Java爬取网络博客文章
前言近期本人在某云上购买了个人域名,本想着以后购买与服务器搭建自己的个人网站,由于需要筹备的太多,暂时先搁置了,想着先借用GitHub Pages搭建一个静态的站,搭建的过程其实也曲折,主要是域名地 ...
使用pyspider爬取巨量淘宝MM图片
具体搭建步骤不再赘述,这里主要使用到了fakeagent,phantomjs和proxy pyspider的爬取相当智能,在不能获取图片的时候会适当的暂停一段时间再试探性的爬取,配合fakeagent ...

随机推荐

SpringCloud-day07-Feign
7.Feign 7.1.Feign简介声明式服务调用Feign简单介绍下: Feign是一个声明式的Web Service客户端,它使得编写Web Serivce客户端变得更加简单.我们只需要使用F ...
3D Math Keynote 4
[3D Math Keynote 4] 1.三角带. 合并三角带能够提升渲染效率. 三角扇. 2.边缩坍,将边缩减为顶点 . 网格消减,使用边缩坍,可以实现渐进式网络. 3.下图左边是面拆分.右边是焊 ...
AS3语法和UNITY C#语法的异同
AS3 UNITY Sprite a = new Sprite(); trace(a.paent); 此时a.parent为null,还未AddChild到屏幕上, 一般用这个来判断在不在屏幕上 ...
jvm排查问题常用命令及注释
本文将介绍JDK自带的JVM排查工具.其提供的排查工具有: (1)jps:JVM Process Status Tool,显示系统内所有的JVM进程: (2)jstat:JVM Statistics ...
LAB6 SOAP
有web服务的,需要Deploy一下才能跑通过ls看所有文件的所在地,cd进入对应文件夹,才可以编译 javac 编译,Java是执行 URL必须是WSDL文件点进去里面的:http://local ...
Spring常用注解总结(1)
前言:项目中常用的注解常看常记,总会对自己有些好处,所以在这里分享一下. 使用spring时,可以使用xml配置文件配置相关信息.但是我还是喜欢用注解的方式,因为可以充分利用反射机制获取类结构信息,而 ...
磁盘管理 lvm减容扩容
参考https://blog.csdn.net/wk022/article/details/50543922 新增磁盘/dev/sdb fdisk /dev/sdb 分两个分区 (n p 1 /n ...
MathExam Lv2
一个大气又可爱的算术题----211606360 丁培晖 211606343 杨宇潇一.预估与实际 PSP2.1 Personal Software Process Stages 预估耗时(分钟) ...
快速排序的两种实现方法（js）
快速排序的基本思想:通过一趟排序,将待排记录分割成独立的两部分,其中一部分记录的关键字均比另外一部分记录的关键字小,则可分别对着两部分记录继续进行排序,以达到整个序列有序的目的.----------- ...
node.js生成二维码
var http = require('http'); var qs = require('querystring'); var qrImg = require('qr-image'); var se ...

pyspider爬取tourism management 所有文章的标题 作者 摘要 关键词等等所有你想要的信息

pyspider爬取tourism management 所有文章的标题 作者 摘要 关键词等等所有你想要的信息的更多相关文章

随机推荐

热门专题

pyspider爬取tourism management 所有文章的标题作者摘要关键词等等所有你想要的信息

pyspider爬取tourism management 所有文章的标题作者摘要关键词等等所有你想要的信息的更多相关文章