Pyspider上手

pyspider安装： pip3 install Pyspider

启动服务操作

1、打开cmd:输入 pyspider --help 回车，可以查看帮助信息，pyspider all 启动command服务

2、启动后看到0.0.0.0.5000 提示就启动好了，打开浏览器127.0.0.1：5000或者http://localhost:5000/ 打开pyspider的web UI界面，

3、首先点击creat创建项目，名字任意

4、右边web页面代码如下：

#!/usr/bin/env python

# -*- encoding: utf-8 -*-
# Created on 2018-08-22 23:16:23
# Project: TripAdvisor

from pyspider.libs.base_handler import *

class Handler(BaseHandler):
crawl_config = {
}

@every(minutes=24 * 60)
def on_start(self):
self.crawl('__START_URL__', callback=self.index_page)

@config(age=10 * 24 * 60 * 60)
def index_page(self, response):
for each in response.doc('a[href^="http"]').items():
self.crawl(each.attr.href, callback=self.detail_page)

@config(priority=2)
def detail_page(self, response):
return {
"url": response.url,
"title": response.doc('title').text(),
}

把__START_URL__替换成要爬取的网站地址，进行save，点击左边的run按钮，点击左边窗体的follow点击《、》箭头

第一次尝试pyspider，出师未捷身先死，，，599了，立马百度下PySpider HTTP 599: SSL certificate problem错误的解决方法，发现有同病相怜的小伙伴，学习下经验https://blog.csdn.net/asmcvc/article/details/51016485

报错完整的代码（每个人安装的python路径不一样地址会有差异）

[E 180822 23:51:45 base_handler:203] HTTP 599: SSL certificate problem: self signed certificate in certificate chain

    Traceback (most recent call last):

      File "e:\programs\python\python36\lib\site-packages\pyspider\libs\base_handler.py", line 196, in run_task

        result = self._run_task(task, response)

      File "e:\programs\python\python36\lib\site-packages\pyspider\libs\base_handler.py", line 175, in _run_task

        response.raise_for_status()

      File "e:\programs\python\python36\lib\site-packages\pyspider\libs\response.py", line 172, in raise_for_status

        six.reraise(Exception, Exception(self.error), Traceback.from_string(self.traceback).as_traceback())

      File "e:\programs\python\python36\lib\site-packages\six.py", line 692, in reraise

        raise value.with_traceback(tb)

      File "e:\programs\python\python36\lib\site-packages\pyspider\fetcher\tornado_fetcher.py", line 378, in http_fetch

        response = yield gen.maybe_future(self.http_client.fetch(request))

      File "e:\programs\python\python36\lib\site-packages\tornado\httpclient.py", line 102, in fetch

        self._async_client.fetch, request, **kwargs))

      File "e:\programs\python\python36\lib\site-packages\tornado\ioloop.py", line 458, in run_sync

        return future_cell[0].result()

      File "e:\programs\python\python36\lib\site-packages\tornado\concurrent.py", line 238, in result

        raise_exc_info(self._exc_info)

      File "<string>", line 4, in raise_exc_info

    Exception: HTTP 599: SSL certificate problem: self signed certificate in certificate chain

错误原因：

这个错误会发生在请求 https 开头的网址，SSL 验证错误，证书有误。

解决方法：

使用 self.crawl(url, callback=self.index_page, validate_cert=False) ------------------------------validate_cert=False要放在每个提取页里面不然打开子页面还是会599，吐血

代码如下：

 #!/usr/bin/env python

 # -*- encoding: utf-8 -*-

 # Created on 2018-08-23 23:06:13

 # Project: v2ex

 from pyspider.libs.base_handler import *

 class Handler(BaseHandler):

     crawl_config = {

     }

     @every(minutes=24 * 60)

     def on_start(self):

         self.crawl('https://www.v2ex.com/?tab=tech', callback=self.index_page,validate_cert=False)

     @config(age=10 * 24 * 60 * 60)

     def index_page(self, response):

         for each in response.doc('a[href^="https://www.v2ex.com/?tab="]').items():

             self.crawl(each.attr.href, callback=self.tab_page, validate_cert=False)

     @config(priority=2)

     def tab_page(self, response):

         for each in response.doc('a[href^="https://www.v2ex.com/go/"]').items():

             self.crawl(each.attr.href, callback=self.board_page, validate_cert=False)

     @config(priority=2)

     def board_page(self, response):

         for each in response.doc('a[href^="https://www.v2ex.com/t/"]').items():

             url = each.attr.href

             if url.find('#reply') > 0:

                 url = url[0:url.find('#')]

             self.crawl(url, callback=self.detail_page, validate_cert=False)        

     @config(priority=2)

     def detail_page(self, response):

         title = response.doc('h1').text()

         content = response.doc('div.topic_content')

         return {

             "url": response.url,

             "title": response.doc('title').text(),

         }

这个方法基本可以解决问题了（浏览器要手动刷新下，用360安全浏览器貌似有这个小问题，可能是我设置的问题，果断换chrome和火狐试了下，没发现这个情况。。。）

For Linux and MAC systems, please refer to the following links：

https://blog.csdn.net/WebStudy8/article/details/51610953

Pyspider上手的更多相关文章

芝麻软件： Python爬虫进阶之爬虫框架概述
综述爬虫入门之后,我们有两条路可以走. 一个是继续深入学习,以及关于设计模式的一些知识,强化Python相关知识,自己动手造轮子,继续为自己的爬虫增加分布式,多线程等功能扩展.另一条路便是学习一些优 ...
Python爬虫进阶一之爬虫框架概述
综述爬虫入门之后,我们有两条路可以走. 一个是继续深入学习,以及关于设计模式的一些知识,强化Python相关知识,自己动手造轮子,继续为自己的爬虫增加分布式,多线程等功能扩展.另一条路便是学习一些优 ...
python爬虫框架（1）--框架概述
框架概述其中比较好用的是 Scrapy 和PySpider.pyspider上手更简单,操作更加简便,因为它增加了 WEB 界面,写爬虫迅速,集成了phantomjs,可以用来抓取js渲染的页面.S ...
python爬虫框架Pyspider初次接触
pyspider网站地址:http://docs.pyspider.org/en/latest/.文档比较好,安装起来也非常方便.既然是基于python的框架,那么首先得安装python.微软出的一款 ...
【Python五篇慢慢弹】快速上手学python
快速上手学python 作者:白宁超 2016年10月4日19:59:39 摘要:python语言俨然不算新技术,七八年前甚至更早已有很多人研习,只是没有现在流行罢了.之所以当下如此盛行,我想肯定是多 ...
Impress.js上手 - 抛开PPT、制作Web 3D幻灯片放映
前言: 如果你已经厌倦了使用PPT设置路径.设置时间.设置动画方式来制作动画特效.那么Impress.js将是你一个非常好的选择. 用它制作的PPT将更加直观.效果也是嗷嗷美观的. 当然,如果用它来装 ...
ECharts数据图表系统？ 5分钟上手！
目录: 前言简介方法一:模块化单文件引入(推荐) 方法二:标签式单文件引入 [前言] 最近在捣鼓各种插件各种框架,发现这个ECharts还是比较不错的,文档也挺全的,还是中文的,给大家推荐一下. ...
快速上手Unity原生Json库
现在新版的Unity(印象中是从5.3开始)已经提供了原生的Json库,以前一直使用LitJson,研究了一下Unity用的JsonUtility工具类的使用,发现使用还挺方便的,所以打算把项目中的J ...
Masonry介绍与使用实践：快速上手Autolayout
1 MagicNumber -> autoresizingMask -> autolayout 以上是纯手写代码所经历的关于页面布局的三个时期在iphone1-iphone3gs时代 w ...

随机推荐

手把手教你“将系统安装在U盘”上，实现个人系统随身带！
本教程纯原创,转载请标注来源. 本教程适用安装的操作系统:Win XP,Win 7,优麒麟,Ubuntu,deepin,linux. 优盘要求:最好是USB3.0,USB2.0也可以,但是优盘至少要求 ...
LeetCode算法题-First Bad Version（Java实现-三种解法）
这是悦乐书的第200次更新,第210篇原创 01 看题和准备今天介绍的是LeetCode算法题中Easy级别的第66题(顺位题号是278).您是产品经理,目前领导团队开发新产品.不幸的是,您产品的最 ...
python collection模块
一.模块的认识定义:模块就是我们把装有特定功能的代码进行归类的结果. 说明:从代码编写的单位来看我们的城西,从小到大:一条代码 -> 语句块 - >代码块(函数.类)-> 模块. ...
Contest Setting 2018 ICPC Pacific Northwest Regional Contest dp
题目:https://vj.69fa.cn/12703be72f729288b4cced17e2501850?v=1552995458 dp这个题目网上说是dp+离散化这个题目要对这些数字先处理然后进 ...
vue与jquey
vue与jquey jQuery是使用选择器($)选取DOM对象,对其进行赋值.取值.事件绑定等操作,其实和原生的HTML的区别只在于可以更方便的选取和操作DOM对象,而数据和界面是在一起的.比如需要 ...
【转】AJAX请求和普通HTTP请求区别
两者本质区别: AJAX通xmlHttpRequest象请求服务器服务器接受请求返数据实现刷新交互普通http请求通httpRequest象请求服务器接受请求返数据需要页面刷新 AJAX请求普通请 ...
truffle框架的简单使用
truffle 给大家介绍一下这个框架怎么使用,其实把这个框架就是你们看我之前有一个教程是教你们怎么用remix-ide来连接私有链,编译,配置合约,然后进行调用的,truffle其实就是把这个步骤放 ...
记一次layui弹框关闭问题
我在博客园记录过layui关于弹框关闭问题,文章为layui关闭弹出层,这次出现了特殊情况,之前是通过layer.closeAll()解决了这个问题,但是这次解决不了.而换成parent.layer. ...
C# GDI+双缓冲技术
我想有很多搞图形方面的朋友都会用到双缓冲技术的时候,而且有的时候她的确是个头疼的问题.最近我也要用双缓冲技术,程序怎么调试都不合适,当要对图形进行移动时,总是会出现闪烁抖动.在网上找了些资料,说得都不 ...
C++ —— 返回数组指针的函数和返回指向函数的指针的函数
返回数组指针的函数基础知识:数组不能被拷贝,函数不能返回数组,只能返回数组的指针或者引用. 定义一个返回数组指针的函数的方法,以一个接收参数为含有10个整型元素的数组的引用和返回一个含 ...

Pyspider上手

Pyspider上手的更多相关文章

随机推荐

热门专题