1,

2,在ubuntu安装pyspider如果出现pycul的问题

首先执行命令:sudo apt-get install libssl-dev libcurl4-openssl-dev python-dev

然后执行:apt-get install libxml2-dev libxslt1-dev python-dev

异常:VauleError: Invalid configuration

解决方法:

pip uninstall wsgidav

pip install wsgidav==2.4.1

widows:

  phantomjs  解压出phantomjs.exe 之后复制到python根目录

Ubuntu:
  直接通过 sudo apt-get install phantomjs

requests库

scrapy框架

pyspider框架  有界面的

删除pyspider项目?

第一种:status  改成stop;group 改成 delete 24小时后删除。

第二种:强制删除,找到data目录,直接删除。

创建项目  create按钮创建

DEBUG/RUNNING 状态下爬虫才能运行

调试页面

方法:

on_start  入口方法  点击run的时候默认会调用

crawl  生成一个新的爬取请求类似于scrapy.Request 接受的参数是url和回调函数

@every(minutes=24 * 60)告诉调度器 每天只需一次这个方法
@config(age=10 * 24 * 60 * 60)告诉调度器 这个请求过期时间是10天

 

def __init__(self):
"""
和数据库建立连接 mongo mysql
"""
connection = pymongo.MongoClient(host='',post=27017)
client = connection['v2ex']
self.db = client['items']

on_result  默认会调用的存储数据的方法   可以自己重写

phantomjs  浏览器

phantomjs.exe放到python的根目录下

Pyspider框架的更多相关文章

  1. 利用 pyspider 框架抓取猫途鹰酒店信息

    利用框架 pyspider 能实现快速抓取网页信息,而且代码简洁,抓取速度也不错. 环境:macOS:Python 版本:Python3. 1.首先,安装 pyspider 框架,使用pip3一键安装 ...

  2. pyspider框架的599证书问题

    使用PySpider 框架出现错误 HTTP 599: SSL certificate problem: unable to get local issuer certificate,如下 HTTP ...

  3. 爬虫--PySpider框架

    PySpider框架 PySpider框架的作用

  4. 解决pyspider框架web预览框过小问题

    解决pyspider框架web预览框过小问题 Chrome 使用pyspider框架时,web预览框只有一小条: 解决办法: 找到debug.min.css文件,替换为如下内容: body{margi ...

  5. Python爬虫之PySpider框架

    概述 pyspider 是一个支持任务监控.项目管理.多种数据库,具有 WebUI 的爬虫框架,它采用 Python 语言编写,分布式架构.详细特性如下: 拥有 Web 脚本编辑界面,任务监控器,项目 ...

  6. Python爬虫进阶二之PySpider框架安装配置

    关于 首先,在此附上项目的地址,以及官方文档 PySpider 官方文档 安装 1. pip 首先确保你已经安装了pip,若没有安装,请参照 pip安装 2. phantomjs PhantomJS ...

  7. Python爬虫-pyspider框架的使用

      pyspider 是一个用python实现的功能强大的网络爬虫系统,能在浏览器界面上进行脚本的编写,功能的调度和爬取结果的实时查看,后端使用常用的数据库进行爬取结果的存储,还能定时设置任务与任务优 ...

  8. python的pyspider框架下爬虫

    1.将框架下载好之后,控制台运行pyspider 2.浏览器打开http://localhost:5000 3.创建项目 页面区域介绍: 整个页面分为两栏,左边是爬取页面预览区域,右边是代码编写区域. ...

  9. PySpider框架的基本用法

    pyspider安装: 3.7之后无法正常使用,使用可以下载Python3.6或以下,或者修改pyspider内部代码 ———————————————————————————————————————— ...

随机推荐

  1. 若依项目利用nginx实现负载均衡及保持会话

    记录一下若依项目利用nginx实现负载均衡及保持会话的步骤. 此次作为试验性的测试,为了方便在本地window的环境上实现. 具体步骤: 1.安装两个tomcat8,可以下载一个后,另一个复制即可,下 ...

  2. Python—字典的操作

    字典的操作: #字典的本质其实是dict类的对象 >>> a = dict([(")]) >>> a {'} 一.增加 >>> stud ...

  3. yii2 中excel表导出

    首先下载phpexcel 在引入类文件(在web中index.php入口文件或者控制器中引入) require_once dirname(dirname(__FILE__)).'/excel/PHPE ...

  4. Windows下dos命令行

    Dos命令--基本命令 1.求助命令 例如:del /? rd /? 2.基本常用命令 例如:dir :列出当前目录下的文件以及文件夹,后面可以接其他路径 md:创建目录(mkdir),一次创建多级目 ...

  5. ubuntu1604使用之旅——安装samba

    1.安装samba sudo apt-get install samba 2.安装sambaclient sudo apt-get install smbclient 3.修改配置文件 sudo vi ...

  6. L332 NBA: Dwyane Wade and Dirk Nowitzki Say Emotional Goodbyes

    Two games in the NBA ended amid emotional scenes on Tuesday as legends at separate teams marked thei ...

  7. Echarts tooltip 坐标值修改

    tooltip: { trigger: 'axis', position:function(p){ //其中p为当前鼠标的位置 console.log(p); ] + , p[] - ]; } },

  8. Cordova编译报AAPT错误的解决方法

    因为项目中同时使用cordova-hot-code-push-plugin和phonegap-plugin-barcodescanner,编译时报错:AAPT: error: resource and ...

  9. windows的docker开始支持linux的镜像 ,Version 18.03.0-ce-win59 (16762)

    LCOW containers can now be run next to Windows containers.Use '--platform=linux' in Windows containe ...

  10. Python 测试多进程的时间

    import time from multiprocessing import Process def f1(): time.sleep(2) print("子进程1号") def ...