Scrapy安装:(scrapy依赖包过多推荐使用下面的方法)

先安装Anaconda,然后 运行conda install Scrapy

创建scrapy项目:

1,scrapy startproject 项目名
2,cd到项目名下
3,scrapy genspider 爬虫名 www.baidu.com(网站网址)
4,在项目根目录下新建run.py

from scrapy.cmdline import execute
execute(['scrapy','crawl','quotes'])

这种方法直接运行该脚本即可,不需要每次输入命令!

scrapy选择器用法

response.css('.text::text').extract()
这里为提取所有带有class=’text’ 这个属性的元素里面的text返回的是一个列表
response.css('.text::text').extract_first()
这是取第一条,返回的是str
response.css("div span::attr(href)").extract()
这里取的是该属性值

同样可以用xpath选择器:

response.xpath("//a[@class='tag']/text()").extract())

scrapy保存文件的方法

scrapy crawl quotes -o quotes.json   #  保存为json形式
scrapy crawl quotes -o quotes.jl #json lines存储
scrapy crawl quotes -o quotes.csv
scrapy crawl quotes -o quotes.xml
scrapy crawl quotes -o quotes.pickle #数据分析用
scrapy crawl quotes -o quotes.marshal #数据分析用
scrapy crawl quotes -o ftp://user:pass@ftp.example.com/path/to/quotes.csv #远程保存

scrapy的spider的用法

spider是最简单的spider,每个其他的spider都必须继承该类,spider并没有提供什么特殊的功能,其仅仅请求给定的start_urls/start_requests,并根据返回的结果调用spider的parse方法

name,
定义spider的名字的字符串,必须是唯一的,name是spider的最重要的属性,而且是必须的
allowed_domains
可选,包含spider允许爬取的域名的列表,当offsiterMiddleware启用时,域名不在列表的url不会被跟进
start_urls 
url列表,spider从该列表中开始进行爬取。 
start_requests
该方必须返回一个可迭代的对象,对象中包含了spider用于爬取的第一个request.

def start_requests(self):
yield scrapy.Request(url=,self.menu,method='post')

scrapyde settings的用法

  1. DOWNLOAD_DELAY = 2-----------设置爬取间隔
  2. DEFAULT_REQUEST_HEADERS-----------设置头信息
  3. ROBOTSTXT_OBEY = True-----------如果启用,Scrapy将会采用 robots.txt策略
  4. AUTOTHROTTLE_START_DELAY = 5----------开始下载时限速并延迟时间
  5. AUTOTHROTTLE_MAX_DELAY = 60------------高并发请求时最大延迟时间
  6. CONCURRENT_REQUESTS = 16-----------开启线程数量,默认16

递归调用本函数爬取

next_page = response.css('.next::attr(href)').extract_first()
self.page += 1 (先设置类变量)
if self.page <= 3: #控制递归深度
yield scrapy.Request(url=next_page,callback=self.parse)

meta是一个字典,主要是用解析函数之间传递值

# 上一个函数 yield scrapy.Request(title_urls,self.get_pics,meta={'title_name':title_name})
# 下一个函数 s = response.meta['title_name']

爬虫的暂停与重启

scrapy crawl 爬虫名称 -s JOBDIR=保存记录信息的路径
  如:scrapy crawl cnblogs -s JOBDIR=zant/001 
  执行命令会启动指定爬虫,并且记录状态到指定目录

爬虫已经启动,我们可以按键盘上的ctrl+c停止爬虫,停止后我们看一下记录文件夹,会多出3个文件,其中的requests.queue文件夹里的p0文件就是URL记录文件,这个文件存在就说明还有未完成的URL,当所有URL完成后会自动删除此文件

当我们重新执行命令:scrapy crawl cnblogs -s JOBDIR=zant/001  时爬虫会

scrapy操作指南的更多相关文章

  1. Scrapy框架爬虫初探——中关村在线手机参数数据爬取

    关于Scrapy如何安装部署的文章已经相当多了,但是网上实战的例子还不是很多,近来正好在学习该爬虫框架,就简单写了个Spider Demo来实践.作为硬件数码控,我选择了经常光顾的中关村在线的手机页面 ...

  2. scrapy爬虫docker部署

    spider_docker 接我上篇博客,为爬虫引用创建container,包括的模块:scrapy, mongo, celery, rabbitmq,连接https://github.com/Liu ...

  3. scrapy 知乎用户信息爬虫

    zhihu_spider 此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo,下载这些数据感觉也没什么用,就当为大家学习scrapy提供一个例子吧.代码地 ...

  4. 【项目管理】GitHub使用操作指南

    GitHub使用操作指南 作者:白宁超 2016年10月5日18:51:03> 摘要:GitHub的是版本控制和协作代码托管平台,它可以让你和其他人的项目从任何地方合作.相对于CVS和SVN的联 ...

  5. ubuntu 下安装scrapy

    1.把Scrapy签名的GPG密钥添加到APT的钥匙环中: sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 6272 ...

  6. 网络爬虫:使用Scrapy框架编写一个抓取书籍信息的爬虫服务

      上周学习了BeautifulSoup的基础知识并用它完成了一个网络爬虫( 使用Beautiful Soup编写一个爬虫 系列随笔汇总 ), BeautifulSoup是一个非常流行的Python网 ...

  7. Scrapy:为spider指定pipeline

    当一个Scrapy项目中有多个spider去爬取多个网站时,往往需要多个pipeline,这时就需要为每个spider指定其对应的pipeline. [通过程序来运行spider],可以通过修改配置s ...

  8. scrapy cookies:将cookies保存到文件以及从文件加载cookies

    我在使用scrapy模拟登录新浪微博时,想将登录成功后的cookies保存到本地,下次加载它实现直接登录,省去中间一系列的请求和POST等.关于如何从本次请求中获取并在下次请求中附带上cookies的 ...

  9. Scrapy开发指南

    一.Scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. Scrapy基于事件驱动网络框架 Twis ...

随机推荐

  1. Java-JVM OutOfMemory 情况(JDK8)

    JVM 运行时内存结构(Run-Time Data Areas) 内存溢出分为两大类:OutOfMemoryError 和 StackOverflowError. 一.HeapOomError (JV ...

  2. 浅谈WebViewClient与WebChromeClient

    简介:WebViewClient被用来传递单纯的加载一个链接时所发生的事件,比如开始加载,结束加载等,它代表这个链接加载时的最普通的和最笼统的事件,WebChromeClient更多的是传递JS对话框 ...

  3. python 牛顿迭代法

    使用牛顿迭代法求方程  在x附近的一个实根. 赋值X,即迭代初值:用初值x代入方程中计算此时的f(x)=(a * x * x * x + b * x * x + c * x + d)和f’(x)=(3 ...

  4. nginx开启目录浏览,解决中文乱码问题

    nginx开启目录浏览,解决中文乱码问题 方法如下: server { listen 80; #listen [::]:80; server_name gongzi.liwenhui.xin gz.l ...

  5. Ajax案例-基于HTML,以GET或POST方式,检查注册用户名是否在数据库中已存在

    08_register.jsp <%@ page language="java" pageEncoding="UTF-8"%> <!DOCTY ...

  6. openstack基于卷快照恢复卷

    openstack基于卷快照恢复卷 基于P版本,对卷基于快照进行恢复的源码分析 1.特性描述 在pike版本中,openstack官网增加了一个新特性,Cinder volume revert to ...

  7. C语言JS引擎

    基础知识 SpiderMonkey 简介 和其他的 JavaScript 引擎一样,SpiderMonkey 不直接提供像 DOM 这样的对象,而是提供解析,执行 JavaSccript 代码,垃圾回 ...

  8. redis开启持久化、redis 数据备份与恢复

    redis持久化介绍  https://segmentfault.com/a/1190000015897415 1. 开启aof持久化.以守护进程启动.远程访问先把配置文件拷贝一份到/etc/redi ...

  9. mysql 添加表情 Incorrect string value: '\xF0\x9F\x98\x8

    方法1:使用utf8mb4的mysql编码来容纳这些字符 注意:要使用utf8mb4类型,首先要保证Mysql版本要不低于 MySQL 5.5.3. 第一步:修改my.ini配置文件 [mysql]# ...

  10. (转)asp.net mvc 开发环境下需要注意的安全问题(一)

    概述 安全在web领域是一个永远都不会过时的话题,今天我们就来看一看一些在开发ASP.NET MVC应用程序时一些值得我们注意的安全问题.本篇主要包括以下几个内容 : 认证 授权 XSS跨站脚本攻击 ...