Scrapy笔记07- 内置服务

Scrapy使用Python内置的的日志系统来记录事件日志。日志配置

LOG_ENABLED = true

LOG_ENCODING = "utf-8"

LOG_LEVEL = logging.INFO

LOG_FILE = "log/spider.log"

LOG_STDOUT = True

LOG_FORMAT = "%(asctime)s [%(name)s] %(levelname)s: %(message)s"

LOG_DATEFORMAT = "%Y-%m-%d %H:%M:%S"

使用也很简单

import logging

logger = logging.getLogger(__name__)

logger.warning("This is a warning")

如果在Spider里面使用，那就更简单了，因为logger就是它的一个实例变量

import scrapy

class MySpider(scrapy.Spider):

    name = 'myspider'

    start_urls = ['http://scrapinghub.com']

    def parse(self, response):

        self.logger.info('Parse function called on %s', response.url)

发送email

Scrapy发送email基于Twisted non-blocking IO实现，只需几个简单配置即可。

初始化

mailer = MailSender.from_settings(settings)

发送不包含附件

mailer.send(to=["someone@example.com"], subject="Some subject", body="Some body", cc=["another@example.com"])

配置

MAIL_FROM = 'scrapy@localhost'

MAIL_HOST = 'localhost'

MAIL_PORT = 25

MAIL_USER = ""

MAIL_PASS = ""

MAIL_TLS = False

MAIL_SSL = False

同一个进程运行多个Spider

import scrapy

from scrapy.crawler import CrawlerProcess

class MySpider1(scrapy.Spider):

    # Your first spider definition

    ...

class MySpider2(scrapy.Spider):

    # Your second spider definition

    ...

process = CrawlerProcess()

process.crawl(MySpider1)

process.crawl(MySpider2)

process.start() # the script will block here until all crawling jobs are finished

Scrapy并没有提供内置的分布式抓取功能，不过有很多方法可以帮你实现。分布式爬虫

如果你有很多个spider，最简单的方式就是启动多个Scrapyd实例，然后将spider分布到各个机器上面。

如果你想多个机器运行同一个spider，可以将url分片后交给每个机器上面的spider。比如你把URL分成3份

http://somedomain.com/urls-to-crawl/spider1/part1.list

http://somedomain.com/urls-to-crawl/spider1/part2.list

http://somedomain.com/urls-to-crawl/spider1/part3.list

然后运行3个Scrapyd实例，分别启动它们，并传递part参数

curl http://scrapy1.mycompany.com:6800/schedule.json -d project=myproject -d spider=spider1 -d part=1

curl http://scrapy2.mycompany.com:6800/schedule.json -d project=myproject -d spider=spider1 -d part=2

curl http://scrapy3.mycompany.com:6800/schedule.json -d project=myproject -d spider=spider1 -d part=3

防止被封的策略

一些网站实现了一些策略来禁止爬虫来爬取它们的网页。有的比较简单，有的相当复杂，如果你需要详细了解可以咨询商业支持

下面是对于这些网站的一些有用的建议：

使用user agent池。也就是每次发送的时候随机从池中选择不一样的浏览器头信息，防止暴露爬虫身份
禁止Cookie，某些网站会通过Cookie识别用户身份，禁用后使得服务器无法识别爬虫轨迹
设置download_delay下载延迟，数字设置为5秒，越大越安全
如果有可能的话尽量使用Google cache获取网页，而不是直接访问
使用一个轮转IP池，例如免费的Tor project或者是付费的ProxyMesh
使用大型分布式下载器，这样就能完全避免被封了，只需要关注怎样解析页面就行。一个例子就是Crawlera

如果这些还是无法避免被禁，可以考虑商业支持

Scrapy笔记07- 内置服务的更多相关文章

Hive 学习笔记（启动方式，内置服务）
一.Hive介绍 Hive是基于Hadoop的一个数据仓库,Hive能够将SQL语句转化为MapReduce任务进行运行. Hive架构图分为以下四部分. 1.用户接口 Hive有三个用户接口: 命令 ...
Hive基础（4）---Hive的内置服务
版权声明:<—— 本文为作者呕心沥血打造,若要转载,请注明出处@http://blog.csdn.net/gamer_gyt <—— 目录(?)[+] 一:Hive的几种内置服务 ...
AngularJS复习-----内置过滤器和内置服务
AngularJS中的内置服务(共30多个): $http 发送http请求,主要用于进行异步数据请求的功能实现,这个服务主要封装了XMLHttpRequest对象和JSONP数据访问模式来完成远程请 ...
Angular 基本内置服务和筛选器
AngularJS中的内置服务(共30多个): $http 发送http请求,主要用于进行异步数据请求的功能实现,这个服务主要封装了XMLHttpRequest对象和JSONP数据访问模式来完成远程请 ...
angularJS使用内置服务
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <script sr ...
JavaScript学习07 内置对象
JavaScript内置对象图像对象导航对象窗口对象屏幕对象事件对象历史对象文件对象(重要) 锚点对象链接对象框架对象表单对象(重要) 位置对象 JS Window 窗口对象:ht ...
学习笔记——Maven 内置变量
Maven内置变量说明: ${basedir} 项目根目录(即pom.xml文件所在目录) ${project.build.directory} 构建目录,缺省为target目录 ${project. ...
Python学习笔记-Day3-python内置函数
python内置函数 1.abs 求绝对值 2.all 判断迭代器中的所有数据是否都为true 如果可迭代的数据的所有数据都为true或可迭代的数据为空,返回True.否则返回False 3.a ...
4月5日--课堂笔记--JS内置对象
JavaScript 4.5 一. JS内置对象 1.数组Array a)创建语法1:var arr=new Array(参数); i. 没有参数:创建一个初始容量为0的数组 ii. ...
【学习】js学习笔记：内置顶层函数eval()的兼容用法
今天学了一个内置顶层函数,eval();其作用是将字符串转换成javascript命令执行,但必须符合语法,否则会报错. 如果写成window.eval(),则其定义的变量会在全局生效. 但是,在IE ...

随机推荐

qps.sh
mysql -p'' -Bse'show global status like "com_%";' > qps.new while true do sleep 0.5 mv ...
数据库的dml、ddl和dcl的概念
学过数据库肯定会知道DML.DDL和DCL这三种语言,这种基础概念性的东西是必须要记住的. DML(Data Manipulation Lanaguage,数据操纵语言) DML就是我们经常用到的SE ...
如何解决RIP的问题
如何解决RIP的问题 RIP的问题优化或解决的方式收敛慢,故障恢复时间长触发更新缺少对全局网络拓扑的了解路由器基于拓扑信息,独立计算路由存在选择次优路径的风险将链路带宽作为选路参考 ...
com.fasterxml.jackson.core.JsonGenerationException: Can not write a field name, expecting a value异常
springboot对象返回,一直报生成json异常,经过检查,发现是自己在做xss防护时对出参进行了json的处理(copy代码不可取,囧) 异常信息这里进行了出参处理了,但实际上只要对入参处理就 ...
让你的 vs code 跑在云上，用手机浏览器就能写代码
让你的vs code 跑在云服务器上在B站上看到一个视频Run VS Code in the browser with massive computing resources(教你如何配置一个云ID ...
linux中上传文件出现Refused to display 'http://***' in a frame because it set 'X-Frame-Options' to 'SAMEORIGIN'.
刚开始出现这个问题,去百度了一下,网上很多答案都是一致的,但是在我这里没有解决问题.这个问题服务器没有打印日志.说明没有访问到服务器上,但是前端又没有问题,很奇怪,后面终于有一个同事和我说会不会是腾讯 ...
Mark: 实现个toy版的脚手架（RPC）
p.s. 这些小toy的规模都在几百~上千行代码量,但足以反映一个tool的核心思想. 包括: 一些中间件(消息队列.Netty) Spring的IoC容器:(自动依赖注入) —— 就是利用Java ...
SpringMVC数组参数
前端 var moduleids = moduleArr.join(','); //一定要切换成,分割的字符串传到后台后台 @RequestParam List<String> modu ...
javascript字符串加密解密函数
代码如下: /** * 加密函数 * @param str 待加密字符串 * @returns {string} */ function str_encrypt(str) { var c = Stri ...
IOS—— strong weak retain assign 学习
转自:http://wenzongliang.iteye.com/blog/1746604 简单讲strong等同retain weak比assign多了一个功能,当对象消失后自动把指针变成nil,好 ...

Scrapy笔记07- 内置服务

Scrapy笔记07- 内置服务

发送email

Scrapy并没有提供内置的分布式抓取功能，不过有很多方法可以帮你实现。分布式爬虫

Scrapy笔记07- 内置服务的更多相关文章

随机推荐

热门专题