scrapy中间件中发送邮件

背景介绍：之前写过通过通过scrapy的扩展发送邮件，在爬虫关闭的时候发送邮件。那个时候有个问题就是MailSender对象需要return出去。这次需要在中间件中发送邮件，但是中间件中不能随便使用return了。

import json

import random

import scrapy

from scrapy.http import Response

from scrapy.mail import MailSender

from scrapy.exceptions import IgnoreRequest

from order_spider.databases.connections import redis_db

class LoginTokenMiddleware(object):

    def __init__(self,mailer):

        self.mailer = mailer

    @classmethod

    def from_crawler(cls, crawler):

        smtphost = crawler.settings.get('MAIL_HOST')  # 发送邮件的服务器

        mail_port = crawler.settings.get('MAIL_PORT')  # 邮件发送者

        mailfrom = crawler.settings.get('MAIL_USER')  # 邮件发送者

        smtppass = crawler.settings.get('MAIL_PASS')  # 发送邮箱的密码不是你注册时的密码，而是授权码！！！切记！

        mailer = MailSender(smtphost, mailfrom, mailfrom, smtppass, smtpport=mail_port)

        return cls(mailer)

    def _send_mail(self,subject,body):

        return self.mailer.send(to={'feijun.zheng@huijie-inc.com'}, subject=subject, body=body)

    def process_request(self, request:scrapy.Request, spider):

        #从数据库获取所有的用户session

        tokens = redis_db.hgetall("order:xxx")

        users = []

        for k,v in tokens.items():

            #如果用户value有0，代表过期

            if "0" not in v:

                users.append(k)

        if not users:

            try:

                #通过end_signal判断爬虫是否继续执行

                if spider.end_signal:

                    raise IgnoreRequest

                # 设置为True，避免重复发送邮件

                spider.end_signal = True

                spider.logger.warning("session全部过期请重新添加")

                body = 'xxxxx全部过期'

                subject = '没有可用的账号，请重新添加'

                #mail添加回调，避免出现`exceptions.AttributeError: 'NoneType' object has no attribute 'bio_read'`

                self._send_mail(body,subject).addCallback(lambda x: x)

            except Exception as e:

                spider.logger.exception(e)

            finally:

                # 没有可用账号，关闭爬虫

                spider.crawler.engine.close_spider(spider, "爬虫关闭")

                # 忽略后续的请求

                raise IgnoreRequest

        session_id = random.choice(users)

        request.cookies = {"JSESSIONID":session_id}

        return None

    def process_response(self, request, response:Response, spider):

        res = json.loads(response.text)

        if res['code'] != 1:

            session_id = request.cookies['JSESSIONID']

            user = redis_db.hmget("order:xxxx",session_id)[0]

            redis_db.hset("order:xxxx",session_id,user+'_0')

            spider.logger.info("登录失败，失败原因:%s" %(res['msg']))

            body = 'session[%s] 可能已过期\n 失败原因%s'%(session_id,res['msg'])

            subject = '账号登录失败提醒'

            self._send_mail(body,subject).addCallback(lambda x: x)

        return response

推荐还是在扩展中使用发送邮件的功能，可以参考：

scrapy通过扩展发送邮件

还有一个小问题就是：阿里云上默认不能使用25端口，所以你需要使用456端口进行发送，456端口需要使用SSL，需要在原来的基础上做个小修改：

mailer = MailSender(mail_host, mail_user, mail_user, mail_pass, mail_port, smtptls=True, smtpssl=True)

具体参数参考官方文档：

scrapy文档

scrapy中间件中发送邮件的更多相关文章

scrapy中间件中使用selenium切换ip
scrapy抓取一些需要js加载页面时一般要么是通过接口直接获取数据,要么是js加载,但是我通过selenium也可以获取动态页面但是有个问题,容易给反爬,因为在scrapy中间件mid中使用sel ...
Python爬虫从入门到放弃（十七）之 Scrapy框架中Download Middleware用法
这篇文章中写了常用的下载中间件的用法和例子.Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给spiders的时候,所以 ...
Scrapy中间件user-agent和ip代理使用
一.定义实现随机User-Agent的下载中间件 1.在middlewares.py中完善代码 import random from Tencent.settings import USER_AGEN ...
Python爬虫从入门到放弃之 Scrapy框架中Download Middleware用法
这篇文章中写了常用的下载中间件的用法和例子.Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给spiders的时候,所以 ...
scrapy框架中Download Middleware用法
scrapy框架中Download Middleware用法 Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给sp ...
scrapy——中间件UserAgent代理
pip install fake-useragent 使用说明:from fake_useragent import UserAgent# 实例化一个UserAgent对象ua = UserAgent ...
scrapy中间件之下载中间件使用（网易新闻爬取）
scrapy项目中的middlewarse.py中间件爬虫中间件:目前先不介绍下载中间件(需要在settings.py中开启) (1)请求处理函数:process_request(self, re ...
Python之爬虫（十九） Scrapy框架中Download Middleware用法
这篇文章中写了常用的下载中间件的用法和例子.Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给spiders的时候,所以 ...
Node.js连接Mysql，并把连接集成进Express中间件中
引言在node.js连接mysql的过程,我们通常有两种连接方法,普通连接和连接池. 这两种方法较为常见,当我们使用express框架时还会选择使用中间express-myconnection,可以 ...

随机推荐

.Net Core 3.0 WebAPI && MySQL 8.0搭建详情
微软在2019年9月24日发布了dotNet Core 3.0和C# 8.0,添加了许多新Features,详情点我.无疑dotNet Core 3.0和一个月之后即将发布的dotNet Core 3 ...
Java内功心法，行为型设计模式
行为型 1. 责任链(Chain Of Responsibility) Intent 使多个对象都有机会处理请求,从而避免请求的发送者和接收者之间的耦合关系. 将这些对象连成一条链,并沿着这条链发送该 ...
laravel框架之即时更改
表单//@foreach($res as $k=>$v) <tr id="{{$v->id}}" > <td>{{$v->id}}< ...
python高级编程——线程和线程池
线程模块线程的特点: 本质上是异步的.需要多个并发活动.每个活动的处理顺序可能是不确定的.或者说是随机的,不可预测的,宏观上是同时运行的 ...
javascript getElementsByClassName扩展函数
代码: function getElementsByClassName(){ if(!arguments[0]){return []};//未指定任何参数,直接返回 var args=argument ...
英语pyrophane火欧珀pyrophane单词
pyrophane火欧泊产量稀少,以至于大多数采到宝石的矿主不愿意将它进行切割,即便随形的切割技巧比刻面需要更多的经验也要将其加工成随形,因为这种琢型最能保重.但是与黑欧泊为了保证火彩只能切割成蛋面和 ...
剑指：包含min函数的栈(min栈)
题目描述设计一个支持 push,pop,top 等操作并且可以在 O(1) 时间内检索出最小元素的堆栈. push(x)–将元素x插入栈中 pop()–移除栈顶元素 top()–得到栈顶元素 get ...
一些你所不知道的VS Code插件
摘要: 你所不知道的系列. 原文:提高 JavaScript 开发效率的高级 VSCode 扩展之二! 作者:前端小智 Fundebug经授权转载,版权归原作者所有. 作为一名业余爱好者.专业人员,甚 ...
day 68
目录表单指令条件指令循环指令分隔符过滤器计算属性监听属性表单指令 v-model="变量",变量值与表单标签的value相关 v-model可以实现数据的双向绑定, ...
Shell 编程 until语句
本篇主要写一些shell脚本until语句的使用. 计算1-50的和 #!/bin/bash i=0 s=0 until [ $i -eq 51 ];do let s+=i;let i++ done ...

scrapy中间件中发送邮件

scrapy中间件中发送邮件的更多相关文章

随机推荐

热门专题