Celery

在程序运行过程中,经常会遇到一些耗时耗资源的任务,为了避免这些任务阻塞主进程的运行,我们会采用多线程或异步任务去处理。比如在Web中需要对新注册的用户发一封激活邮件来验证账户,而发邮件本身是一个IO阻塞式任务,如果把它直接放到应用中,就会阻塞主程序的运行,用户需要等待邮件发送完成后才能进行下一步操作。一种解决办法是为每个发邮件任务新开一个线程去执行,当线程很多时这也不是很好的解决办法;更好的方式是在业务逻辑中触发一个发邮件的异步任务,把待发送的任务都发往任务队列,主程序可以继续往下运行。

Celery是一个强大的分布式任务队列,他可以让任务的执行完全脱离主程序,甚至可以把任务分配到其他主机上运行。我们通常使用它来实现异步任务(async task)和定时任务(crontab)。它的架构组成如下图:

可以看到, Celery 主要包含以下几个模块:

  • 任务模块

    充当任务生产者,包含异步任务和定时任务。其中,异步任务通常在业务逻辑中被触发并发往任务队列,而定时任务由 Celery Beat 进程周期性地将任务发往任务队列。

  • 消息中间件 Broker

    Broker ,即为任务调度队列,接收任务生产者发来的消息,将任务存入队列。 Celery 本身不提供队列服务,官方推荐使用 RabbitMQ 和 Redis 等。

  • 任务执行单元 Worker

    充当任务消费者。Worker 是执行任务的处理单元,它实时监控消息队列,获取队列中调度的任务,并执行它。

  • 任务结果存储 Backend

    Backend 用于存储任务的执行结果,以供查询。同消息中间件一样,存储也可使用 RabbitMQ, Redis 和 MongoDB 等。

异步任务

使用 Celery 实现异步任务主要包含三个步骤:

  1. 创建一个 Celery 实例
  2. 启动 Celery Worker
  3. 应用程序调用异步任务

项目结构:

在__init__.py文件中创建一个Celery实例:

from celery import Celery

cele = Celery('demo')                                # 创建 Celery 实例
cele.config_from_object('app.celery_config') # 通过 Celery 实例加载配置模块

Celery配置文件,celery_config.py

# encoding: utf-8
# Author: Timeashore # celery
BROKER_URL = 'redis://localhost:6379/0' # 使用Redis作为消息代理
CELERY_RESULT_BACKEND = 'redis://localhost:6379/0' # 把任务结果存在了Redis CELERY_TIMEZONE='Asia/Shanghai' # 指定时区,默认是 UTC CELERY_TASK_SERIALIZER = 'pickle' # 任务序列化和反序列化使用pickle方案
CELERY_RESULT_SERIALIZER = 'json' # 读取任务结果一般性能要求不高,所以使用了可读性更好的JSON
CELERY_TASK_RESULT_EXPIRES = 60 * 60 * 24 # 任务过期时间,不建议直接写86400,应该让这样的magic数字表述更明显
CELERY_ACCEPT_CONTENT = ['json','pickle'] # 指定接受的内容类型 CELERY_IMPORTS = ( # 指定导入的任务模块
# 'app.task1',
# 'app.task2'
'app.email'
)

为了简单起见,对于 Broker 和 Backend ,这里都使用 redis 。

在CELERY_IMPORTS中指定task任务文件。

task任务文件,email.py

import time
from app import cele @cele.task
def havefun(args):
# do something
# ... # 模拟执行耗时任务
print u"开始执行celery任务"
time.sleep(10)
print u"celery任务结束" return args

被@cele装饰的函数都成为可被Celery调度的任务。

在应用程序中触发执行celery异步任务,view.py

from ..email import havefun

@main.route('/test_module', methods=['GET','POST'])
def test_module():
# do something
# ... # 调用异步任务
havefun.delay([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
# havefun.apply_async([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) # 和delay效果一样 return render_template('fake_celery_task.html')

启动程序

1,在 app 同级目录下,启动 Celery Worker 进程

celery -A app worker --loglevel=info

其中:

  • 参数 -A 指定了 Celery 实例的位置,本例是在__init__.py中, Celery 会自动在该文件中寻找 Celery 对象实例,当然,我们也可以自己指定;
  • 参数 --loglevel 指定了日志级别,默认为 warning ,也可以使用 -l info 来表示;

在生产环境中,我们通常会使用 Supervisor 来控制 Celery Worker 进程。

启动成功后,控制台会显示如下输出:

2,运行后台任务调用Celery任务结果:

使用 delay() 方法将任务发送到消息中间件( Broker ), Celery Worker 进程监控到该任务后,就会进行执行。我们将窗口切换到 Worker 的启动窗口,会看到多了两条日志:

这说明任务已经被调度并执行成功。

另外,我们还可以在Python shell中使用,如果想获取执行后的结果,可以这样做:

>>> from app.email import havefun
>>> havefun.delay([1,2,3,4,5])
<AsyncResult: 651c5beb-983e-4df3-ae0e-aaad2a758239>
>>> result = havefun.delay([1,2,3,4,5])
>>> result.ready() # 使用 ready() 判断任务是否执行完毕
False
>>> result.ready()
True
>>> result.get() # 使用 get() 获取任务结果
[1, 2, 3, 4, 5]
>>>

需要注意,如果在views.py中把函数返回值赋值给一个变量,那么主应用程序也会被阻塞,需要等待异步任务返回的结果。因此,实际使用中,不需要把结果赋值。


在应用程序的views.py中我们使用了delay()和apply_async()两种调用后台任务的方法,两者有什么区别呢?

事实上,delay() 方法封装了 apply_async(),delay函数如下:

    def delay(self, *partial_args, **partial_kwargs):
return self.apply_async(partial_args, partial_kwargs)

apply_async()函数原型如下:

    def apply_async(self, args=(), kwargs={}, **options):
try:
_apply = self._apply_async
except IndexError: # no tasks for chain, etc to find type
return
# For callbacks: extra args are prepended to the stored args.
if args or kwargs or options:
args, kwargs, options = self._merge(args, kwargs, options)
else:
args, kwargs, options = self.args, self.kwargs, self.options
return _apply(args, kwargs, **options)

apply_async() 支持更多的参数,常用的参数如下:

  1. countdown :指定多少秒后执行任务
havefun.apply_async(args=(1,), countdown=15)    # 15 秒后执行任务

执行后,多了两条日志文件:

[2018-06-05 16:27:16,592: INFO/MainProcess] Received task: app.email.havefun[d1c4ab89-4fcc-491c-bdd4-b5d0b4faab94]
eta:[2018-06-05 16:27:31.590000+08:00]

表示函数在第16 秒被加入到消息队列,第二行eta表示程序会等到第31 秒才去执行这个任务。

  1. eta (estimated time of arrival):指定任务被调度的具体时间,参数类型是 datetime
from datetime import datetime, timedelta

# 当前 UTC 时间再加 10 秒后执行任务
havefun.apply_async(args=(1,), eta=datetime.utcnow() + timedelta(seconds=10))
  1. expires :任务过期时间,参数类型可以是 int ,也可以是 datetime
havefun.apply_async(args=(1,), expires=10)    # 10 秒后过期

如当前参数设置满足不了需求,请查阅官方文档

定时任务

Celery 除了可以执行异步任务,也支持执行周期性/定时任务( Periodic Tasks )。 Celery Beat 进程通过读取配置文件的内容,周期性地/定时将任务发往任务队列。

同样的,我们还使用上述的目录结构;不同的是,我们只需要在Celery配置文件 celery_config.py 文件中添加配置 CELERYBEAT_SCHEDULE 字段并在 CELERY_IMPORTS 中导入任务模块就可以实现定时任务,具体如下:

# encoding: utf-8
# Author: Timeashore from datetime import timedelta
from celery.schedules import crontab # celery
BROKER_URL = 'redis://localhost:6379/0' # 使用Redis作为消息代理
CELERY_RESULT_BACKEND = 'redis://localhost:6379/0' # 把任务结果存在了Redis CELERY_TIMEZONE='Asia/Shanghai' # 指定时区,默认是 UTC CELERY_TASK_SERIALIZER = 'pickle' # 任务序列化和反序列化使用pickle方案
CELERY_RESULT_SERIALIZER = 'json' # 读取任务结果一般性能要求不高,所以使用了可读性更好的JSON
CELERY_TASK_RESULT_EXPIRES = 60 * 60 * 24 # 任务过期时间,不建议直接写86400,应该让这样的magic数字表述更明显
CELERY_ACCEPT_CONTENT = ['json','pickle'] # 指定接受的内容类型 CELERY_IMPORTS = ( # 指定导入的任务模块
'app.task1',
'app.task2'
'app.email'
) # schedules
CELERYBEAT_SCHEDULE = {
'add-every-30-seconds': {
'task': 'app.task1.add',
'schedule': timedelta(seconds=30), # 每 30 秒一次
# 'schedule': timedelta(minutes=1), # 每 1 分钟一次
# 'schedule': timedelta(hours=4), # 每 4 小时一次
'args': (5, 8) # 任务函数参数
},
'multiply-at-some-time': {
'task': 'app.task2.multiply',
'schedule': crontab(hour=9, minute=50), # 每天早上 9 点 50 分执行一次
'args': (3, 7) # 任务函数参数
}
}

我们还需在 task 任务 email.py 同级目录下添加两个任务文件 task1.py , task2.py 。

task1.py

import time
from app import cele @cele.task
def add(x, y):
time.sleep(2)
return x + y

task2.py

import time
from app import cele @cele.task
def multiply(x, y):
time.sleep(2)
return x * y

运行

关闭上次的程序,重新启动 Celery Worker 进程

celery -A app worker --loglevel=info

然后,app同级目录,启动 Celery Beat 进程,定时将任务发送到 Broker

celery beat -A app

Linux系统可以使用 -B 参数一条语句启动:

celery -A app worker -B --loglevel=info

手动调用 2 次 Celery 任务, havefun():

查看日志文件,在此为了好展示,仅添加了 task1.py 文件并设置 1 分钟执行一次:

Celery 周期性任务也有多个配置项,如当前设置满足不了需求,请查阅官方文档

END!

Celery后台任务的更多相关文章

  1. Celery详解(2)

    除了redis,还可以使用另外一个神器----Celery.Celery是一个异步任务的调度工具. Celery是Distributed Task Queue,分布式任务队列,分布式决定了可以有多个w ...

  2. Django + Celery 实现动态配置定时任务

    哈喽,今天给大家分享一篇Django+Celery实现动态配置定时任务,因为最近也是无意间看到一位大佬关于这块的文章,然后自己觉得不错,也想学习写一下,然后最终实现功能是在前端页面统一管理计划任务,大 ...

  3. celery简单应用

    写作背景介绍 在celery简单入门中已经介绍了写作的背景,这篇文章主要是深入介绍celery的使用技巧.在实际的项目中我们需要明确前后台的分界线,因此我们的celery编写的时候就应该是分成前后台两 ...

  4. celery 学习笔记 01-介绍

    celery 学习笔记 01-介绍 celery 是 python 中的常用的任务队列框架,经常用于异步调用.后台任务等工作.celery 本身以 python 写,但协议可在不同的语言中实现,其它语 ...

  5. celery最佳实践

    作为一个Celery使用重度用户.看到Celery Best Practices这篇文章.不由得菊花一紧. 干脆翻译出来,同一时候也会添加我们项目中celery的实战经验. 至于Celery为何物,看 ...

  6. Python 任务队列 Celery

    一. celery 简介 Celery 是一个专注于实时处理和任务调度的分布式任务队列, 同时提供操作和维护分布式系统所需的工具.. 所谓任务就是消息, 消息中的有效载荷中包含要执行任务需要的全部数据 ...

  7. 消息队列&Celery&RabbitMQ&zeromq

    一.消息队列 什么是消息队列? “消息队列”是在消息的传输过程中保存消息的容器. “消息”是在两台计算机间传送的数据单位.消息可以非常简单,例如只包含文本字符串:也可以更复杂,可能包含嵌入对象. 消息 ...

  8. 【译】在Flask中使用Celery

    为了在后台运行任务,我们可以使用线程(或者进程). 使用线程(或者进程)的好处是保持处理逻辑简洁.但是,在需要可扩展的生产环境中,我们也可以考虑使用Celery代替线程.   Celery是什么? C ...

  9. celery在Django中的集成使用

    继上回安装和使用Redis之后,看看如何在Django中使用Celery.Celery是Python开发分布式任务列队的处理库.可以异步分布式地异步处理任务,也可定时执行任务等等.通常我们可以在Dja ...

随机推荐

  1. DjangoORM查询、分页、ckeditor

    查询数据 Django的批量查询(查询所有,或者条件查询)返回的是queryset对象. Queryset对象是一个惰性对象,在不执行 1.排序 2.循环 3.截取 操作的情况下,不会遍历序列的内容. ...

  2. ckfinder图片上传成功,但无法打开This image failed to load.

    原因是basedir和baseurl的问题 本地调试的时候 可以用 这种方式实现,但是部署到线上,就有问题

  3. mysql hibernate 查询ip地址在mysql的网段

    买的数据库,地址是字符串格式 如何查询一个确定的ip在哪里呢? 直接通过字符串查询估计要慢死了 可以先把自己的要查询的ip转换为数字,然后再去以数字的方式查询 IP转数字1.2.6.0转为数字 SEL ...

  4. Linux下根目录root扩容

    参考博客:https://blog.csdn.net/qq_36527339/article/details/81772996 1.首先虚拟机关机 —> 选中要扩容的虚拟机 —>编辑虚拟机 ...

  5. Linux ifconfig 配置网络接口

    Linux ifconfig 可以用来配置网络接口的IP地址.掩码.网关.物理地址等:值得一说的是用Linux ifconfig 为网卡指定IP地址,这只是用来调试网络用的,并不会更改系统关于网卡的配 ...

  6. 【模板】KMP [2017年5月计划 清北学堂51精英班Day2]

    Day2就搞一个KMP把  马拉车.AC自动机等准备省选的时候再说.. 模板题: 1204 寻找子串位置 时间限制: 1 s 空间限制: 128000 KB 题目等级 : 青铜 Bronze     ...

  7. 字符串的trim()用法

      trim() 方法会从一个字符串的两端删除空白字符.在这个上下文中的空白字符是所有的空白字符 (space, tab, no-break space 等) 以及所有行终止符字符(如 LF,CR). ...

  8. truncate 、delete、drop的区别

    TRUNCATE TABLE 在功能上与不带 Where 子句的 Delete 语句相同:二者均删除表中的全部行.但 TRUNCATE TABLE 比 Delete 速度快,且使用的系统和事务日志资源 ...

  9. Mybatis - plus 配置与运用

    Mybatis - plus mybatis-plus 官方文档  1.配置 引入对应的文件包,spring boot + mybatis 需添加依赖文件如下: <dependencies> ...

  10. C#中时间差的计算

    /// <summary> /// 已重载.计算两个日期的时间间隔,返回的是时间间隔的日期差的绝对值. /// </summary> /// <param name=&q ...