Easy Pipeline，一种轻量级的Python Pipeline库

嗯，很久没有写博客了，最近的工作都是偏开发性质的，以至于没有时间对自己感兴趣的领域进行探索，感觉个人的成长停滞了一些。如何在枯燥的工作中，提取出有助于自己成长的养分，对于每个人来说都是不小的考验。

这次，带来的是之前编写的一下挺简单的库，用来简化流水线作业的小框架。

Github: https://github.com/miaoerduo/easy-pipeline 欢迎Star和提交MR。

起因是这样的，组内有一个需求，需要挖掘视频中的检测难样本，这样可以极大地减少标注的量，从而降低成本。难样本挖掘的策略，简单来说就是如果视频的前几帧和后几帧都能检测到目标，而就只有当前帧没有检测到，就说明当前帧很可能存在漏检（没有检测本到该检测到的目标）；反之，如果前后都没有检测到目标，而当前帧检测到了，那就很可能是误检（检测到不是目标的东西）。

初步的方案是这样的，我们先把视频抽帧，直接用FFMpeg就可以方便的完成。然后调用现在的检测器，进行逐帧的检测，把检测结果存下来。最后写个脚本，分析检测的结果，然后输出可能有问题的帧，然后这些帧就会进行送标（发给标注员进行标注）。最终我们就只需要标注一些比较hard的样本就行了。

但是这样会带来很多的问题，最显著的两个：1. 需要保存大量的中间结果（图片帧）；2. 必须依次完成每一步之后，才能得到最终的结果。

这时候，相比大家都知道了该如何去解决。对的，我们应该用流水线作业的方式去进行。

首先我们可以将每部分任务并行的去处理。抽帧之后的结果送入队列；之后检测模块从队列取帧，检测之后将结果送入下一个队列；最后一个队列得到检测结果，再做最终的分析。相比于之前的方式，这样可以尽量的减少中间的结果。

实现该方案，只需要使用最简单的生产者消费者队列即可以完成。所以说，相信大家都十分了解了。对于上面的逻辑，我们需要的队列的数目和我们的模块数是正相关的。如果单纯的进行实现的话，实在的太麻烦了，给队列命名都要我们绞尽脑汁了。所以，为了更优雅的编写代码，这里就推出本文标题中的Easy Pipeline框架。

首先，我们举个最简单的例子来说明该框架的工作模式。输入一个数字的序列，按要求对他们进行加减乘除的操作（这里的每个操作，其实可以等价于前面的抽帧或是检测的更复杂的操作），并且支持每个操作的进程数。

from easy_pipeline import SimplePipeline, PipelineItem, Task, StopTask, EmptyTask

import multiprocessing as mp

# define our Task

class NumTask(Task):

    def __init__(self, x):

        super(NumTask, self).__init__()

        self.val = x

# init function, here we use closure to get different function

def get_init_fn(x):

    def init():

        return x

    return init

# operations

def plus(res, task):

    return NumTask(task.val + res)

def mul(res, task):

    return NumTask(task.val * res)

def minus(res, task):

    return NumTask(task.val - res)

def div(res, task):

    return NumTask(task.val / res)

if __name__ == '__main__':

    # job queue

    manager = mp.Manager()

    job_queue = manager.Queue(1000)

    # define pipeline and start

    # x = （(x + 1) * 2 - 3）/ 5

    pipeline_items = [

        PipelineItem(plus, get_init_fn(1), 1, 10),      # plus 1

        PipelineItem(mul, get_init_fn(2), 2, 10),       # mul 2

        PipelineItem(minus, get_init_fn(3), 3, 10),     # minus 3

        PipelineItem(div, get_init_fn(5.), 4, 10),      # div 5

    ]

    pipeline = SimplePipeline(pipeline_items, job_queue)

    pipeline.start()

    result_queue = pipeline.get_result_queue()

    # Feed jobs anytime (before StopTask)

    for i in range(10):

        job_queue.put(NumTask(i))

    # get partial output

    print('Get Output Start')

    for i in range(5):

        result = result_queue.get()

        if isinstance(result, StopTask):

            print("get stop task")

            break

        if isinstance(result, EmptyTask):

            continue

        print(result.val)

    print('Get Output End')

    # Feed jobs anytime (before StopTask)

    for i in range(10, 20):

        job_queue.put(NumTask(i))

    # Stop pipeline, means no more job will be added then.

    # Every process will exit when it has done all current jobs in job_queue

    pipeline.stop()

    # get all output

    print('Get Output Start')

    while True:

        result = result_queue.get()

        if isinstance(result, StopTask):

            print("Output Queue Empty")

            break

        if isinstance(result, EmptyTask):

            continue

        print(result.val)

    print('Get Output End')

下面，我们来简单的说明一下工作逻辑。

首先，我们需要定义自己的任务Task。只需要继承Task这个类即可，内部可以存放自己喜欢的任何数据。这里只是为了计算，所以就只存放了一个数字。
定义我们的初始化函数和工作函数。初始化函数的作用是给每个进程初始化一些资源，如果不需要也可以不要。这里的初始化函数就是返回了一个值，表示操作数。工作函数是最重要的函数，他会处理接收到的Task，处理并返回新的Task（新的Task可以理解为处理的结果）。工作函数有两个输入，一个是资源，即初始化函数的返回值，另一个就是Task本身。
构建Pipeline。每个工作模块都只需要用PipelineItem这个对象进行封装即可。器参数分别是：工作函数、初始化函数、进程数、结果队列的长度（-1表示不限长度）。结果队列的长度，通常设置为较大的值即可。因为不能的模块的处理速度可能不同，因此很容易出现结果堆积的现象，如果不支持队列长度，会导致内存的大量的占用。最后将PipelineItem的数组和输入的对垒传给SimplePipeline对象即可构建完我们的整套Pipeline程序了！
启动Pipeline程序，并输入数据。
得到结果！完事了，优秀。

上面这是一个最简单的例子，可以比较直观的感受到这个框架的便捷之处。完全屏蔽掉对队列，并发等的操作。

在我推荐给同事之后，确实一定程度地减小他的工作量，但同时，他也向我反馈了一些问题：这个框架在某些地方有些比较灵活的设计，应该给出足够多的实例，才能方便实用。关于该框架的设计思路和实例，将会在下一篇博客中进行详细介绍。

最后，欢迎大家Star和提交MR。愿与你们一同进步。

Easy Pipeline，一种轻量级的Python Pipeline库的更多相关文章

python开发_json_一种轻量级的数据交换格式
以下是我做的对于python中json模块的demo 运行效果: Python 3.3.2 (v3.3.2:d047928ae3f6, May 16 2013, 00:03:43) [MSC v.16 ...
JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式
JSON JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式. 它基于JavaScript(Standard ECMA-262 3rd Edition - D ...
140种Python标准库、第三方库和外部工具
导读:Python数据工具箱涵盖从数据源到数据可视化的完整流程中涉及到的常用库.函数和外部工具.其中既有Python内置函数和标准库,又有第三方库和工具. 这些库可用于文件读写.网络抓取和解析.数据连 ...
茴香豆的“茴”有四种写法，Python的格式化字符串也有
茴香豆的"茴"有四种写法,Python的格式化字符串也有茴香豆的"茴"有四种写法,Python的格式化字符串也有被低估的断言多一个逗号,少一点糟心事上下 ...
JavaScript 一种轻量级的编程语言
JavaScript 一种轻量级的编程语言作为一名计算机应用专业的学生,大一上学期开始接触了网页设计和制作,刚开始时感觉做网页很不错,简单地写几行代码就能做出效果来,当时感觉很兴奋,渐渐的喜欢上它 ...
【转载】pygame安装与两种版本的Python兼容问题
在开始学习游戏编程之前,我们先来安装下pygame和python3.2.5 参考园友: http://www.cnblogs.com/hongten/p/hongten_pygame_install. ...
两种方法实现Python二分查找算法
两种方法实现Python二分查找算法一. ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 arr=[1,3,6,9,10,20,30] def findnumber( ...
JSON --- 一种轻量级的数据交换格式
目录 1. 语法 2. 解析与序列化 JSON.stringify( jsData[, filter, indent] ) JSON.parse( jsonData[, reduction]) JSO ...
python第六天函数 python标准库实例大全
今天学习第一模块的最后一课课程--函数: python的第一个函数: 1 def func1(): 2 print('第一个函数') 3 return 0 4 func1() 1 同时返回多种类型时, ...

随机推荐

java web dev知识积累
tomcat体系结构可以从tomcat的server.xml文件中元素的层次结构来理解tomcat的体系结构: Server(可以视为tomcat本身)->经由connector可以有多个(c ...
spring定时任务表达式
@Scheduled 注解 cron表达式一个cron表达式有至少6个(也可能7个)有空格分隔的时间元素. 按顺序依次为秒(0~59) 分钟(0~59) 小时(0~23) 天(月)(0~31,但是 ...
MySQL: Connection Character Sets and Collations
character_set_server collation_servercharacter_set_databasecollation_database character_set_clientch ...
Python2与python3中字符串的区别
Python2 在python中包含两种字符串类型:str和unicode,str并不是完全意义上的字符串,其实是由unicode经过编码(encode)后的字节组成的字节字符串,而unicode则是 ...
Java 设计模式笔记
0. 说明转载 & 参考大部分内容 JAVA设计模式总结之23种设计模式 1. 什么是设计模式设计模式(Design pattern)是一套被反复使用.多数人知晓的.经过分类编目的.代码设 ...
【转】Spring学习---Spring IoC容器的核心原理
[原文] Spring的两个核心概念:IoC和AOP的雏形,Spring的历史变迁和如今的生态帝国. IoC和DI的基本概念 IoC(控制反转,英文含义:Inverse of Control)是Spr ...
mariadb启动报错：[ERROR] Can't start server : Bind on unix socket: Permission denied
今天mariadb总是启动不了,对于我来说是不能忍受的.然后前往日志文件查看报错信息,提示如下: 出错信息一共就这三行,没有报其他的错误.那只能从红色方框的地方开始入手了. 首先是百度去搜索原因是什么 ...
开源作业调度框架 - Quartz.NET - 实战使用2
纠正第一篇文章的一个错误代码. 下面是错误代码,这样并不能得知系统中是否已经存在该JobId //实例化一个作业Key对象,用于获取作业对象或判断是否存在作业时使用. JobKey jobKey = ...
SQL一字段内的字符串按照特定字符串转化为多行显示
有如下数据表需求就是将Col1,Col2按照特定的字符串分割成多行一.利用XML解析方式先将该字段值统一替换为逗号分割,再将逗号分割替换转为XML数据类型,再利用xml转为多个行 declare ...
2019 wannafly winter camp day 3
2019 wannafly winter camp day 3 J 操作S等价于将S串取反,然后依次遍历取反后的串,每次加入新字符a,当前的串是T,那么这次操作之后的串就是TaT.这是第一次转化. 涉 ...

Easy Pipeline，一种轻量级的Python Pipeline库

Easy Pipeline，一种轻量级的Python Pipeline库的更多相关文章

随机推荐

热门专题