子流程的定义

当流程设计的越来越复杂,越来越长时,就难以进行管理了。因此,采用模块化的设计才会更加合理。本节我们介绍子流程的原理和使用。

所谓子流程,就是能先构造出一个流程,然后被其他流程调用。被调用的流程就是子流程。

学过编程和数学的人,应该能够了解子流程其实就是函数,可以定义输入参数和输出,把整个功能看成整体,从而方便重用。

子流程能够分为:

  • 子流-生成
  • 如生成全国城市列表的流
  • 生成某个网站全部分类的流
  • 子流-转换
  • 通过输入url地址,就能转换出该页面中所有需要信息的流
  • 子流-执行
  • 例如可以构造获取某个页面所有图片的执行流
  • 子流-过滤 (这一项系统没有提供,比较少用)
  • 如过滤掉所有内容为空,或内容包含abc的流

值得指出,子流还可以调用其他的子流,形成树状的调用结构。

当加载一个任务时,该任务依赖的子任务也会自动加载。对子流的修改,也会传递到主流上。

子流可以类比于一般的函数,它可以接受主流传递给它的参数,从而执行内部流程。

这样,就可以配置出本来在系统中不存在的子模块,从而扩展系统的功能。

子流在调用时,行为和系统默认提供的生成/转换/执行器完全一致。

如何创建子流

你可以将一个网页采集器认定为一个特殊的转换子流。当你创建了一个子流之后,就能按照一般的转换器,执行器来操作。

例子1

新建一个数据清洗,命名为主流程,生成1-20的区间数,列名为id.

接下来,我们希望能生成id2和id3两个列,数值分别为id的两倍和三倍,再把它们拼接起来。你可以直接拖入两个python转换器到id, 脚本为int(value)*2int(value)*3,最后再拖入一个合并多列,格式为{0}_{1},再删掉刚才生成的三个列,这样就生成了下面的列:

2_3
4_6
6_9
...

但是,如果不仅有id这一列,还有别的列需要做一样的处理,那就需要做重复的操作了。我们完全可以将其封装起来重复使用。

新建一个数据清洗,命名为子流程,新建从文本生成,列名为id, 内容只要一个1就可以了,之后按照刚才的步骤,生成2_3这样的列。

之后,在主流程上,对id列拖入子流-转换,在弹出的面板上,ETL选择中填入子流程调用范围填入1:100,刷新后,即可看到和之前相同的结果。

从上面可以看出,子流可以分为两部分:参数部分和执行部分。子流程中的第一个从文本生成,只是参数,目的是为了设计器能构成输出数据的完整流程。但要想被别的模块调用,则只应该有执行部分。而参数部分,需要主流程传递给子流程。这就是调用范围的意义,它能设置在子流上,成为执行部分的那一段。

举例子,如果一个长度为20个模块的子流,前两个为参数部分,后18个是执行部分,因此调用范围可以写2:18(从0开始)。 当然为了方便,你可以给冒号后第二个数比较大的值,如100。

因此,主流程应当提供子流程所需的所有参数,同时列名和子流程参数部分需要完全一致。当子流-转换模块勾选返回多个数据时,它会进入一转多模式,这类似于XPath转换器。

子流程在抓取详细页面时非常有用,你可以创建生成所有目标url的主流程,再创建从url获取页面全部信息的子流程,之后进行调用即可。

当子流是执行器时,在调试时是不会执行的,因此也看不到效果。这一点需要特别注意。

注意!

主流程不会将所有的参数都传递给子流程,因为这可能并没有必要。因此,需要在子流的转换器上,显式地设置原列名,并用空格分割,这样才能传递过去。

例子2

我们以Hawk-Project的大众点评为例讲解,可以加载工程后自行研究。之前已经讲过思路,这里我们只讲大概的轮廓:

大众点评区域能够获取一个城市所有的区县:

大众点评类别能够获取城市的所有美食种类。

之后,我们用大众点评门店,来调用刚才实现的两个子流:

拖入从子流-生成大众点评门店,按照如下方式配置:

我们对必要的列名进行修改,之后再拖入另一个从子流-生成,配置如下,尤其注意生成模式改为Cross

这样就能生成所有区县下,所有美食门类的组合。

之后,按照之前介绍的方式,即可抓取所有美食信息。

子流嵌套

子流程不仅可以被主流程调用,子流程还可以拥有自己的子流程。从而形成复杂的树状调用结构。这样就能实现绝大多数的需求和复杂功能。

目前,流程之间还不能自调用,也不能形成调用环。虽然函数确实是可以递归调用的,但对一个以generator为核心的流系统,递归可能并不需要。但如果真的支持,那一定会相当强大。

Hawk 6. 高级话题:子流程系统的更多相关文章

  1. 转:如何学习SQL(第四部分:DBMS扩展功能与SQL高级话题)

    转自:http://blog.163.com/mig3719@126/blog/static/285720652010950102575/ 9. DBMS提供的扩展功能 掌握了基本的关系模型原理和DB ...

  2. 易普优APS与国外知名高级计划排程系统对比

    众所周知软件执行效率受制于硬件性能,市面上的APS产品多为单机版本,企业要应用好APS,保证紧急插单.计划下发全程无忧,用户电脑硬件性能是不容忽视的一大瓶颈.APS的直接用户是车间管理人员.计划员,而 ...

  3. 易普优APS 5.0高级计划排程系统助力工业4.0智能工厂建设

    (一)智能工厂建设核心 <中国制造2025>明确提出要推进制造过程智能化,智能工厂是实现智能制造的重要载体.作为智能工厂,在生产过程应实现自动化.透明化.可视化.精益化的同时,产品检测.质 ...

  4. C#中的线程(四)高级话题

    C#中的线程(四)高级话题   Keywords:C# 线程Source:http://www.albahari.com/threading/Author: Joe AlbahariTranslato ...

  5. rust 高级话题

    目录 rust高级话题 前言 零大小类型ZST 动态大小类型DST 正确的安装方法 结构体 复制和移动 特征对象 引用.生命周期.所有权 生命周期 错误处理 交叉编译 智能指针 闭包 动态分派和静态分 ...

  6. APS高级计划排程系统和生产排产系统

    一.什么是APS高级计划排程系统 APS高级计划与排程是解决生产排程和生产调度问题,常被称为排序问题或资源分配问题. 目前,市场逐步走向个性化.以销定产模式:生产逐步以多品种小批量形成存在.对于离散制 ...

  7. 为什么众多软件厂商无法提供APS高级计划排程系统?工厂目前生产计划是怎么排产的?

    一.行业现状如想了解一下目前现状,去考察一下上了ERP的企业,会发现一个有趣的现象该企业无论ERP软件搞得如何如火如荼,似乎都与生产调度人员无关. 车间里或者生产线上的生产作业计划.生产过程的调度和管 ...

  8. 工厂为什么要进行计划排产,APS高级计划排程系统的优势作用是什么?

    我们每个人的指挥中心是大脑,大脑对我们身体发出各种各样的指令,不停的告诉我们身体去干什么. 那么,一个制造企业的指挥中心是哪里?工厂每天都会接到各种各样的订单,通过几百上千的工人,使用各种设备来生产. ...

  9. (四) 一起学 Unix 环境高级编程(APUE) 之 系统数据文件和信息

    . . . . . 目录 (一) 一起学 Unix 环境高级编程 (APUE) 之 标准IO (二) 一起学 Unix 环境高级编程 (APUE) 之 文件 IO (三) 一起学 Unix 环境高级编 ...

随机推荐

  1. 23种设计模式--单例模式-Singleton

    一.单例模式的介绍 单例模式简单说就是掌握系统的至高点,在程序中只实例化一次,这样就是单例模式,在系统比如说你是该系统的登录的第多少人,还有数据库的连接池等地方会使用,单例模式是最简单,最常用的模式之 ...

  2. 如何远程关闭一个ASP.NET Core应用?

    在<历数依赖注入的N种玩法>演示系统自动注册服务的实例中,我们会发现输出的列表包含两个特殊的服务,它们的对应的服务接口分别是IApplicationLifetime和IHostingEnv ...

  3. [译] C# 5.0 中的 Async 和 Await (整理中...)

    C# 5.0 中的 Async 和 Await [博主]反骨仔 [本文]http://www.cnblogs.com/liqingwen/p/6069062.html 伴随着 .NET 4.5 和 V ...

  4. 【原创】免费申请SSL证书【用于HTTPS,即是把网站从HTTP改为HTTPS,加密传输数据,保护敏感数据】

    今天公司有个网站需要改用https访问,所以就用到SSL证书.由于沃通(以前我是在这里申请的)暂停了免费的SSL证书之后,其网站推荐了新的一个网站来申请证书,所以,今天因为刚好又要申请一个证书,所以, ...

  5. Discuz NT 架构剖析之Config机制

    接触了Discuz NT! 一段时间了,是时候做个总结了,标题好霸气,有木有? 都是托园子里的大牛代振军的福啊,哈哈哈哈. 首先论坛的信息不是完全存储在数据库里面的,一部分信息存储在config文件里 ...

  6. [内核笔记1]内核文件结构与缓存——inode和对应描述

    由来:公司内部外网记录日志的方式现在都是通过Nginx模块收到数据发送到系统消息队列,然后由另外一个进程来从消息队列读取然后写回磁盘这样的操作,尽量的减少Nginx的阻塞. 但是由于System/V消 ...

  7. 前端开发:面向对象与javascript中的面向对象实现(二)构造函数与原型

    前端开发:面向对象与javascript中的面向对象实现(二)构造函数与原型 前言(题外话): 有人说拖延症是一个绝症,哎呀治不好了.先不说这是一个每个人都多多少少会有的,也不管它究竟对生活有多么大的 ...

  8. 使用python自动生成docker nginx反向代理配置

    由于在测试环境上用docker部署了多个应用,而且他们的端口有的相同,有的又不相同,数量也比较多,在使用jenkins发版本的时候,不好配置,于是想要写一个脚本,能在docker 容器创建.停止的时候 ...

  9. HTML学习笔记

    HTML学习笔记 2016年12月15日整理 Chapter1 URL(scheme://host.domain:port/path/filename) scheme: 定义因特网服务的类型,常见的为 ...

  10. SAP CRM 树视图(TREE VIEW)

    树视图可以用于表示数据的层次. 例如:SAP CRM中的组织结构数据可以表示为树视图. 在SAP CRM Web UI的术语当中,没有像表视图(table view)或者表单视图(form view) ...