Hawk 6. 高级话题：子流程系统

子流程的定义

当流程设计的越来越复杂，越来越长时，就难以进行管理了。因此，采用模块化的设计才会更加合理。本节我们介绍子流程的原理和使用。

所谓子流程，就是能先构造出一个流程，然后被其他流程调用。被调用的流程就是子流程。

学过编程和数学的人，应该能够了解子流程其实就是函数，可以定义输入参数和输出，把整个功能看成整体，从而方便重用。

子流程能够分为：

子流-生成
如生成全国城市列表的流
生成某个网站全部分类的流
子流-转换
通过输入url地址，就能转换出该页面中所有需要信息的流
子流-执行
例如可以构造获取某个页面所有图片的执行流
子流-过滤（这一项系统没有提供，比较少用）
如过滤掉所有内容为空，或内容包含abc的流

值得指出，子流还可以调用其他的子流，形成树状的调用结构。

当加载一个任务时，该任务依赖的子任务也会自动加载。对子流的修改，也会传递到主流上。

子流可以类比于一般的函数，它可以接受主流传递给它的参数，从而执行内部流程。

这样，就可以配置出本来在系统中不存在的子模块，从而扩展系统的功能。

子流在调用时，行为和系统默认提供的生成/转换/执行器完全一致。

如何创建子流

你可以将一个网页采集器认定为一个特殊的转换子流。当你创建了一个子流之后，就能按照一般的转换器，执行器来操作。

例子1

新建一个数据清洗，命名为主流程，生成1-20的区间数，列名为id.

接下来，我们希望能生成id2和id3两个列，数值分别为id的两倍和三倍，再把它们拼接起来。你可以直接拖入两个python转换器到id, 脚本为int(value)*2 和int(value)*3，最后再拖入一个合并多列,格式为{0}_{1}，再删掉刚才生成的三个列，这样就生成了下面的列:

2_3
4_6
6_9
...

但是，如果不仅有id这一列，还有别的列需要做一样的处理，那就需要做重复的操作了。我们完全可以将其封装起来重复使用。

新建一个数据清洗，命名为子流程，新建从文本生成,列名为id, 内容只要一个1就可以了，之后按照刚才的步骤，生成2_3这样的列。

之后，在主流程上，对id列拖入子流-转换，在弹出的面板上，ETL选择中填入子流程，调用范围填入1:100,刷新后，即可看到和之前相同的结果。

从上面可以看出，子流可以分为两部分：参数部分和执行部分。子流程中的第一个从文本生成，只是参数，目的是为了设计器能构成输出数据的完整流程。但要想被别的模块调用，则只应该有执行部分。而参数部分，需要主流程传递给子流程。这就是调用范围的意义，它能设置在子流上，成为执行部分的那一段。

举例子，如果一个长度为20个模块的子流，前两个为参数部分，后18个是执行部分，因此调用范围可以写2:18（从0开始）。当然为了方便，你可以给冒号后第二个数比较大的值，如100。

因此，主流程应当提供子流程所需的所有参数，同时列名和子流程参数部分需要完全一致。当子流-转换模块勾选返回多个数据时，它会进入一转多模式,这类似于XPath转换器。

子流程在抓取详细页面时非常有用，你可以创建生成所有目标url的主流程，再创建从url获取页面全部信息的子流程，之后进行调用即可。

当子流是执行器时，在调试时是不会执行的，因此也看不到效果。这一点需要特别注意。

注意！

主流程不会将所有的参数都传递给子流程，因为这可能并没有必要。因此，需要在子流的转换器上，显式地设置原列名，并用空格分割，这样才能传递过去。

例子2

我们以Hawk-Project的大众点评为例讲解，可以加载工程后自行研究。之前已经讲过思路，这里我们只讲大概的轮廓：

大众点评区域能够获取一个城市所有的区县：

大众点评类别能够获取城市的所有美食种类。

之后，我们用大众点评门店，来调用刚才实现的两个子流：

拖入从子流-生成到大众点评门店，按照如下方式配置：

我们对必要的列名进行修改，之后再拖入另一个从子流-生成，配置如下，尤其注意生成模式改为Cross

这样就能生成所有区县下，所有美食门类的组合。

之后，按照之前介绍的方式，即可抓取所有美食信息。

子流嵌套

子流程不仅可以被主流程调用，子流程还可以拥有自己的子流程。从而形成复杂的树状调用结构。这样就能实现绝大多数的需求和复杂功能。

目前，流程之间还不能自调用，也不能形成调用环。虽然函数确实是可以递归调用的，但对一个以generator为核心的流系统，递归可能并不需要。但如果真的支持，那一定会相当强大。