【Scala-ML】怎样利用Scala构建并行机器学习系统

引言

在学习Scala的过程中，我发现其在构建大规模分布式计算系统上有与生俱来的特质。

其丰富的类型系统能够帮助编程设计提供非常好的信息隐藏和抽象，其monoids和monads概念利用Scala高阶函数实现计算并行和数据处理流水线，其Actor系统帮助编写可伸缩性的应用程序，事实上现特定领域语言的优势帮助开发用户非常好克服不同语言的障碍。

尽管以上Scala长处说起来不会感同身受，但这能够作为我学习的一大动力。让我開始尝试编写并行机器学习系统。

在学习过程中，我主要參考《Scala for Machine Learning》一书和相关网上的资料。

希望这些分享能帮助自己学习。也更好的服务有兴趣的读者。

为何使用Scala构建机器学习系统

抽象

Monoids和Monads是函数式编程的重要概念。

Monoids定义了在具有闭包性质（property of closure）的数据集上的二元操作op，恒等操作（identity operation）和结合性（associativity）。

以下是代码描写叙述：

trait Monoid[T] {

  def zero: T

  def op(a: T, b: T): T

}

Monoids具有结合性的操作。如果ts1、ts2、ts3是三个时间序列，该性质保证ts1+(ts2+ts3) = (ts1+ts2)+ts3。Monoid的结合性对于计算流的并行化是非常关键的。

Monads能够被觉得是容器的结构，它是Monoids的推广。像是Scala标准库中的List，Map等集合被设计成monads的结构。

Monads提供了以下的功能：1. 创建集合； 2. 对集合的元素进行转换； 3. 压平嵌套的集合。

以下是Scala代码描写叙述：

trait Monad[M[_]] {

  def apply[T](a: T): M[T]

  def flatMap[T, U](m: M[T])(f: T=>M[U]): M[U]

}

Monads同意集合或者容器连接起来产生一个工作流。该性质能够应用在不论什么科学计算中。

可扩展性

Actors系统使得Scala编程变得可伸缩、可扩展。Actors作为协程（coroutines）。通过异步消息进行通信，管理底层的线程池。

机器学习的工作流被实现成一系列的计算任务。这些任务包括了Scala的高阶方法（如flatMap,map,fold,reduce,collect,join,filter）对数据集合的操作。Scala同意actors集群对这些数据进行切割来完毕计算任务。Scala还支持本地或远程的actor之间进行消息分发和消息路由。

上图中，主节点作为控制器，管理和调度四步任务。这些详细的任务通过Scala的actors实现的多个工作节点运行。

主节点通过和工作节点交换消息来管理工作流的运行状态。负责可靠性。

通过监督actors的层次结构来实现计算任务的高可用性。

可配置性

Scala支持依赖注入（dependency injection）。通过抽象变量（abstract variables）、自引用成分（self-referenced composition）和可堆叠的特质（stackable traits）的组合来实现。最经常使用的依赖注入的模式成为cake pattern，该模式在构建动态计算工作流中经经常使用到。

可维护性

Scala内嵌了领域专用语言（Domain Specific Languages，DSL）。

DSLs是在Scala原生库上建立的语法层，DSLs同意软件开发人员抽象计算细节，更好让使用者理解。DSLs最有名的应用案例就是在Matlab中的语法形式。

计算工作流

一个计算工作流（computational workflow）能够分为以下几个步骤：

1. 从文件或数据库中加载数据集

2. 将数据集进行切割，用于并行的数据处理

3. 运用过滤技术、方差分析等进行数据预处理

4. 应用机器学习模型

在使用训练数据进行分析的过程还须要一些详细的处理：

- 从清洗的输入数据中选择训练集、測试集、验证集

- 抽取关键特征、利用聚类技术从一组类似观測中简历亲近关系

- 降低特征数量。避免训练数据过拟合

- 反复进行多次上述步骤来验证模型和调整模型

- 将模型进行持久化，用于新观測数据的预測和处理

评估模型表现

转载请注明作者Jason Ding及其出处

Github博客主页(http://jasonding1354.github.io/)

GitCafe博客主页(http://jasonding1354.gitcafe.io/)

CSDN博客(http://blog.csdn.net/jasonding1354)

简书主页(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles)

Google搜索jasonding1354进入我的博客主页