引言

在学习Scala的过程中,我发现其在构建大规模分布式计算系统上有与生俱来的特质。

其丰富的类型系统能够帮助编程设计提供非常好的信息隐藏和抽象,其monoids和monads概念利用Scala高阶函数实现计算并行和数据处理流水线,其Actor系统帮助编写可伸缩性的应用程序,事实上现特定领域语言的优势帮助开发用户非常好克服不同语言的障碍。

尽管以上Scala长处说起来不会感同身受,但这能够作为我学习的一大动力。让我開始尝试编写并行机器学习系统。

在学习过程中,我主要參考《Scala for Machine Learning》一书和相关网上的资料。

希望这些分享能帮助自己学习。也更好的服务有兴趣的读者。

为何使用Scala构建机器学习系统

抽象

Monoids和Monads是函数式编程的重要概念。

Monoids定义了在具有闭包性质(property of closure)的数据集上的二元操作op,恒等操作(identity operation)和结合性(associativity)。

以下是代码描写叙述:

trait Monoid[T] {
def zero: T
def op(a: T, b: T): T
}

Monoids具有结合性的操作。如果ts1、ts2、ts3是三个时间序列,该性质保证ts1+(ts2+ts3) = (ts1+ts2)+ts3。Monoid的结合性对于计算流的并行化是非常关键的。

Monads能够被觉得是容器的结构,它是Monoids的推广。像是Scala标准库中的List,Map等集合被设计成monads的结构。

Monads提供了以下的功能:1. 创建集合; 2. 对集合的元素进行转换; 3. 压平嵌套的集合。

以下是Scala代码描写叙述:

trait Monad[M[_]] {
def apply[T](a: T): M[T]
def flatMap[T, U](m: M[T])(f: T=>M[U]): M[U]
}

Monads同意集合或者容器连接起来产生一个工作流。该性质能够应用在不论什么科学计算中。

可扩展性

Actors系统使得Scala编程变得可伸缩、可扩展。Actors作为协程(coroutines)。通过异步消息进行通信,管理底层的线程池。

机器学习的工作流被实现成一系列的计算任务。这些任务包括了Scala的高阶方法(如flatMap,map,fold,reduce,collect,join,filter)对数据集合的操作。Scala同意actors集群对这些数据进行切割来完毕计算任务。Scala还支持本地或远程的actor之间进行消息分发和消息路由。



上图中,主节点作为控制器,管理和调度四步任务。这些详细的任务通过Scala的actors实现的多个工作节点运行。

主节点通过和工作节点交换消息来管理工作流的运行状态。负责可靠性。

通过监督actors的层次结构来实现计算任务的高可用性。

可配置性

Scala支持依赖注入(dependency injection)。通过抽象变量(abstract variables)、自引用成分(self-referenced composition)和可堆叠的特质(stackable traits)的组合来实现。最经常使用的依赖注入的模式成为cake pattern,该模式在构建动态计算工作流中经经常使用到。

可维护性

Scala内嵌了领域专用语言(Domain Specific Languages,DSL)。

DSLs是在Scala原生库上建立的语法层,DSLs同意软件开发人员抽象计算细节,更好让使用者理解。DSLs最有名的应用案例就是在Matlab中的语法形式。

计算工作流



一个计算工作流(computational workflow)能够分为以下几个步骤:

1. 从文件或数据库中加载数据集

2. 将数据集进行切割,用于并行的数据处理

3. 运用过滤技术、方差分析等进行数据预处理

4. 应用机器学习模型

在使用训练数据进行分析的过程还须要一些详细的处理:

- 从清洗的输入数据中选择训练集、測试集、验证集

- 抽取关键特征、利用聚类技术从一组类似观測中简历亲近关系

- 降低特征数量。避免训练数据过拟合

- 反复进行多次上述步骤来验证模型和调整模型

- 将模型进行持久化,用于新观測数据的预測和处理

  1. 评估模型表现

转载请注明作者Jason Ding及其出处

Github博客主页(http://jasonding1354.github.io/)

GitCafe博客主页(http://jasonding1354.gitcafe.io/)

CSDN博客(http://blog.csdn.net/jasonding1354)

简书主页(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles)

Google搜索jasonding1354进入我的博客主页

【Scala-ML】怎样利用Scala构建并行机器学习系统的更多相关文章

  1. 利用Scala语言开发Spark应用程序

    Spark内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情.如果你对Scala语言还不太熟悉,可 以阅读网络教程A Scala Tutorial for Ja ...

  2. 使用 Kafka 在生产环境构建大规模机器学习

    智能实时应用为所有行业带来了革命性变化.机器学习及其分支深度学习正蓬勃发展,因为机器学习让计算机能够在无人指引的情况下挖掘深藏的洞见.这种能力正是多种领域所需要的,如非结构化数据分析.图像识别.语音识 ...

  3. Spark:利用Eclipse构建Spark集成开发环境

    前一篇文章“Apache Spark学习:将Spark部署到Hadoop 2.2.0上”介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上 ...

  4. 分布式机器学习系统笔记(一)——模型并行,数据并行,参数平均,ASGD

    欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术.应用感兴趣的同学加入. 文章索引::"机器学 ...

  5. 《Scala程序设计》暨Scala简介

    JVM语言 JVM上的语言越来越多了,从前几年的groovy.Scala和Clojure,现在又听说一门Kotlin.对于前三种语言,groovy算是JVM平台上的动态脚本语言,可以类比Python: ...

  6. R︱foreach+doParallel并行+联用迭代器优化内存+并行机器学习算法

    要学的东西太多,无笔记不能学~~ 欢迎关注公众号,一起分享学习笔记,记录每一颗"贝壳"~ --------------------------- 接着之前写的并行算法paralle ...

  7. 使用ML.NET和Azure Function进行机器学习 - 第1部分

    介绍 一提到机器学习,总是让人望而生畏.幸运的是,Azure正在想方设法让开发人员更容易进入机器学习.ML.NET是Microsoft Research专为.NET开发人员开发的机器学习框架,因此您可 ...

  8. Scala进阶之路-Scala中的Ordered--Ordering

    Scala进阶之路-Scala中的Ordered--Ordering 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.   说道对象的比较,在Java中大家最熟悉不过的就是实现类本身实 ...

  9. Scala进阶之路-Scala中的泛型介绍

    Scala进阶之路-Scala中的泛型介绍 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 通俗的讲,比如需要定义一个函数,函数的参数可以接受任意类型.我们不可能一一列举所有的参数类 ...

随机推荐

  1. Debian中文字体安装

    默认装的英文办的debian7,看中国字不太美,这好办照着做吧 1. Setup locales #dpkg-reconfigure locales 选择 zh_CN GB2312 zh_CN.GBK ...

  2. Mysql事务隔离级

    转自:http://xm-king.iteye.com/blog/770721 SQL标准定义了4类隔离级别,包括了一些具体规则,用来限定事务内外的哪些改变是可见的,哪些是不可见的.低级别的隔离级一般 ...

  3. 花匠(NOIP2013)(神奇纯模拟)

    原题传送门 这是道很奇怪的题目,真不知道为什么要放到T2. 也许是T1太水了 首先先看题, 题目要求一个数列中下标为偶数的点比临近的下表为奇数的点更大或更小 其实就是说在原数组中找到一个最长的波动数列 ...

  4. Linux内核情景分析之异常访问,用户堆栈的扩展

    情景假设: 在堆内存中申请了一块内存,然后释放掉该内存,然后再去访问这块内存.也就是所说的野指针访问. 当cpu产生页面错误时,会把失败的线性地址放在cr2寄存器.线性地址缺页异常的4种情况 1.如果 ...

  5. SpringBoot无XML配置

    SpringBoot,自己研究了好几天,以前也是没有接触过这类的框架,不过原理吧,也就是那么些个原理,毕竟都是Spring开源下的子框架. 好了,回归正题,今天晚上研究了好久,写出来了无配置文件的ja ...

  6. 用jsp开发web应用并不是一个高效率的选择

    1.    Android里有办法让js使用java方法像使用自己的方法一样方便,和flex的很相似,flex里面使用java方法就像使用自己的方法一样. 2.    用Flex开发准确的说就是用as ...

  7. ZOJ2112 Dynamic Rankings(整体二分)

    今天学习了一个奇技淫巧--整体二分.关于整体二分的一些理论性的东西,可以参见XRH的<浅谈数据结构题的几个非经典解法>.然后下面是一些个人的心得体会吧,写下来希望加深一下自己的理解,或者如 ...

  8. Python编程学习笔记 随时更新

    import urllib.request import re url = 'http://stock.sohu.com/news/' html = urllib.request.urlopen(ur ...

  9. 在windows 10 64bit系统上安装python 3.6 64bit的numpy模块

    1.查找自己的python版本对照的whl文件(cp36代表的是版本) 地址:https://pypi.python.org/pypi/numpy 2.下载完毕执行一下命令即可 pip install ...

  10. 计蒜客 18487.Divisions-大数的所有因子个数-Miller_Rabin+Pollard_rho-超快的(大数质因解+因子个数求解公式) (German Collegiate Programming Contest 2015 ACM-ICPC Asia Training League 暑假第一阶段第三场 F)

    这一场两个和大数有关的题目,都用到了米勒拉宾算法,有点东西,备忘一下. 题目传送门 F. Divisions 传送门 这个题是求一个数的所有因子个数,但是数据比较大,1e18,所以是大数的题目,正常的 ...