Scala - Spark Lambda“goesto“ => 分析

 /// 定义一个函数AddNoise，参数分别为rdd,Fraction。其中rdd为（BreezeDenseMatrix，  BreezeDenseMatrix）元组构成的RDD。Fraction为一个Double。返回一个（BreezeDenseMatrix，  BreezeDenseMatrix）元组构成的RDD。

 def AddNoise(rdd: RDD[(BDM[Double], BDM[Double])], Fraction: Double): RDD[(BDM[Double], BDM[Double])] = {

 /// 定义返回值临时储存，它由rdd中每个元素实现f=>STH构成

     val addNoise = rdd.map { f =>

 /// f中第二部分数据，为一个BreezeDenseMatrix

       val features = f._2

 /// 生成一个BreezeDenseMatrix，由随机数填充

       val a = BDM.rand[Double](features.rows, features.cols)

 /// 定义一个BreezeDenseMatrix a1,其中元素为bool型。如果a中对应元素大于Fraction，则为true。否则为false。

       val a1 = a :>= Fraction

 /// 定义一个RDD d1，由a1中元素经过如下运算后填充：如果当前元素为true，则为1.0，否则为0。

       val d1 = a1.data.map { f => if (f == true) 1.0 else 0.0 }

 /// 新建一个BreezeDenseMatrix，分别由于features相应位置对应的d1元素填充。

       val a2 = new BDM(features.rows, features.cols, d1)

 /// :*表示各元素依次相乘。得到BreezeDenseMatrix。

       val features2 = features :* a2

 /// 返回（BreezeDenseMatrix，BreezeDenseMatrix）构成的RDD。作为函数返回值，进而更新addNoise。

       (f._1, features2)

     }

 /// 返回运算后的结果，作为函数返回值。

     addNoise

   }

这段代码是用Scala写的运行与Spark上的，NN算法中AddNoise实现。用来完成DenoiseAutoencoder的随机噪声添加。

思想很简单，但却把Spark的map操作和Scala的lambda运算符的用法展现的淋漓尽致，值得学习。

代码来自sunbow0。

个人分析，有误请指正。

Scala - Spark Lambda“goesto“ => 分析的更多相关文章

Spark 的情感分析
Spark 的情感分析本文描述了基于 Spark 如何构建一个文本情感分析系统.文章首先介绍文本情感分析基本概念和应用场景,其次描述采用 Spark 作为分析的基础技术平台的原因和本文使用到技术组件 ...
Spark源码分析环境搭建
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3868718.html 本文主要分享一下如何构建Spark源码分析环境.以前主要使用eclipse来阅读源 ...
spark JavaDirectKafkaWordCount 例子分析
spark JavaDirectKafkaWordCount 例子分析: 1. KafkaUtils.createDirectStream( jssc, String.class, String.c ...
Spark SQL 源代码分析之 In-Memory Columnar Storage 之 in-memory query
/** Spark SQL源代码分析系列文章*/ 前面讲到了Spark SQL In-Memory Columnar Storage的存储结构是基于列存储的. 那么基于以上存储结构,我们查询cache ...
Spark源码分析之Spark Shell（下）
继上次的Spark-shell脚本源码分析,还剩下后面半段.由于上次涉及了不少shell的基本内容,因此就把trap和stty放在这篇来讲述. 上篇回顾:Spark源码分析之Spark Shell(上 ...
【转】Spark源码分析之-deploy模块
原文地址:http://jerryshao.me/architecture/2013/04/30/Spark%E6%BA%90%E7%A0%81%E5%88%86%E6%9E%90%E4%B9%8B- ...
Spark源码分析 – BlockManager
参考, Spark源码分析之-Storage模块对于storage, 为何Spark需要storage模块?为了cache RDD Spark的特点就是可以将RDD cache在memory或dis ...
Spark源码分析 – Deploy
参考, Spark源码分析之-deploy模块 Client Client在SparkDeploySchedulerBackend被start的时候, 被创建, 代表一个application和s ...
Spark源码分析 – SparkContext
Spark源码分析之-scheduler模块这位写的非常好, 让我对Spark的源码分析, 变的轻松了许多这里自己再梳理一遍先看一个简单的spark操作, val sc = new SparkC ...

随机推荐

Office 2010启动时出现无法验证此应用程序的许可证的解决
Office 2010启动之后弹出一个窗口提示:Microsoft Office无法验证此应用程序的许可证.修复尝试失败或者已被用户取消.应用程序将立即关闭. 遇到这样的情况,原因是Office的系统 ...
MPlayer 增加边看边剪切功能
下载 http://pan.baidu.com/s/1ntj0XLn 解压到 D:\MPlayer 前些日子用 FFMpeg 的 FFPlay 来做了视频剪切工具结果发现 FFPlay 的 CPU ...
Extjs读取本地下拉选框数据源，分为text和value，显示text，传值value
this.rdTypeCom=new Ext.form.ComboBox({ hiddenName:'rdType', store:new Ext. ...
Floyd最短路算法
Floyd最短路算法 ----转自啊哈磊[坐在马桶上看算法]算法6:只有五行的Floyd最短路算法暑假,小哼准备去一些城市旅游.有些城市之间有公路,有些城市之间则没有,如下图.为了节省经费以及方便计 ...
mysql导入出现MySQL Error 1153 - Got a packet bigger than 'max_allowed_packet' bytes
解决办法: 就搞定了.
Xamarin.Android开发实践（十三）
Xamarin.Android之SQLite.NET ORM 一.前言通过<Xamarin.Android之SQLiteOpenHelper>和<Xamarin.Android之C ...
hdu 1114 基础完全背包
题意:给一个储钱罐,已知空的储钱罐和装了硬币的储钱罐的质量.然后给了n种硬币的质量和价值. 问储钱罐里最少有多少钱. 解法:完全背包.注意要初始化为 INF,要正好装满,如果结果是INF,输出This ...
hdu 4022 STL
题意:给你n个敌人的坐标,再给你m个炸弹和爆炸方向,每个炸弹可以炸横排或竖排的敌人,问你每个炸弹能炸死多少个人. /* HDU 4022 G++ 1296ms */ #include<stdio ...
loj 1055(bfs)
题目链接:http://acm.hust.edu.cn/vjudge/problem/viewProblem.action?id=26772 思路:注意判重就行,开个6维数组记录3个robots的位置 ...
Java中常用的字符编码-解析
ASCII字符编码美国信息互换标准代码,为罗马字母编制的一套编码,主要用于表达现代英语和其他西欧语言中的字符,1字节的7位表示一个字符. ISO-8859-1字符编码 ISO为西欧语言中的字符制定的 ...

Scala - Spark Lambda“goesto“ => 分析

Scala - Spark Lambda“goesto“ => 分析的更多相关文章

随机推荐

热门专题