jrae源代码解析（二）

本文细述上文引出的RAECost和SoftmaxCost两个类。

SoftmaxCost

我们已经知道。SoftmaxCost类在给定features和label的情况下（超參数给定），衡量给定权重（hidden×catSize）的误差值cost,并指出当前的权重梯度。看代码。

@Override

public double valueAt(double

[]

 x)

{

if

(

 !requiresEvaluation(x) )

return value;

int

numDataItems

 = Features.columns;

int

[]

 requiredRows = ArraysHelper.makeArray(

0

,

 CatSize-

2);

ClassifierTheta

 Theta =

new ClassifierTheta(x,FeatureLength,CatSize);

DoubleMatrix

 Prediction = getPredictions (Theta, Features);

double

MeanTerm

 =

1.0

/

 (

double

)

 numDataItems;

double

Cost

 = getLoss (Prediction, Labels).sum() * MeanTerm;

double

RegularisationTerm

 =

0.5

*

 Lambda * DoubleMatrixFunctions.SquaredNorm(Theta.W);

DoubleMatrix

 Diff = Prediction.sub(Labels).muli(MeanTerm);

DoubleMatrix

 Delta = Features.mmul(Diff.transpose());

DoubleMatrix

 gradW = Delta.getColumns(requiredRows);

DoubleMatrix

 gradb = ((Diff.rowSums()).getRows(requiredRows));

//Regularizing.

 Bias does not have one.

gradW

 = gradW.addi(Theta.W.mul(Lambda));

Gradient

 =

new ClassifierTheta(gradW,gradb);

value

 = Cost + RegularisationTerm;

gradient

 = Gradient.Theta;

return

value;

}<br><br>public

DoubleMatrix

 getPredictions (ClassifierTheta Theta, DoubleMatrix Features)<br>    {<br>

int

numDataItems

 = Features.columns;<br>        DoubleMatrix Input = ((Theta.W.transpose()).mmul(Features)).addColumnVector(Theta.b);<br>        Input = DoubleMatrix.concatVertically(Input, DoubleMatrix.zeros(

1

,numDataItems));<br>

return

Activation.valueAt(Input);

 <br>    }

是个典型的2层神经网络，没有隐层，首先依据features预測labels，预測结果用softmax归一化，然后依据误差反向传播算出权重梯度。

此处添加200字。

这个典型的2层神经网络，label为一列向量，目标label置1，其余为0；转换函数为softmax函数，输出为每一个label的概率。

计算cost的函数为getLoss。如果目标label的预測输出为p∗，则每一个样本的cost也即误差函数为：

cost=E(p∗)=−log(p∗)

依据前述的神经网络后向传播算法，我们得到(j为目标label时，否则为0)：

∂E∂wij=∂E∂pj∂hj∂netjxi=−1pjpj(1−pj)xi=−(1−pj)xi=−(labelj−pj)featurei

因此我们便理解了以下代码的含义：

1	`DoubleMatrix Delta = Features.mmul(Diff.transpose());`

RAECost

先看实现代码：

@Override

public double valueAt(double

[]

 x)

{

if(!requiresEvaluation(x))

return value;

Theta

 Theta1 =

new Theta(x,hiddenSize,visibleSize,dictionaryLength);

FineTunableTheta

 Theta2 =

new FineTunableTheta(x,hiddenSize,visibleSize,catSize,dictionaryLength);

Theta2.setWe(

 Theta2.We.add(WeOrig) );

final

RAEClassificationCost

 classificationCost =

new RAEClassificationCost(

catSize,

 AlphaCat, Beta, dictionaryLength, hiddenSize, Lambda, f, Theta2);

final

RAEFeatureCost

 featureCost =

new RAEFeatureCost(

AlphaCat,

 Beta, dictionaryLength, hiddenSize, Lambda, f, WeOrig, Theta1);

Parallel.For(DataCell,

new

Parallel.Operation<LabeledDatum<Integer,Integer>>()

 {

public void perform(int

index,

 LabeledDatum<Integer,Integer> Data)

{

try {

LabeledRAETree

 Tree = featureCost.Compute(Data);

classificationCost.Compute(Data,

 Tree);

catch

(Exception

 e) {

System.err.println(e.getMessage());

}

});

double

costRAE

 = featureCost.getCost();

double

[]

 gradRAE = featureCost.getGradient().clone();

double

costSUP

 = classificationCost.getCost();

gradient

 = classificationCost.getGradient();

value

 = costRAE + costSUP;

for(int i=0

;

 i<gradRAE.length; i++)

gradient[i]

 += gradRAE[i];

System.gc();   

 System.gc();

System.gc();   

 System.gc();

System.gc();   

 System.gc();

System.gc();   

 System.gc();

return value;

}

cost由两部分组成，featureCost和classificationCost。程序遍历每一个样本，用featureCost.Compute(Data)生成一个递归树，同一时候累加cost和gradient。然后用classificationCost.Compute(Data, Tree)依据生成的树计算并累加cost和gradient。因此关键类为RAEFeatureCost和RAEClassificationCost。

RAEFeatureCost类在Compute函数中调用RAEPropagation的ForwardPropagate函数生成一棵树。然后调用BackPropagate计算梯度并累加。详细的算法过程。下一章分解。

jrae源代码解析（二）的更多相关文章

Spring源代码解析
Spring源代码解析(一):IOC容器:http://www.iteye.com/topic/86339 Spring源代码解析(二):IoC容器在Web容器中的启动:http://www.itey ...
Spring源代码解析(收藏)
Spring源代码解析(收藏) Spring源代码解析(一):IOC容器:http://www.iteye.com/topic/86339 Spring源代码解析(二):IoC容器在Web容器中的 ...
C#使用zxing，zbar，thoughtworkQRcode解析二维码，附源代码
最近做项目需要解析二维码图片,找了一大圈,发现没有人去整理下开源的几个库案例,花了点时间做了zxing,zbar和thoughtworkqrcode解析二维码案例,希望大家有帮助. zxing是谷歌 ...
NIO框架之MINA源代码解析（二）：mina核心引擎
NIO框架之MINA源代码解析(一):背景 MINA的底层还是利用了jdk提供了nio功能,mina仅仅是对nio进行封装.包含MINA用的线程池都是jdk直接提供的. MINA的server端主要有 ...
SDWebImage源代码解析（二）
上一篇:SDWebImage源代码解析(一) 2.缓存为了降低网络流量的消耗.我们都希望下载下来的图片缓存到本地.下次再去获取同一张图片时.能够直接从本地获取,而不再从远程server获取.这样做的 ...
redis之字符串命令源代码解析（二）
形象化设计模式实战 HELLO!架构 redis命令源代码解析在redis之字符串命令源代码解析(一)中讲了get的简单实现,并没有对 ...
asp.net C#生成和解析二维码代码
类库文件我们在文件最后面下载 [ThoughtWorks.QRCode.dll 就是类库] 使用时需要增加: using ThoughtWorks.QRCode.Codec;using Thought ...
Fixflow引擎解析(二)(模型) - BPMN2.0读写
Fixflow引擎解析(四)(模型) - 通过EMF扩展BPMN2.0元素 Fixflow引擎解析(三)(模型) - 创建EMF模型来读写XML文件 Fixflow引擎解析(二)(模型) - BPMN ...
Arrays.sort源代码解析
Java Arrays.sort源代码解析 Java Arrays中提供了对所有类型的排序.其中主要分为Primitive(8种基本类型)和Object两大类. 基本类型:采用调优的快速排序: 对象类 ...

随机推荐

Ubuntu 14.04 开启启动器图标最小化功能
转自Ubuntu 14.04 怎样开启启动器图标最小化功能前本站报道过 Ubuntu 14.04 终于加入了启动器图标最小化功能,这个功能默认是不开启的,要怎么开启呢? 之前报道的原文阅读:Ubun ...
[状压dp]经典TSP
0出发每个顶点经过一次回到0 最小花费. O($n^2 \times 2^n$) 记忆化搜索: // s: 已经访问过的节点状态 v: 出发位置 int dfs(int s, int v) { ) ...
自定义的IntentFileter 无法找到activity
<intent-filter > <action android:name="com.leo.enjoytime.VIEW"/></intent-fi ...
Ember.js demo8
<!DOCTYPE html> <html> <head> <meta name="description" content=" ...
hadoop2.2原理：分析HDFS的文件读写
File Read 程序举例: public class FileRead { public static void main(Sting[] args) throws Exception { Con ...
EFI脚本
https://software.intel.com/en-us/articles/efi-shells-and-scripting
oracle rac scan ip 用途原理
Oracle 11G R2 RAC增加了scan ip功能,在11.2之前,client链接数据库的时候要用vip,假如你的cluster有4个节点,那么客户端的tnsnames.ora中就对应有四个 ...
Vlan技术总结
VLAN主要有两个作用: vlan可以有效的控制广播域的范围 vlan可以分组设备,增强局域网的安全性(业务隔离) vlan的范围: 一共有4096个vlan,vlan 1为默认vlan.但其中vla ...
HDU5673 Robot 默慈金数
分析: 注:然后学了一发线性筛逆元的姿势链接:http://blog.miskcoo.com/2014/09/linear-find-all-invert #include<iostream& ...
nyoj 904 hashmap
这个题目是个水题目,现在我只管做出来,效率不考虑了. 题目链接: http://acm.nyist.net/JudgeOnline/problem.php?pid=904 我用hashmap 很爽,很 ...

jrae源代码解析（二）

jrae源代码解析（二）的更多相关文章

随机推荐

热门专题