本文介绍基于MATLAB，利用随机森林（RF）算法实现回归预测，以及自变量重要性排序的操作。

本文分为两部分，首先是对代码进行分段、详细讲解，方便大家理解；随后是完整代码，方便大家自行尝试。另外，关于基于MATLAB的神经网络（ANN）代码与详细解释，我们将在后期博客中介绍。

1 分解代码

1.1 最优叶子节点数与树数确定

首先，我们需要对RF对应的叶子节点数与树的数量加以择优选取。

%% Number of Leaves and Trees Optimization

for RFOptimizationNum=1:5

RFLeaf=[5,10,20,50,100,200,500];

col='rgbcmyk';

figure('Name','RF Leaves and Trees');

for i=1:length(RFLeaf)

    RFModel=TreeBagger(2000,Input,Output,'Method','R','OOBPrediction','On','MinLeafSize',RFLeaf(i));

    plot(oobError(RFModel),col(i));

    hold on

end

xlabel('Number of Grown Trees');

ylabel('Mean Squared Error') ;

LeafTreelgd=legend({'5' '10' '20' '50' '100' '200' '500'},'Location','NorthEast');

title(LeafTreelgd,'Number of Leaves');

hold off;

disp(RFOptimizationNum);

end

其中，RFOptimizationNum是为了多次循环，防止最优结果受到随机干扰；大家如果不需要，可以将这句话删除。

RFLeaf定义初始的叶子节点个数，我这里设置了从5到500，也就是从5到500这个范围内找到最优叶子节点个数。

Input与Output分别是我的输入（自变量）与输出（因变量），大家自己设置即可。

运行后得到下图。

首先，我们看到MSE最低的线是红色的，也就是5左右的叶子节点数比较合适；再看各个线段大概到100左右就不再下降，那么树的个数就是100比较合适。

1.2 循环准备

由于机器学习往往需要多次执行，我们就在此先定义循环。

%% Cycle Preparation

RFScheduleBar=waitbar(0,'Random Forest is Solving...');

RFRMSEMatrix=[];

RFrAllMatrix=[];

RFRunNumSet=10;

for RFCycleRun=1:RFRunNumSet

其中，RFRMSEMatrix与RFrAllMatrix分别用来存放每一次运行的RMSE、r结果，RFRunNumSet是循环次数，也就是RF运行的次数。

1.3 数据划分

接下来，我们需要将数据划分为训练集与测试集。这里要注意：RF其实一般并不需要划分训练集与测试集，因为其可以采用袋外误差（Out of Bag Error，OOB Error）来衡量自身的性能。但是因为我是做了多种机器学习方法的对比，需要固定训练集与测试集，因此就还进行了数据划分的步骤。

%% Training Set and Test Set Division

RandomNumber=(randperm(length(Output),floor(length(Output)*0.2)))';

TrainYield=Output;

TestYield=zeros(length(RandomNumber),1);

TrainVARI=Input;

TestVARI=zeros(length(RandomNumber),size(TrainVARI,2));

for i=1:length(RandomNumber)

    m=RandomNumber(i,1);

    TestYield(i,1)=TrainYield(m,1);

    TestVARI(i,:)=TrainVARI(m,:);

    TrainYield(m,1)=0;

    TrainVARI(m,:)=0;

end

TrainYield(all(TrainYield==0,2),:)=[];

TrainVARI(all(TrainVARI==0,2),:)=[];

其中，TrainYield是训练集的因变量，TrainVARI是训练集的自变量；TestYield是测试集的因变量，TestVARI是测试集的自变量。

因为我这里是做估产回归的，因此变量名称就带上了Yield，大家理解即可。

1.4 随机森林实现

这部分代码其实比较简单。

%% RF

nTree=100;

nLeaf=5;

RFModel=TreeBagger(nTree,TrainVARI,TrainYield,...

    'Method','regression','OOBPredictorImportance','on', 'MinLeafSize',nLeaf);

[RFPredictYield,RFPredictConfidenceInterval]=predict(RFModel,TestVARI);

其中，nTree、nLeaf就是本文1.1部分中我们确定的最优树个数与最优叶子节点个数，RFModel就是我们所训练的模型，RFPredictYield是预测结果，RFPredictConfidenceInterval是预测结果的置信区间。

1.5 精度衡量

在这里，我们用RMSE与r衡量模型精度。

%% Accuracy of RF

RFRMSE=sqrt(sum(sum((RFPredictYield-TestYield).^2))/size(TestYield,1));

RFrMatrix=corrcoef(RFPredictYield,TestYield);

RFr=RFrMatrix(1,2);

RFRMSEMatrix=[RFRMSEMatrix,RFRMSE];

RFrAllMatrix=[RFrAllMatrix,RFr];

if RFRMSE<400

    disp(RFRMSE);

    break;

end

disp(RFCycleRun);

str=['Random Forest is Solving...',num2str(100*RFCycleRun/RFRunNumSet),'%'];

waitbar(RFCycleRun/RFRunNumSet,RFScheduleBar,str);

end

close(RFScheduleBar);

在这里，我定义了当RMSE满足<400这个条件时，模型将自动停止；否则将一直执行到本文1.2部分中我们指定的次数。其中，模型每一次运行都会将RMSE与r结果记录到对应的矩阵中。

1.6 变量重要程度排序

接下来，我们结合RF算法的一个功能，对所有的输入变量进行分析，去获取每一个自变量对因变量的解释程度。

%% Variable Importance Contrast

VariableImportanceX={};

XNum=1;

% for TifFileNum=1:length(TifFileNames)

%     if ~(strcmp(TifFileNames(TifFileNum).name(4:end-4),'MaizeArea') | ...

%             strcmp(TifFileNames(TifFileNum).name(4:end-4),'MaizeYield'))

%         eval(['VariableImportanceX{1,XNum}=''',TifFileNames(TifFileNum).name(4:end-4),''';']);

%         XNum=XNum+1;

%     end

% end

for i=1:size(Input,2)

    eval(['VariableImportanceX{1,XNum}=''',i,''';']);

    XNum=XNum+1;

end

figure('Name','Variable Importance Contrast');

VariableImportanceX=categorical(VariableImportanceX);

bar(VariableImportanceX,RFModel.OOBPermutedPredictorDeltaError)

xtickangle(45);

set(gca, 'XDir','normal')

xlabel('Factor');

ylabel('Importance');

这里代码就不再具体解释了，大家会得到一幅图，是每一个自变量对因变量的重要程度，数值越大，重要性越大。

其中，我注释掉的这段是依据我当时的数据情况来的，大家就不用了。

更新：这里请大家注意，上述代码中我注释掉的内容，是依据每一幅图像的名称对重要性排序的X轴（也就是VariableImportanceX）加以注释（我当时做的是依据遥感图像估产，因此每一个输入变量的名称其实就是对应的图像的名称），所以使得得到的变量重要性柱状图的X轴会显示每一个变量的名称。大家用自己的数据来跑的时候，可以自己设置一个变量名称的字段元胞然后放到VariableImportanceX，然后开始figure绘图；如果在输入数据的特征个数（也就是列数）比较少的时候，也可以用我上述代码中间的这个for i=1:size(Input,2)循环——这是一个偷懒的办法，也就是将重要性排序图的X轴中每一个变量的名称显示为一个正方形，如下图红色圈内。这里比较复杂，因此如果大家这一部分没有搞明白或者是一直报错，在本文下方直接留言就好~

1.7 保存模型

接下来，就可以将合适的模型保存。

%% RF Model Storage

RFModelSavePath='G:\CropYield\02_CodeAndMap\00_SavedModel\';

save(sprintf('%sRF0410.mat',RFModelSavePath),'nLeaf','nTree',...

    'RandomNumber','RFModel','RFPredictConfidenceInterval','RFPredictYield','RFr','RFRMSE',...

    'TestVARI','TestYield','TrainVARI','TrainYield');

其中，RFModelSavePath是保存路径，save后的内容是需要保存的变量名称。

2 完整代码

完整代码如下：

%% Number of Leaves and Trees Optimization

for RFOptimizationNum=1:5

RFLeaf=[5,10,20,50,100,200,500];

col='rgbcmyk';

figure('Name','RF Leaves and Trees');

for i=1:length(RFLeaf)

    RFModel=TreeBagger(2000,Input,Output,'Method','R','OOBPrediction','On','MinLeafSize',RFLeaf(i));

    plot(oobError(RFModel),col(i));

    hold on

end

xlabel('Number of Grown Trees');

ylabel('Mean Squared Error') ;

LeafTreelgd=legend({'5' '10' '20' '50' '100' '200' '500'},'Location','NorthEast');

title(LeafTreelgd,'Number of Leaves');

hold off;

disp(RFOptimizationNum);

end

%% Notification

% Set breakpoints here.

%% Cycle Preparation

RFScheduleBar=waitbar(0,'Random Forest is Solving...');

RFRMSEMatrix=[];

RFrAllMatrix=[];

RFRunNumSet=50000;

for RFCycleRun=1:RFRunNumSet

%% Training Set and Test Set Division

RandomNumber=(randperm(length(Output),floor(length(Output)*0.2)))';

TrainYield=Output;

TestYield=zeros(length(RandomNumber),1);

TrainVARI=Input;

TestVARI=zeros(length(RandomNumber),size(TrainVARI,2));

for i=1:length(RandomNumber)

    m=RandomNumber(i,1);

    TestYield(i,1)=TrainYield(m,1);

    TestVARI(i,:)=TrainVARI(m,:);

    TrainYield(m,1)=0;

    TrainVARI(m,:)=0;

end

TrainYield(all(TrainYield==0,2),:)=[];

TrainVARI(all(TrainVARI==0,2),:)=[];

%% RF

nTree=100;

nLeaf=5;

RFModel=TreeBagger(nTree,TrainVARI,TrainYield,...

    'Method','regression','OOBPredictorImportance','on', 'MinLeafSize',nLeaf);

[RFPredictYield,RFPredictConfidenceInterval]=predict(RFModel,TestVARI);

% PredictBC107=cellfun(@str2num,PredictBC107(1:end));

%% Accuracy of RF

RFRMSE=sqrt(sum(sum((RFPredictYield-TestYield).^2))/size(TestYield,1));

RFrMatrix=corrcoef(RFPredictYield,TestYield);

RFr=RFrMatrix(1,2);

RFRMSEMatrix=[RFRMSEMatrix,RFRMSE];

RFrAllMatrix=[RFrAllMatrix,RFr];

if RFRMSE<1000

    disp(RFRMSE);

    break;

end

disp(RFCycleRun);

str=['Random Forest is Solving...',num2str(100*RFCycleRun/RFRunNumSet),'%'];

waitbar(RFCycleRun/RFRunNumSet,RFScheduleBar,str);

end

close(RFScheduleBar);

%% Variable Importance Contrast

VariableImportanceX={};

XNum=1;

% for TifFileNum=1:length(TifFileNames)

%     if ~(strcmp(TifFileNames(TifFileNum).name(4:end-4),'MaizeArea') | ...

%             strcmp(TifFileNames(TifFileNum).name(4:end-4),'MaizeYield'))

%         eval(['VariableImportanceX{1,XNum}=''',TifFileNames(TifFileNum).name(4:end-4),''';']);

%         XNum=XNum+1;

%     end

% end

for i=1:size(Input,2)

    eval(['VariableImportanceX{1,XNum}=''',i,''';']);

    XNum=XNum+1;

end

figure('Name','Variable Importance Contrast');

VariableImportanceX=categorical(VariableImportanceX);

bar(VariableImportanceX,RFModel.OOBPermutedPredictorDeltaError)

xtickangle(45);

set(gca, 'XDir','normal')

xlabel('Factor');

ylabel('Importance');

%% RF Model Storage

RFModelSavePath='G:\CropYield\02_CodeAndMap\00_SavedModel\';

save(sprintf('%sRF0410.mat',RFModelSavePath),'nLeaf','nTree',...

    'RandomNumber','RFModel','RFPredictConfidenceInterval','RFPredictYield','RFr','RFRMSE',...

    'TestVARI','TestYield','TrainVARI','TrainYield');

至此，大功告成。

MATLAB实现随机森林（RF）回归与自变量影响程度分析的更多相关文章

吴裕雄 python 机器学习——集成学习随机森林RandomForestRegressor回归模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklear ...
随机森林RF、XGBoost、GBDT和LightGBM的原理和区别
目录 1.基本知识点介绍 2.各个算法原理 2.1 随机森林 -- RandomForest 2.2 XGBoost算法 2.3 GBDT算法(Gradient Boosting Decision T ...
【机器学习】随机森林RF
随机森林(RF, RandomForest)包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定.通过自助法(boot-strap)重采样技术,不断生成训练样本和测试样本,由训练样本 ...
Bagging与随机森林(RF)算法原理总结
Bagging与随机森林算法原理总结在集成学习原理小结中,我们学习到了两个流派,一个是Boosting,它的特点是各个弱学习器之间存在依赖和关系,另一个是Bagging,它的特点是各个弱学习器之间没 ...
随机森林RF
bagging 随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的.在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决 ...
随机森林实现 MATLAB
matlab 中随机森林工具箱的下载地址: http://code.google.com/p/randomforest-matlab/downloads/detail?name=Windows-Pre ...
机器学习总结（二）bagging与随机森林
一:Bagging与随机森林与Boosting族算法不同的是,Bagging和随机森林的个体学习器之间不存在强的依赖关系,可同时生成并行化的方法. Bagging算法 bagging的算法过程如下: ...
SIGAI机器学习第十九集随机森林
讲授集成学习的概念,Bootstrap抽样,Bagging算法,随机森林的原理,训练算法,包外误差,计算变量的重要性,实际应用大纲: 集成学习简介 Boostrap抽样 Bagging算法随机森林 ...
机器学习-树模型理论（GDBT，xgboost，lightBoost，随机森林）
tree based ensemble algorithms 主要介绍以下几种ensemble的分类器(tree based algorithms) xgboost lightGBM: 基于决策树算法 ...
MATLAB随机森林回归模型
MATLAB随机森林回归模型: 调用matlab自带的TreeBagger.m T=textread('E:\datasets-orreview\discretized-regression\10bi ...

随机推荐

Blender建模软件怎么安装？有哪些好用的插件？
1.下载Blender软件包,将压缩包解压后,使用鼠标左键双击打开安装文件. 2.由于压缩包内有两个安装文件,用户需要根据系统版本选择安装.可以使用鼠标右键单击桌面上的"此电脑"图 ...
AcWing第78场周赛
今天想起来了,就补一下吧~ 第一题商品分类货架中摆放着 n 件商品,每件商品都有两个属性:名称和产地. 当且仅当两件商品的名称和产地都相同时,两件商品才视为同一种商品. 请你统计,货架中一共有多少 ...
React基础学习知识笔记
React项目的核心就是index.js 第一个程序 import React from 'react'; import ReactDOM from 'react-dom';ReactDOM.rend ...
ArcGISServer 10.4 虚拟机安装新建站点失败 Failed to configure the server machine ''. Server machine '' is not a local
在通过 VMware 创建的虚拟机上(win7 64位)安装ArcServer 10.4,新建站点时出现下面的错误. Failed to configure the server machine ' ...
day28 BOM浏览器对象 & 定时事件与Cookie & （视频卷子讲解）
3.10 BOM浏览器对象模型 3.10.1 window对象所有浏览器都支持window对象,它表示浏览器窗口: | 属性 | history 网页历史记录返回History只读对象 locat ...
SpringBoot向Excel模板中写入数据并下载（无需获取file对象及模板绝对路径）
之前用获取模板路径的方式测试没问题打包后就有问题了莫名出现一个! 找了很多教程尝试无果最终使用下面这个方式无需获取file对象以及模板路径的方式进行写入下载 (那个设置浏览器编码没有测试不知道能 ...
Java工厂模式的最佳实践？
"Simplicity is prerequisite for reliability." - Edsger Dijkstra "简单是可靠的前提条件." -- ...
MySQL进阶实战7，查询的执行过程
@ 目录一.拆分查询二.分解关联查询三.查询的执行过程四.优化器的一些优化手段 1.重新定义关联表的顺序 2.将外连接转化为内连接 3.使用增加变换规则 4.优化count().max().m ...
编程思想的转变软件开发目录规范 collections、time、datetime、 random模块
目录编程思想的转变软件目录开发规范(重要) 内置模块:collections模块简介具名元组 namedtuple 实现二维坐标系实现扑克牌队列与堆栈 collection.deque() ...
下载Font Awesome框架
目录一:下载Font Awesome框架二:如何使用font awesome 1.使用图标等样式,点击复制标签即可,需要嵌套在i标签内 2.点击图标,复制标签,然后粘贴使用即可. 3.动态图片等 ...

MATLAB实现随机森林（RF）回归与自变量影响程度分析