写在前面

准备近期将微软的machinelearning-samples翻译成中文，水平有限，如有错漏，请大家多多指正。

如果有朋友对此感兴趣，可以加入我：https://github.com/feiyun0112/machinelearning-samples.zh-cn

鸢尾花分类

ML.NET 版本	API 类型	状态	应用程序类型	数据类型	场景	机器学习任务	算法
v0.7	动态 API	最新版本	控制台应用程序	.txt 文件	鸢尾花分类	多类分类	Sdca Multi-class

在这个介绍性示例中，您将看到如何使用ML.NET来预测鸢尾花的类型。在机器学习领域，这种类型的预测被称为多类分类。

问题

这个问题集中在根据花瓣长度，花瓣宽度等花的参数预测鸢尾花（setosa，versicolor或virginica）的类型。

为了解决这个问题，我们将建立一个ML模型，它有4个输入参数：

petal length
petal width
sepal length
sepal width

并预测该花属于哪种鸢尾花类型：

setosa
versicolor
virginica

确切地说，模型将返回花属于每个类型的概率。

ML 任务 - 多类分类

多类分类的广义问题是将项目分类为三个或更多类别中的一个。（将项目分类为两个类别之一称为二元分类）。

多类分类的其他例子包括：

手写数字识别：预测图像中包含10个数字（0～9）。
问题标记：预测问题属于哪个类别（UI，后端，文档）。
根据患者的测试结果预测疾病阶段。

所有这些例子的共同特点是我们要预测的参数可以取几个（超过两个）值中的一个。换句话说，这个值由enum表示，而不是由integer、float、double或boolean类型表示。

解决方案

为了解决这个问题，首先我们将建立一个ML模型。然后，我们将在现有数据上训练模型，评估其有多好，最后我们将使用该模型来预测鸢尾花类型。

1. 建立模型

建立模型包括:

使用DataReader上传数据（iris-train.txt）
创建一个评估器并将数据转换为一列，以便ML算法（使用Concatenate）可以有效地使用它。
选择学习算法（StochasticDualCoordinateAscent）。

初始代码类似以下内容：

// Create MLContext to be shared across the model creation workflow objects

// Set a random seed for repeatable/deterministic results across multiple trainings.

var mlContext = new MLContext(seed: 0);

// STEP 1: Common data loading configuration

var textLoader = IrisTextLoaderFactory.CreateTextLoader(mlContext);

var trainingDataView = textLoader.Read(TrainDataPath);

var testDataView = textLoader.Read(TestDataPath);

// STEP 2: Common data process configuration with pipeline data transformations

var dataProcessPipeline = mlContext.Transforms.Concatenate("Features", "SepalLength",

                                                                       "SepalWidth",

                                                                       "PetalLength",

                                                                       "PetalWidth" );

// STEP 3: Set the training algorithm, then create and config the modelBuilder

var modelBuilder = new Common.ModelBuilder<IrisData, IrisPrediction>(mlContext, dataProcessPipeline);

// We apply our selected Trainer

var trainer = mlContext.MulticlassClassification.Trainers.StochasticDualCoordinateAscent(labelColumn: "Label", featureColumn: "Features");

modelBuilder.AddTrainer(trainer);

2. 训练

训练模型是在训练数据（已知鸢尾花类型）上运行所选算法以调整模型参数的过程。它在评估器对象中的Fit() 方法中实现。

为了执行训练，我们只需调用方法时传入在DataView对象中提供的训练数据集（iris-train.txt文件）。

// STEP 4: Train the model fitting to the DataSet

modelBuilder.Train(trainingDataView);

[...]

public ITransformer Train(IDataView trainingData)

{

    TrainedModel = TrainingPipeline.Fit(trainingData);

    return TrainedModel;

}

3. 评估模型

我们需要这一步来总结我们的模型对新数据的准确性。为此，上一步中的模型针对另一个未在训练中使用的数据集（iris-test.txt）运行。此数据集还包含已知的鸢尾花类型。

MulticlassClassification.Evaluate计算模型预测的值和已知类型之间差异的各种指标。

var metrics = modelBuilder.EvaluateMultiClassClassificationModel(testDataView, "Label");

Common.ConsoleHelper.PrintMultiClassClassificationMetrics(trainer.ToString(), metrics);

[...]

public MultiClassClassifierEvaluator.Result EvaluateMultiClassClassificationModel(IDataView testData, string label="Label", string score="Score")

{

    CheckTrained();

    var predictions = TrainedModel.Transform(testData);

    var metrics = _mlcontext.MulticlassClassification.Evaluate(predictions, label: label, score: score);

    return metrics;

}

要了解关于如何理解指标的更多信息，请参阅ML.NET指南中的机器学习词汇表，或者使用任何有关数据科学和机器学习的可用材料.

如果您对模型的质量不满意，可以采用多种方法来改进，这将在examples类别中进行介绍。

4. 使用模型

在模型被训练之后，我们可以使用Predict() API来预测这种花属于每个鸢尾花类型的概率。

var modelScorer = new Common.ModelScorer<IrisData, IrisPrediction>(mlContext);

modelScorer.LoadModelFromZipFile(ModelPath);

var prediction = modelScorer.PredictSingle(SampleIrisData.Iris1);

Console.WriteLine($"Actual: setosa.     Predicted probability: setosa:      {prediction.Score[0]:0.####}");

Console.WriteLine($"                                           versicolor:  {prediction.Score[1]:0.####}");

Console.WriteLine($"                                           virginica:   {prediction.Score[2]:0.####}");

[...]

public TPrediction PredictSingle(TObservation input)

{

    CheckTrainedModelIsLoaded();

    return PredictionFunction.Predict(input);

}

在TestIrisData.Iris1中存储有关我们想要预测类型的花的信息。

internal class TestIrisData

{

    internal static readonly IrisData Iris1 = new IrisData()

    {

        SepalLength = 3.3f,

        SepalWidth = 1.6f,

        PetalLength = 0.2f,

        PetalWidth= 5.1f,

    }

    (...)

}

ML.NET 示例：多类分类之鸢尾花分类的更多相关文章

ML.NET 示例：开篇
写在前面准备近期将微软的machinelearning-samples翻译成中文,水平有限,如有错漏,请大家多多指正. 如果有朋友对此感兴趣,可以加入我:https://github.com/fei ...
ML.NET 示例：多类分类之问题分类
写在前面准备近期将微软的machinelearning-samples翻译成中文,水平有限,如有错漏,请大家多多指正. 如果有朋友对此感兴趣,可以加入我:https://github.com/fei ...
ML.NET 示例：二元分类之信用卡欺诈检测
写在前面准备近期将微软的machinelearning-samples翻译成中文,水平有限,如有错漏,请大家多多指正. 如果有朋友对此感兴趣,可以加入我:https://github.com/fei ...
ML.NET 示例：目录
ML.NET 示例中文版:https://github.com/feiyun0112/machinelearning-samples.zh-cn 英文原版请访问:https://github.com/ ...
[Python]基于K-Nearest Neighbors[K-NN]算法的鸢尾花分类问题解决方案
看了原理,总觉得需要用具体问题实现一下机器学习算法的模型,才算学习深刻.而写此博文的目的是,网上关于K-NN解决此问题的博文很多,但大都是调用Python高级库实现,尤其不利于初级学习者本人对模型的理 ...
做一个logitic分类之鸢尾花数据集的分类
做一个logitic分类之鸢尾花数据集的分类 Iris 鸢尾花数据集是一个经典数据集,在统计学习和机器学习领域都经常被用作示例.数据集内包含 3 类共 150 条记录,每类各 50 个数据,每条记录都 ...
ipv4理论知识2-分类编址、ip分类、网络标识、主机标识、地址类、地址块
分类编址 ipv4的体系结构中有分类编址和无分类编址(后续会介绍到),在分类编址时,ipv4地址分为A.B.C.D.E这5类.每类占用的IP比例和个数如下图: ipv4分类识别计算机以二进制方式存储 ...
OC语言类的本质和分类
OC语言类的深入和分类一.分类 (一)分类的基本知识概念:Category 分类是OC特有的语言,依赖于类. 分类的作用:在不改变原来的类内容的基础上,为类增加一些方法. 添加一个分类: 文件 ...
李洪强iOS开发之OC语言类的深入和分类
OC语言类的深入和分类一.分类 (一)分类的基本知识概念:Category 分类是OC特有的语言,依赖于类. 分类的作用:在不改变原来的类内容的基础上,为类增加一些方法. 添加一个分类: 文件 ...

随机推荐

《node.js权威指南》读书笔记
第一章 node.js介绍非阻塞型I/O机制当在访问数据库取得搜索结果的时候,在开始访问数据库之后,数据库返回结果之前,存在一段等待时间. 在传统的单线程处理机制中,在执行了访问数据库的代码之后, ...
老K漫谈区块链的共识（3）——分布式系统和区块链共识
1. 啥是分布式系统当我们评价一个新的事物或者介绍一个新的技术的时候,我们不能架空历史和环境,新的事物不可能脱离历史和环境凭空诞生.任何新的事物和新的技术总是或多或少的,与旧的事件以及过去的技术有所 ...
MongoDB 主从和Replica Set
目前主要的MongoDB高可用架构包含: 主从架构 Replica set副本集方式 sharding分片注意:使用高可用架构后ips,qps相比单实例都会有一定程度的下降,其中rs下降不是他太明显 ...
简单易懂的程序语言入门小册子（6）：基于文本替换的解释器，引入continuation
当我写到这里的时候,我自己都吃了一惊. 环境.存储这些比较让人耳熟的还没讲到,continuation先出来了. 维基百科里对continuation的翻译是“延续性”. 这翻译看着总有些违和感而且那 ...
python 中文报错
解决的办法为:在程序的开头写入如下代码,这就是中文注释 #coding=utf-8
Python 面向对象的特性2-----继承
面向对象的三大特性 1.封装根据职责将属性和方法封装到一个抽象的类中,然后类创建一个实实在在的对象,有了对象以后,就可以访问到对象内部的属性,或者让对象来调用一个已经封装好的方法. 2.继承实现代 ...
JavaSE: SuppressWarnings[转]
在java编译过程中会出现很多警告,有很多是安全的,但是每次编译有很多警告影响我们对error的过滤和修改,我们可以在代码中加上 @SuppressWarnings(“XXXX”) 来解决例如:@S ...
【PAT】B1010 一元多项式求导
这道题的用例中没有负数在输入时就进行结果的计算,忽略常数项, 顺序输出 #include<cstdio> #include<vector> using namespace s ...
Ubuntu下使用QQ/Wechat
实验环境:Ubuntu 16.04桌面版root用户下安装Docker 配置Docker的apt源 $ sudo apt-get install apt-transport-https ca-cer ...
Visio画图--我的形状
本人用的Visio 2013 打开Visio后新建一个拓扑图,发现左侧形状一栏不见了形状栏可以保存很多自定义图形,怎么才能将形状一栏重新显示出来呢?方法其实很简单,方法如下所示: 这时候我们就会发现 ...

ML.NET 示例：多类分类之鸢尾花分类

写在前面