机器学习框架ML.NET学习笔记【5】多元分类之手写数字识别（续）

一、概述

上一篇文章我们利用ML.NET的多元分类算法实现了一个手写数字识别的例子，这个例子存在一个问题，就是输入的数据是预处理过的，很不直观，这次我们要直接通过图片来进行学习和判断。思路很简单，就是写一个自定义的数据处理通道，输入为文件名，输出为float数字，里面保存的是像素信息。

样本包括6万张训练图片和1万张测试图片，图片为灰度图片，分辨率为20*20 。train_tags.tsv文件对每个图片的数值进行了标记，如下：

二、源码

全部代码：

namespace MulticlassClassification_Mnist

{

    class Program

    {

        //Assets files download from:https://gitee.com/seabluescn/ML_Assets

        static readonly string AssetsFolder = @"D:\StepByStep\Blogs\ML_Assets\MNIST";

        static readonly string TrainTagsPath = Path.Combine(AssetsFolder, "train_tags.tsv");

        static readonly string TrainDataFolder = Path.Combine(AssetsFolder, "train");

        static readonly string ModelPath = Path.Combine(Environment.CurrentDirectory, "Data", "SDCA-Model.zip");

        static void Main(string[] args)

        {

            MLContext mlContext = new MLContext(seed: );

            TrainAndSaveModel(mlContext);

            TestSomePredictions(mlContext);

            Console.WriteLine("Hit any key to finish the app");

            Console.ReadKey();

        }

        public static void TrainAndSaveModel(MLContext mlContext)

        {

            // STEP 1: 准备数据

            var fulldata = mlContext.Data.LoadFromTextFile<InputData>(path: TrainTagsPath, separatorChar: '\t', hasHeader: false);

            var trainTestData = mlContext.Data.TrainTestSplit(fulldata, testFraction: 0.1);

            var trainData = trainTestData.TrainSet;

            var testData = trainTestData.TestSet;

            // STEP 2: 配置数据处理管道

            var dataProcessPipeline = mlContext.Transforms.CustomMapping(new LoadImageConversion().GetMapping(), contractName: "LoadImageConversionAction")

               .Append(mlContext.Transforms.Conversion.MapValueToKey("Label", "Number", keyOrdinality: ValueToKeyMappingEstimator.KeyOrdinality.ByValue))

               .Append(mlContext.Transforms.NormalizeMeanVariance( outputColumnName: "FeaturesNormalizedByMeanVar", inputColumnName: "ImagePixels"));

            // STEP 3: 配置训练算法 (using a maximum entropy classification model trained with the L-BFGS method)

            var trainer = mlContext.MulticlassClassification.Trainers.LbfgsMaximumEntropy(labelColumnName: "Label", featureColumnName: "FeaturesNormalizedByMeanVar");

            var trainingPipeline = dataProcessPipeline.Append(trainer)

                 .Append(mlContext.Transforms.Conversion.MapKeyToValue("PredictNumber", "Label"));

            // STEP 4: 训练模型使其与数据集拟合

            ITransformer trainedModel = trainingPipeline.Fit(trainData);          

            // STEP 5:评估模型的准确性

            var predictions = trainedModel.Transform(testData);

            var metrics = mlContext.MulticlassClassification.Evaluate(data: predictions, labelColumnName: "Label", scoreColumnName: "Score");

            PrintMultiClassClassificationMetrics(trainer.ToString(), metrics);

            // STEP 6:保存模型

            mlContext.Model.Save(trainedModel, trainData.Schema, ModelPath);

        }

        private static void TestSomePredictions(MLContext mlContext)

        {

            // Load Model

            ITransformer trainedModel = mlContext.Model.Load(ModelPath, out var modelInputSchema);

            // Create prediction engine

            var predEngine = mlContext.Model.CreatePredictionEngine<InputData, OutPutData>(trainedModel);

            DirectoryInfo TestFolder = new DirectoryInfo(Path.Combine(AssetsFolder, "test"));

            foreach(var image in TestFolder.GetFiles())

            {

                count++;

                InputData img = new InputData()

                {

                    FileName = image.Name

                };

                var result = predEngine.Predict(img);

                Console.WriteLine($"Current Source={img.FileName},PredictResult={result.GetPredictResult()}");

            }

        }

    }

    class InputData

    {

        [LoadColumn()]

        public string FileName;

        [LoadColumn()]

        public string Number;

        [LoadColumn()]

        public float Serial;

    }

    class OutPutData : InputData

    {

        public float[] Score;

        public int GetPredictResult()

        {

            float max = ;

            int index = ;

            for (int i = ; i < Score.Length; i++)

            {

                if (Score[i] > max)

                {

                    max = Score[i];

                    index = i;

                }

            }

            return index;

        }

    }

}

三、分析

整个处理流程和上一篇文章基本一致，这里解释两个不一样的地方。

1、自定义的图片读取处理通道

namespace MulticlassClassification_Mnist

{

    public class LoadImageConversionInput

    {

        public string  FileName { get; set; }

    }

    public class LoadImageConversionOutput

    {

        [VectorType()]

        public float[] ImagePixels { get; set; }

        public string ImagePath;

    }

    [CustomMappingFactoryAttribute("LoadImageConversionAction")]

    public class LoadImageConversion : CustomMappingFactory<LoadImageConversionInput, LoadImageConversionOutput>

    {

        static readonly string TrainDataFolder = @"D:\StepByStep\Blogs\ML_Assets\MNIST\train";

        public void CustomAction(LoadImageConversionInput input, LoadImageConversionOutput output)

        {

            string ImagePath = Path.Combine(TrainDataFolder, input.FileName);

            output.ImagePath = ImagePath;

            Bitmap bmp = Image.FromFile(ImagePath) as Bitmap;           

            output.ImagePixels = new float[];

            for (int x = ; x < ; x++)

                for (int y = ; y < ; y++)

                {

                    var pixel = bmp.GetPixel(x, y);

                    var gray = (pixel.R + pixel.G + pixel.B) /  / ;

                    output.ImagePixels[x + y * ] = gray;

                }

            bmp.Dispose();

        }

        public override Action<LoadImageConversionInput, LoadImageConversionOutput> GetMapping()

              => CustomAction;

    }

}

这里可以看出，我们自定义的数据处理通道，输入为文件名称，输出是一个float数组，这里数组必须要指定宽度，由于图片分辨率为20*20，所以数组宽度指定为400，输出ImagePath为文件详细地址，用来调试使用，没有实际用途。处理思路非常简单，遍历每个Pixel，计算其灰度值，为了减少工作量我们把灰度值进行缩小，除以了16 ，由于后面数据会做归一化，所以这里影响不是太明显。

2、模型测试

            DirectoryInfo TestFolder = new DirectoryInfo(Path.Combine(AssetsFolder, "test"));

            int count = ;

            int success = ;

            foreach(var image in TestFolder.GetFiles())

            {

                count++;

                InputData img = new InputData()

                {

                    FileName = image.Name

                };

                var result = predEngine.Predict(img);

                if(int.Parse(image.Name.Substring(,))==result.GetPredictResult())

                {

                    success++;

                }

            }

我们把测试目录里的全面图片读出遍历了一遍，将其测试结果和实际结果做了一次验证，实际上是把评估（Evaluate）的事情又重复做了一次，两次测试的成功率基本接近。

四、关于图片特征提取

我们是采用图片所有像素的灰度值来作为特征值的，但必须要强调的是：像素值矩阵不是图片的典型特征。虽然有时候对于较规则的图片，通过像素提取方式进行计算，也可以取得很好的效果，但在处理稍微复杂一点的图片的时候，就不管用了，原因很明显，我们人类在分析图片内容时看到的特征更多是线条等信息，绝对不是像素值，看下图：

我们人类很容易就判断出这两个图片表达的是同一件事情，但其像素值特征却相差甚远。

传统的图片特征提取方式很多，比如：SIFT、HOG、LBP、Haar等。现在采用TensorFlow的模型进行特征提取效果非常好。下一篇文章介绍图片分类时再进行详细介绍。

五、资源获取

源码下载地址：https://github.com/seabluescn/Study_ML.NET

工程名称：MulticlassClassification_Mnist_Useful

MNIST资源获取：https://gitee.com/seabluescn/ML_Assets

点击查看机器学习框架ML.NET学习笔记系列文章目录

机器学习框架ML.NET学习笔记【5】多元分类之手写数字识别（续）的更多相关文章

机器学习框架ML.NET学习笔记【4】多元分类之手写数字识别
一.问题与解决方案通过多元分类算法进行手写数字识别,手写数字的图片分辨率为8*8的灰度图片.已经预先进行过处理,读取了各像素点的灰度值,并进行了标记. 其中第0列是序号(不参与运算).1-64列是像 ...
机器学习框架ML.NET学习笔记【6】TensorFlow图片分类
一.概述通过之前两篇文章的学习,我们应该已经了解了多元分类的工作原理,图片的分类其流程和之前完全一致,其中最核心的问题就是特征的提取,只要完成特征提取,分类算法就很好处理了,具体流程如下: 之前介绍 ...
机器学习框架ML.NET学习笔记【7】人物图片颜值判断
一.概述这次要解决的问题是输入一张照片,输出人物的颜值数据. 学习样本来源于华南理工大学发布的SCUT-FBP5500数据集,数据集包括 5500 人,每人按颜值魅力打分,分值在 1 到 5 分之间 ...
机器学习框架ML.NET学习笔记【3】文本特征分析
一.要解决的问题问题:常常一些单位或组织召开会议时需要录入会议记录,我们需要通过机器学习对用户输入的文本内容进行自动评判,合格或不合格.(同样的问题还类似垃圾短信检测.工作日志质量分析等.) 处理思 ...
机器学习框架ML.NET学习笔记【2】入门之二元分类
一.准备样本接上一篇文章提到的问题:根据一个人的身高.体重来判断一个人的身材是否很好.但我手上没有样本数据,只能伪造一批数据了,伪造的数据比较标准,用来学习还是蛮合适的. 下面是我用来伪造数据的代码 ...
机器学习框架ML.NET学习笔记【1】基本概念与系列文章目录
一.序言微软的机器学习框架于2018年5月出了0.1版本,2019年5月发布1.0版本.期间各版本之间差异(包括命名空间.方法等)还是比较大的,随着1.0版发布,应该是趋于稳定了.之前在园子里也看到 ...
机器学习框架ML.NET学习笔记【8】目标检测（采用YOLO2模型）
一.概述本篇文章介绍通过YOLO模型进行目标识别的应用,原始代码来源于:https://github.com/dotnet/machinelearning-samples 实现的功能是输入一张图片, ...
机器学习框架ML.NET学习笔记【9】自动学习
一.概述本篇我们首先通过回归算法实现一个葡萄酒品质预测的程序,然后通过AutoML的方法再重新实现,通过对比两种实现方式来学习AutoML的应用. 首先数据集来自于竞赛网站kaggle.com的UC ...
深度学习面试题12：LeNet(手写数字识别)
目录神经网络的卷积.池化.拉伸 LeNet网络结构 LeNet在MNIST数据集上应用参考资料 LeNet是卷积神经网络的祖师爷LeCun在1998年提出,用于解决手写数字识别的视觉任务.自那时起 ...

随机推荐

<十七>UML核心视图动态视图之时序图
一:时序图 --->时序图是用于描述按时间顺序排列的对象之间的交互模式. --->它按照参与交互的对象所具有的“生命线”和他们相互发送的消息来显示这些对象. --->时序图包含对象和 ...
poj1637 Sightseeing tour[最大流+欧拉回路]
混合图的欧拉回路定向问题. 顺便瞎说几句,有向图定欧拉回路的充要条件是每个点入度等于出度,并且图联通.无向图的话只要联通无奇点即可. 欧拉路径的确定应该是无向图联通且奇点数0个或2个,有向图忘了,好像 ...
PageMethods
主要是用到ScriptManger,老知识Mark一下,ScriptManager要EnablePageMethods="true" 后台 using System.Web.Scr ...
洛谷P1018乘积最大——区间DP
题目:https://www.luogu.org/problemnew/show/P1018 区间DP+高精,注意初始化和转移的细节. 代码如下: #include<iostream> # ...
.Net 学习资源整理
01.Visual Studio 隐藏的财富 --- C# 语言规范安装完Visual Studio之后,我们好像忽略了,微软给我们准备的<C# 语言规范>. 路径参考下图: 02.MS ...
PowerShell 总结
PowerShell 总结 1. 2. 3. 参考学习资料 (1). PowerShell 在线教程 (2). 利用Powershell在IIS上自动化部署网站视频教程: (3). Windows ...
Spring boot 学习六 spring 继承 mybatis （基于注解）
MyBatis提供了多个注解如:@InsertProvider,@UpdateProvider,@DeleteProvider和@SelectProvider,这些都是建立动态语言和让MyBatis执 ...
Apache日志解读
想要知道什么人在什么时候浏览了网站的哪些内容吗?查看Apache的访问日志就可以知道.访问日志是Apache的标准日志,本文详细解释了访问日志的内容以及相关选项的配置. 一.访问日志的格式 Apac ...
WPF win7+vs2010开发的打印功能，怎么在XP系统上无法打印
在wpf 中打印功能很强大,但最近是在win7上可以但是布置到xp上就不可以了,查了好多资料终于知道怎么回事了原来xp里没有.net framework3.5 安装一个就OK了要先安装4.0.
[hdu4311]Meeting point-1
题意:在整数坐标轴上找一个距离所有给定点距离最小的点. 解题关键:对x和y分别处理,前缀和预处理所有点到最小点的距离,每点的$sum$等于左边的贡献+右边的贡献,最后取$min$即可. 复杂度:$O( ...

机器学习框架ML.NET学习笔记【5】多元分类之手写数字识别（续）

机器学习框架ML.NET学习笔记【5】多元分类之手写数字识别（续）的更多相关文章

随机推荐

热门专题