Dotnet core基于ML.net的销售数据预测实践
ML.net已经进到了1.5版本。作为Microsoft官方的机器学习模型,你不打算用用?
一、前言
ML.net可以让我们很容易地在各种应用场景中将机器学习加入到应用程序中。这是这个框架很重要的一点。
通过ML.net,我们可以使用手中的可用数据,进行预测、分析、检测,而不需要进行过于复杂的编程。
ML.net的核心,同样是机器学习模型。它采用同样的步骤,通过指定算法来训练模型,将输入数据转换为所需的预测数据。
更重要的是,ML.net基于.NET Core,这让它可以非常简单地跨平台,在Windows、Linux、MacOS上运行,并成为我们服务端的一部分内容。
回到今天的主题。
我们用实际的例子,完成一个通过历史销售数据进行单变量时序分析(单谱分析),以预测未来销量的需求。
为了防止不提供原网址的转载,特在这里加上原文链接:https://www.cnblogs.com/tiger-wang/p/13150021.html
二、开发环境&基础工程
这个Demo的开发环境是:Mac + VS Code + Dotnet Core 3.1.2。
$ dotnet --info
.NET Core SDK (reflecting any global.json):
Version: 3.1.201
Commit: b1768b4ae7
Runtime Environment:
OS Name: Mac OS X
OS Version: 10.15
OS Platform: Darwin
RID: osx.10.15-x64
Base Path: /usr/local/share/dotnet/sdk/3.1.201/
Host (useful for support):
Version: 3.1.3
Commit: 4a9f85e9f8
.NET Core SDKs installed:
3.1.201 [/usr/local/share/dotnet/sdk]
.NET Core runtimes installed:
Microsoft.AspNetCore.App 3.1.3 [/usr/local/share/dotnet/shared/Microsoft.AspNetCore.App]
Microsoft.NETCore.App 3.1.3 [/usr/local/share/dotnet/shared/Microsoft.NETCore.App]
首先,在这个环境下建立工程:
- 创建Solution
% dotnet new sln -o demo
The template "Solution File" was created successfully.
- 这次,我们用Console创建工程
% cd demo
% dotnet new console -o demo
The template "Console Application" was created successfully.
Processing post-creation actions...
Running 'dotnet restore' on demo/demo.csproj...
Determining projects to restore...
Restored demo/demo.csproj (in 143 ms).
Restore succeeded.
- 把工程加到Solution中
% dotnet sln add demo/demo.csproj
基础工程搭建完成。
三、引入ML.net库
为了使用ML.net,我们需要引入Microsoft.ML库:
% cd demo
% dotnet add package Microsoft.ML
除此之外,本文是基于时序的预测,还需要引入时序库Microsoft.ML.TimeSeries:
% dotnet add package Microsoft.ML.TimeSeries
我们今天用到的算法是单谱分析(SSA)。SSA会将时序分解为一组主要成分, 并将这些成分解释为信号,对应于趋势、噪音、季节性及许多其他的因素,然后重新构建这些成分,用来预测未来某个时间的值。
四、准备数据
为了这个DEMO,我准备了一个包含全年365天实际销售金额的数据。
其中这个数据又分为了两部分,第一部分是前11个月的数据,用来做训练,第二部分是12月一个月的数据,用来评估模型。
两个数据文件均为CSV文件,数据结构完全相同,下面是一段内容范例:
2018-12-21,17959.0
2018-12-22,19537.03
2018-12-23,20068.0
2018-12-24,20013.0
2018-12-25,21005.0
2018-12-26,16876.0
2018-12-27,15150.0
2018-12-28,15669.0
2018-12-29,25048.0
2018-12-30,25236.0
五、代码开发
- 准备一个输入模型ModelInput
public class ModelInput
{
[LoadColumn(0)]
public DateTime action_time { get; set; }
[LoadColumn(1)]
public float count { get; set; }
}
这个模型对应数据文件的结构,分两个字段,第一个是日期,第二个是对应的销售金额。
- 准备另一个输出模型ModelOutput
public class ModelOutput
{
public float[] forecasted_count { get; set; }
public float[] lower_count { get; set; }
public float[] upper_count { get; set; }
}
这个模型跟随预测结果的输出,其中:
- forecasted_count - 预测时间段内的预测值
- lower_count - 预测时间段内预测值的下限
- upper_count - 预测时间段内预测值的上限
- 初始化机器学习的实例
MLContext mlContext = new MLContext();
执行所有 ML.NET 操作都是从MLContext类开始,初始化 MLContext将创建一个新的 ML.net 环境,并在模型创建工作流对象之间共享该环境。
- 加载数据
ML.net有多种数据的加载方式,可以通过文件、数据库、JSON/XML、内存中加载数据,甚至可以用自定义的数据库连接加载数据。
本文的DEMO中,数据在CSV文件中,所以,我们采用下面的方式加载:
static readonly string _data1Path = Path.Combine(Environment.CurrentDirectory, "data1.csv");
static readonly string _data2Path = Path.Combine(Environment.CurrentDirectory, "data2.csv");
static void Main(string[] args)
{
MLContext mlContext = new MLContext();
IDataView data1View = mlContext.Data.LoadFromTextFile<ModelInput>(_data1Path, separatorChar: ',', hasHeader: false);
IDataView data2View = mlContext.Data.LoadFromTextFile<ModelInput>(_data2Path, separatorChar: ',', hasHeader: false);
}
IDataView是数据的承载空间。
- 定义时序分析管道
var forecastingPipeline = mlContext.Forecasting.ForecastBySsa(
outputColumnName: "forecasted_count",
inputColumnName: "count",
windowSize: 7,
seriesLength: 30,
trainSize: 334,
horizon: 7,
confidenceLevel: 0.95f,
confidenceLowerBoundColumn: "lower_count",
confidenceUpperBoundColumn: "upper_count");
前面有说过,我们采用单谱分析,所以代码中我们选择了mlContext.Forecasting.ForecastBySsa。
解释一下这里面的几个参数:
- trainSize - 数据样本的数量,也就是训练数据的行数(在这个文件中,一行是一个数据样本,共334行)
- seriesLength - 从数据样本按时序采样时的间隔,这里是30天
- windowSize - 样本周期的天数,这里是7天
- horizon - 预测结果的天数
- confidenceLevel - 上下限的可信度。预测属于合理猜测,不总是完全准确。
- 其它几个参数,对应输入输出模型的字段名
- 训练模型
管道定义完成,数据加载完成,下面要进行数据训练。
SsaForecastingTransformer forecaster = forecastingPipeline.Fit(data1View);
跟随上一节,管道是单谱管道,所以训练也是单谱训练SsaForecastingTransformer。
程序执行到这里,数据训练完成。
- 模型评估
模型评估不是必须环节。
模型评估的意义在于:通过评估模型的性能,来调整管道的参数,以达到最佳的预测效果。
模型评估也有多种方式。在这里,我们采用平均绝对误差和均方根误差来做评估依据。
static void Evaluate(IDataView testData, ITransformer model, MLContext mlContext)
{
IDataView predictions = model.Transform(testData);
IEnumerable<float> actual =
mlContext.Data.CreateEnumerable<ModelInput>(testData, true)
.Select(p => p.count);
IEnumerable<float> forecast =
mlContext.Data.CreateEnumerable<ModelOutput>(predictions, true)
.Select(p => p.forecasted_count[0]);
var metrics = actual.Zip(forecast, (actualValue, forecastValue) => actualValue - forecastValue);
var MAE = metrics.Average(error => Math.Abs(error));
var RMSE = Math.Sqrt(metrics.Average(error => Math.Pow(error, 2)));
Console.WriteLine("评估结果");
Console.WriteLine("---------------------");
Console.WriteLine($"平均绝对误差: {MAE:F3}");
Console.WriteLine($"均方根误差: {RMSE:F3}\n");
}
在这个方法中,我们取评估数据的实际值actual和通过训练数据生成的预测值forecast,计算两个误差并输出。
在Main中调用此方法:
static void Main(string[] args)
{
/* 这儿是前边训练的代码,略过 */
Evaluate(data2View, forecaster, mlContext);
}
static void Evaluate(IDataView testData, ITransformer model, MLContext mlContext)
{
/* 这儿是评估模型的方法,上面有,略过 */
}
输出结果类似于以下内容:
评估结果
---------------------
平均绝对误差: 23.442
均方根误差: 174.236
两个指标:
- 平均绝对误差 - 度量预测与实际值之间的接近程度。 此值介于 0 到无限大之间。 越接近 0,模型的质量越好。
- 均方根误差 - 汇总模型中的错误。 此值介于 0 到无限大之间。 越接近 0,模型的质量越好。
- 预测
训练模型调整到满意后,即可开始预测的工作:
var forecastEngine = forecaster.CreateTimeSeriesEngine<ModelInput, ModelOutput>(mlContext);
ModelOutput forecast = forecastEngine.Predict();
这两行代码,在内存中加载前边训练好的模型,并进行预测操作。预测数据的结果放在forecast中。
对应于分析管道定义中的horizon,预测数据包含7天的预测结果。
- 预测结果输出
放在forecast中的数据,对应模型ModelOutput,可以用在任何地方。
在本文中,我们直接显示到Console:
IEnumerable<string> forecastOutput =
mlContext.Data.CreateEnumerable<ModelInput>(data2View, reuseRowObject: false)
.Take(7)
.Select((ModelInput data, int index) =>
{
string action_date = data.action_time.ToString("yyyy-MM-dd");
float actual_count = data.count;
float lowerEstimate = Math.Max(0, forecast.lower_count[index]);
float estimate = forecast.forecasted_count[index];
float upperEstimate = forecast.upper_count[index];
return $"日期: {action_date}\n" +
$"实际值: {actual_count}\n" +
$"预测下限估值: {lowerEstimate}\n" +
$"预测估值: {estimate}\n" +
$"预测上限估值: {upperEstimate}\n";
});
Console.WriteLine("预测结果");
Console.WriteLine("---------------------");
foreach (var prediction in forecastOutput)
{
Console.WriteLine(prediction);
}
运行结果类似于以下内容:
预测结果
---------------------
日期: 2018-12-01
实际值: 24566.08
预测下限估值: 16791.379
预测估值: 20394.115
预测上限估值: 23996.852
完成!
六、延伸内容
ML.net包含了很多机器学习的内容。其中,我自己认为时序预测是用途很广的一个部分,可以用在
- 销售预测
- 库存预警
- 活动策划辅助
以及其它诸如天气、股票、人口等诸多内容上,依靠过去和现在的数据,分析两者之间的关系,然后利用得到的这个关系去预测未来的数据。
因此,在这个分类中,我的第一篇文章就写了时序预测。
机器学习,核心是各种算法,而算法的基础是一类数学。这是一个很高的坎。刷算法,线性的部分还好,一旦到了幂次或矩阵,没有正统的学习,是很难有突破的。而即便刷通了,也只是皮毛性的理解,距离创造算法的大神,还有很长的距离。
所以,退而求其次,对很多人而言,与其花大功夫去研究算法,不如多研究下如何能把现有的算法或工具用好。
还有,在应用中,你能用机器学习来预测销量、预测库存,有没有很自豪?是不是很高大上?
(全文完)
本文的对应代码,在https://github.com/humornif/Demo-Code/tree/master/0013/demo
![]() |
微信公众号:老王Plus 扫描二维码,关注个人公众号,可以第一时间得到最新的个人文章和内容推送 本文版权归作者所有,转载请保留此声明和原文链接 |
Dotnet core基于ML.net的销售数据预测实践的更多相关文章
- asp.net core 基于 JSON 实现多语言
asp.net core 基于 JSON 实现多语言 Intro 上次我们提到了,微软默认提供基于资源文件的多语言本地化,个人感觉使用起来不是太方便,没有 json 看起来直观,于是动手造了一个轮子, ...
- 基于DotNet Core的RPC框架(一) DotBPE.RPC快速开始
0x00 简介 DotBPE.RPC是一款基于dotnet core编写的RPC框架,而它的爸爸DotBPE,目标是实现一个开箱即用的微服务框架,但是它还差点意思,还仅仅在构思和尝试的阶段.但不管怎么 ...
- C#使用ML.Net完成人工智能预测
前言 Visual Studio2019 Preview中提供了图形界面的ML.Net,所以,只要我们安装Visual Studio2019 Preview就能简单的使用ML.Net了,因为我的电脑已 ...
- Asp.net Core基于MVC框架实现PostgreSQL操作
简单介绍 Asp.net Core最大的价值在于跨平台.跨平台.跨平台.重要的事情说三遍.但是目前毕竟是在开发初期,虽然推出了1.0.0 正式版,但是其实好多功能还没有完善.比方说编译时的一些文件编码 ...
- DotNet Core 1.0 集成 CentOS 开发与运行环境部署
一. DotNet Core 1.0 开发环境部署 操作系统安装 我们使用CentOS 7.2.1511版本. 安装libunwind库 执行:sudo yum install libunwi ...
- dotnet core 开发体验之Routing
开始 回顾上一篇文章:dotnet core开发体验之开始MVC 里面体验了一把mvc,然后我们知道了aspnet mvc是靠Routing来驱动起来的,所以感觉需要研究一下Routing是什么鬼. ...
- 安装dotnet core
CentOS 7.1下安装dotnet core .NET CORE的官方(http://dotnet.github.io/getting-started/)只提供了Windows, Ubuntu14 ...
- spring cloud+dotnet core搭建微服务架构:Api授权认证(六)
前言 这篇文章拖太久了,因为最近实在太忙了,加上这篇文章也非常长,所以花了不少时间,给大家说句抱歉.好,进入正题.目前的项目基本都是前后端分离了,前端分Web,Ios,Android...,后端也基本 ...
- 使用 dotnet core 和 Azure PaaS服务进行devOps开发(Web API 实例)
作者:陈希章 发表于 2017年12月19日 引子 这一篇文章将用一个完整的实例,给大家介绍如何基于dotnet core(微软.NET的最新版本,支持跨平台,跨设备的应用开发,详情请参考 https ...
随机推荐
- 一,View中引用自定义Dialog组件
需求: 在项目中,有时候可能在不同画面需要完成同一功能,比如示例文件列表查看功能,系统上传文件,需要查看文件列表,以及文件历史记录 话不多说,上图 这个查看文件的Dialog需要在系统中的很多地方调用 ...
- PhpStorm2016.3激活
选择License server,输入以下任意一个地址: http://idea.imsxm.com/http://114.215.133.70:41017/http://mcpmcc.com:101 ...
- ztree实用教程
首先导入ztree ztree是建立在jquery的基础上的 <link href="js/zTree_v3-master/css/zTreeStyle/zTreeStyle.css& ...
- [Python基础]008.异常
异常 异常处理 捕获异常 抛出异常 自定义异常 一些常见的异常 异常处理 捕获异常 try/except 与C,java等语言用try/catch来捕获异常相似,Python使用try/except ...
- Java IO(十三)PipedReader 和 PipedWriter
Java IO(十三)PipedReader 和 PipedWriter 一.介绍 PipedReader 和 PipedWriter 分别是管道字符输入流和管道字符输出流,它们同 PipedInpu ...
- 上传应用至Google Play 后被重新签名,怎么获取最新的签名信息
基本签名信息在Google Play 上都能查看到. 快速解决Google+登录和facebook登录的办法: 不用改包名重新创建应用,不用重新打包,不要删除自己的keystore文件,不要重新创建k ...
- 【补充说明】Gauge框架在JS中的简单应用
这里做一个总结 由于公司架构要用node来替代Java的部分服务,所以就研究了这个自动化测试框架:它可以很方便的测试我们的接口,而且还能使用断言[assert]来判断是否是我们预期的结果. 但是呢,由 ...
- & 异步使用场景
异步的使用场景: 1.不涉及共享资源,或对共享资源只读,即非互斥操作 2.没有时序上的严格关系 3.不需要原子操作,或可以通过其他方式控制原子性 4.常用于IO操作等耗时操作,因为比较影响客户体验和使 ...
- Java实现 LeetCode 501 二叉搜索树中的众数
501. 二叉搜索树中的众数 给定一个有相同值的二叉搜索树(BST),找出 BST 中的所有众数(出现频率最高的元素). 假定 BST 有如下定义: 结点左子树中所含结点的值小于等于当前结点的值 结点 ...
- Java实现 蓝桥杯VIP 算法训练求先序排列
问题描述 给出一棵二叉树的中序与后序排列.求出它的先序排列.(约定树结点用不同的大写字母表示,长度<=8). 输入格式 两行,每行一个字符串,分别表示中序和后序排列 输出格式 一个字符串,表示所 ...
