分销商产品未来销售情况预测 介绍 前面的几个实验中,都是根据提供的数据特征来构建模型,也就是说,数据集中会含有许多的特征列.本次将会介绍如何去处理另一种常见的数据,即时间序列数据.具体来说就是如何根据以往的销售额来预测未来短期内的销售额. 知识点 时间序列数据 数据预处理 未来销售额预测介绍 对于一个产品来说,其未来销售额的预测是一个重要的指标,也是一项重要的任务.例如,对于一部苹果手机来说.在上市之前,得先对销售额进行预测,才能确定出货量的大小. 本次实验来源于 Kaggle 上的一个挑战,即…
订单表结构是具体到每个订单下面多个产品,而仓库出货的表结构是对每个订单的金额汇总 不区分订单产品 因此如果想计算每个仓库每个产品的销售情况 需要将两个表连接起来 并且产品是昨天在线且有库存的产品 #昨日在线且有库存的SKU SELECT a.城市,a.仓库,b.* ,SUM(a.订单额) AS 历史15天金额 ,SUM(a.销量) AS 历史15天销量 , DAY) AND a.订单日期<CURRENT_DATE,a.订单额,NULL)) AS 历史7天金额 , DAY) AND a.订单日期<…
前言 这篇文章时承继上一篇机器学习经典模型使用归一化的影响.这次又有了新的任务,通过将label错位来对未来数据做预测. 实验过程 使用不同的归一化方法,不同得模型将测试集label错位,计算出MSE的大小: 不断增大错位的数据的个数,并计算出MSE,并画图.通过比较MSE(均方误差,mean-square error)的大小来得出结论 过程及结果 数据处理(和上一篇的处理方式相同): test_sort_data = sort_data[:] test_sort_target = sort_t…
原kaggle比赛地址:https://www.kaggle.com/c/titanic 原kernel地址:A Data Science Framework: To Achieve 99% Accuracy Step 5: Model Data 数据科学是交叉学科,我们仅仅称他为计算机科学的一部分是有失公正的,它包含了数学,cs,商业管理,统计学等等方向. 机器学习被分为监督学习,无监督学习和强化学习,强化学习是前两者的混合. 算法被归为四类:分类.回归.聚类.降维,此kernel专注于分类与…
原kaggle比赛地址:https://www.kaggle.com/c/titanic 原kernel地址:A Data Science Framework: To Achieve 99% Accuracy 问题处理之前要知道的事: 数据科学框架(A Data Science Framework) 1.定义问题(Define the Problem): 问题→需求→方法→设计→技术,这是刚开始拿到问题的解决流程,所以在我们用一些fancy的技巧和算法解决问题之前,必须要明确我们需要解决的问题到…
自从入了数据挖掘的坑,就在不停的看视频刷书,但是总觉得实在太过抽象,在结束了coursera上Andrew Ng 教授的机器学习课程还有刷完一整本集体智慧编程后更加迷茫了,所以需要一个实践项目来扎实之前所学的知识.于是就参考kaggle上的starter项目Titanic,并选取了kernel中的一篇较为祥尽的指南,从头到尾实现了一遍.因为kaggle入门赛相关方面的参考和指导非常少,因此写博给需要学习的同学做个小参考,也记录下数据挖掘的学习历程.新手上路,如果博文有误或缺失,还希望各位大神指正…
Kaggle(一) 房价预测 (随机森林.岭回归.集成学习)  项目介绍:通过79个解释变量描述爱荷华州艾姆斯的住宅的各个方面,然后通过这些变量训练模型, 来预测房价.   kaggle项目链接:https://www.kaggle.com/c/house-prices-advanced-regression-techniques 数据描述: train.csv - 训练集 test.csv - 测试集 一.加载数据 #加载必要库 import pandas as pd import numpy…
绝地求生游戏最终排名预测 知识点 数据读取与预览 数据可视化 构建随机森林预测模型 导入数据并预览 先导入数据并预览.本次实验同样来源于 Kaggle 上的一个竞赛: 绝地求生排名预测 ,由于原始数据较大,我们只取了其中一部分的数据来进行分析.如果你想分析所有的数据可以去 下载原始数据. 读取数据并预览前5行 import pandas as pd df = pd.read_csv('train.csv') df.head() 由上面的输出结果可知,数据主要由 29 列构成.我们所要预测的列为…
这篇文章继上篇机器学习经典模型简单使用及归一化(标准化)影响,通过将测试集label(行)错位,将部分数据作为对未来的预测,观察其效果. 实验方式 以不同方式划分数据集和测试集 使用不同的归一化(标准化)方式 使用不同的模型 将测试集label错位,计算出MSE的大小 不断增大错位的数据的个数,并计算出MSE,并画图 通过比较MSE(均方误差,mean-square error)的大小来得出结论 过程及结果 数据预处理部分与上次相同.两种划分方式: 一. test_sort_data = sor…
首先说一下service类型的产品,由于该类型的产品不需要发货,所以当在销售订单确认了后,销售单直接变成了等待开票的状态,但当开票的流程结束后,订单却还是停在销售单的状态上,该问题的解决方案是安装Tasks on SO模块,这个不是本文的重点,本文的重点是当产品类型为stockable,需求方式为Make to Stock且bom type为Sets/Phantom时,销售订单不能完成的问题. 先来看销售订单的流程:…