机器学习预测时label错位对未来数据做预测

前言

　　这篇文章时承继上一篇机器学习经典模型使用归一化的影响。这次又有了新的任务，通过将label错位来对未来数据做预测。

实验过程

　　使用不同的归一化方法，不同得模型将测试集label错位，计算出MSE的大小；

　　不断增大错位的数据的个数，并计算出MSE，并画图。通过比较MSE（均方误差，mean-square error）的大小来得出结论

过程及结果

数据处理(和上一篇的处理方式相同)：

 test_sort_data = sort_data[:]

 test_sort_target = sort_target[:]

 sort_data1 = _sort_data[:]

 sort_data2 = _sort_data[:]

 sort_target1 = _sort_target[:]

 sort_target2 = _sort_target[:]

完整数据处理代码：

 #按时间排序

 sort_data = data.sort_values(by = 'time',ascending = True)

 sort_data.reset_index(inplace = True,drop = True)

 target = data['T1AOMW_AV']

 sort_target = sort_data['T1AOMW_AV']

 del data['T1AOMW_AV']

 del sort_data['T1AOMW_AV']

 from sklearn.model_selection import train_test_split

 test_sort_data = sort_data[:]

 test_sort_target = sort_target[:]

 _sort_data = sort_data[:]

 _sort_target = sort_target[:]

 from sklearn.model_selection import train_test_split

 test_sort_data = sort_data[:]

 test_sort_target = sort_target[:]

 sort_data1 = _sort_data[:]

 sort_data2 = _sort_data[:]

 sort_target1 = _sort_target[:]

 sort_target2 = _sort_target[:]

 import scipy.stats as stats

 dict_corr = {

     'spearman' : [],

     'pearson' : [],

     'kendall' : [],

     'columns' : []

 }

 for i in data.columns:

     corr_pear,pval = stats.pearsonr(sort_data[i],sort_target)

     corr_spear,pval = stats.spearmanr(sort_data[i],sort_target)

     corr_kendall,pval = stats.kendalltau(sort_data[i],sort_target)

     dict_corr['pearson'].append(abs(corr_pear))

     dict_corr['spearman'].append(abs(corr_spear))

     dict_corr['kendall'].append(abs(corr_kendall))

     dict_corr['columns'].append(i)

 # 筛选新属性

 dict_corr =pd.DataFrame(dict_corr)

 dict_corr.describe()

选取25%以上的；

 new_fea = list(dict_corr[(dict_corr['pearson']>0.41) & (dict_corr['spearman']>0.45) & (dict_corr['kendall']>0.29)]['columns'].values)

包含下面的用来画图：

 import matplotlib.pyplot as plt

 lr_plt=[]

 ridge_plt=[]

 svr_plt=[]

 RF_plt=[]

正常的计算mse（label没有移动）：

 from sklearn.linear_model import LinearRegression,Lasso,Ridge

 from sklearn.preprocessing import MinMaxScaler,StandardScaler,MaxAbsScaler

 from sklearn.metrics import mean_squared_error as mse

 from sklearn.svm import SVR

 from sklearn.ensemble import RandomForestRegressor

 import xgboost as xgb

 #最大最小归一化

 mm = MinMaxScaler()

 lr = Lasso(alpha=0.5)

 lr.fit(mm.fit_transform(sort_data1[new_fea]), sort_target1)

 lr_ans = lr.predict(mm.transform(sort_data2[new_fea]))

 lr_mse=mse(lr_ans,sort_target2)

 lr_plt.append(lr_mse)

 print('lr:',lr_mse)

 ridge = Ridge(alpha=0.5)

 ridge.fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)

 ridge_ans = ridge.predict(mm.transform(sort_data2[new_fea]))

 ridge_mse=mse(ridge_ans,sort_target2)

 ridge_plt.append(ridge_mse)

 print('ridge:',ridge_mse)

 svr = SVR(kernel='rbf',C=,epsilon=0.1).fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)

 svr_ans = svr.predict(mm.transform(sort_data2[new_fea]))

 svr_mse=mse(svr_ans,sort_target2)

 svr_plt.append(svr_mse)

 print('svr:',svr_mse)

 estimator_RF = RandomForestRegressor().fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)

 predict_RF = estimator_RF.predict(mm.transform(sort_data2[new_fea]))

 RF_mse=mse(predict_RF,sort_target2)

 RF_plt.append(RF_mse)

 print('RF:',RF_mse)

 bst = xgb.XGBRegressor(learning_rate=0.1, n_estimators=, max_depth=, min_child_weight=, seed=,

                              subsample=0.7, colsample_bytree=0.7, gamma=0.1, reg_alpha=, reg_lambda=)

 bst.fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)

 bst_ans = bst.predict(mm.transform(sort_data2[new_fea]))

 print('bst:',mse(bst_ans,sort_target2))

先让label移动5个：

 change_sort_data2 = sort_data2.shift(periods=,axis=)

 change_sort_target2 = sort_target2.shift(periods=-,axis=)

 change_sort_data2.dropna(inplace=True)

 change_sort_target2.dropna(inplace=True)

让label以5的倍数移动：

 mm = MinMaxScaler()

 for i in range(,,):

     print(i)

     lr = Lasso(alpha=0.5)

     lr.fit(mm.fit_transform(sort_data1[new_fea]), sort_target1)

     lr_ans = lr.predict(mm.transform(change_sort_data2[new_fea]))

     lr_mse=mse(lr_ans,change_sort_target2)

     lr_plt.append(lr_mse)

     print('lr:',lr_mse)

     ridge = Ridge(alpha=0.5)

     ridge.fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)

     ridge_ans = ridge.predict(mm.transform(change_sort_data2[new_fea]))

     ridge_mse=mse(ridge_ans,change_sort_target2)

     ridge_plt.append(ridge_mse)

     print('ridge:',ridge_mse)

     svr = SVR(kernel='rbf',C=,epsilon=0.1).fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)

     svr_ans = svr.predict(mm.transform(change_sort_data2[new_fea]))

     svr_mse=mse(svr_ans,change_sort_target2)

     svr_plt.append(svr_mse)

     print('svr:',svr_mse)

     estimator_RF = RandomForestRegressor().fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)

     predict_RF = estimator_RF.predict(mm.transform(change_sort_data2[new_fea]))

     RF_mse=mse(predict_RF,change_sort_target2)

     RF_plt.append(RF_mse)

     print('RF:',RF_mse)

 #     bst = xgb.XGBRegressor(learning_rate=0.1, n_estimators=, max_depth=, min_child_weight=, seed=,

 #                              subsample=0.7, colsample_bytree=0.7, gamma=0.1, reg_alpha=, reg_lambda=)

 #     bst.fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)

 #     bst_ans = bst.predict(mm.transform(change_sort_data2[new_fea]))

 #     print('bst:',mse(bst_ans,change_sort_target2))

     change_sort_target2=change_sort_target2.shift(periods=-,axis=)

     change_sort_target2.dropna(inplace=True)

     change_sort_data2 = change_sort_data2.shift(periods=,axis=)

     change_sort_data2.dropna(inplace=True)

结果如图：

然后就是画图了；

 plt.plot(x,lr_plt,label='lr',color='r',marker='o')

 plt.plot(x,ridge_plt,label='ridge',color='b',marker='o')

 plt.plot(x,svr_plt,label='svr',color='g',marker='o')

 plt.plot(x,RF_plt,label='RF',color='y',marker='o')

 plt.legend()

 plt.show()

舍去lr，并扩大纵坐标：

 #plt.plot(x,lr_plt,label='lr',color='r',marker='o')

 plt.plot(x,ridge_plt,label='ridge',color='b',marker='o')

 plt.plot(x,svr_plt,label='svr',color='g',marker='o')

 plt.plot(x,RF_plt,label='RF',color='y',marker='o')

 plt.legend()

 plt.show()

其他模型只需将MinMaxScaler改为MaxAbsScaler,standarScaler即可；

总的来说，label的移动会使得mse增加，大约在label=10时候差异最小，结果最理想；

机器学习预测时label错位对未来数据做预测的更多相关文章

机器学习数据处理时label错位对未来数据做预测
这篇文章继上篇机器学习经典模型简单使用及归一化(标准化)影响,通过将测试集label(行)错位,将部分数据作为对未来的预测,观察其效果. 实验方式以不同方式划分数据集和测试集使用不同的归一化(标准 ...
好未来数据中台 Node.js BFF实践（一）：基础篇
好未来数据中台 Node.js BFF实践系列文章列表: 基础篇实战篇(TODO) 进阶篇(TODO) 好未来数据中台的Node.js中间层从7月份开始讨论可行性,截止到9月已经支持了4个平台,其中 ...
kaggle——分销商产品未来销售情况预测
分销商产品未来销售情况预测介绍前面的几个实验中,都是根据提供的数据特征来构建模型,也就是说,数据集中会含有许多的特征列.本次将会介绍如何去处理另一种常见的数据,即时间序列数据.具体来说就是如何根据 ...
用$.getJSON() 和$.post()获取第三方数据做页面 ——惠品折页面（1）
用$.getJSON() 和$.post()获取第三方数据做页面首页 index.html 页面需要jquery 和 template-web js文件可以直接在官网下载中间导航条的固 ...
使用FormData数据做图片上传： new FormData() canvas实现图片压缩
使用FormData数据做图片上传: new FormData() canvas实现图片压缩 ps: 千万要使用append不要用set 苹果ios有兼容问题导致数据获取不到,需要后台 ...
【机器学习PAI实战】—— 玩转人工智能之商品价格预测
摘要: 我们经常思考机器学习,深度学习,以至于人工智能给我们带来什么?在数据相对充足,足够真实的情况下,好的学习模型可以发现事件本身的内在规则,内在联系.我们去除冗余的信息,可以通过最少的特征构建最简 ...
机器学习实战笔记（一）- 使用SciKit-Learn做回归分析
一.简介这次学习的书籍主要是Hands-on Machine Learning with Scikit-Learn and TensorFlow(豆瓣:https://book.douban.com ...
机器学习可解释性系列 - 是什么&为什么&怎么做
机器学习可解释性分析可解释性通常是指使用人类可以理解的方式,基于当前的业务,针对模型的结果进行总结分析: 一般来说,计算机通常无法解释它自身的预测结果,此时就需要一定的人工参与来完成可解释性工作: ...
背水一战 Windows 10 (20) - 绑定: DataContextChanged, UpdateSourceTrigger, 对绑定的数据做自定义转换
[源码下载] 背水一战 Windows 10 (20) - 绑定: DataContextChanged, UpdateSourceTrigger, 对绑定的数据做自定义转换作者:webabcd 介 ...

随机推荐

PHP 在 Laravel 中动态隐藏 API 字段
我最近在 Laravel Brasil 社区看到一个问题,结果比看起来更有趣.想象一下你有一个 UsersResource 用下面的实现: <?php namespace App\Http\Re ...
try-with-resources优先于try-finally
参考资料:<Effective Java>.<Java核心技术卷1>.https://www.cnblogs.com/flyingeagle/articles/1015292 ...
学习Java第一步：安装Intellij IDEA和JDK
注:其实真正学习一门新语言的第一步并不是安装开发工具,我是C#转JAVA,有一点编程经验了,所以可以直接跳过前面几步,直接上IDE. 1.下载IntelliJ IDEA [官网] http://www ...
资深架构师Sum的故事：（Mysql）InnoDB下，存储过程中事务的处理
| 故事背景话说有一回,X市X公司的产品经理Douni兴致冲冲的跑来和Sum(Sum,X市X公司资历8年程序猿,技能:深思.熟虑.心细.深究.技术过敏.口头禅:嗯,容我想想.坚信:只要赚钱的业务,我 ...
nyoj 54-小明的存钱计划 (遍历 + 判断)
54-小明的存钱计划内存限制:64MB 时间限制:3000ms Special Judge: No accepted:5 submit:11 题目描述: 小明的零花钱一直都是自己管理.每个月的月初妈 ...
hdu 2846 Repository (字典树)
RepositoryTime Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Total S ...
nyoj 241-字母统计 (python count)
241-字母统计内存限制:64MB 时间限制:3000ms 特判: No 通过数:12 提交数:14 难度:1 题目描述: 现在给你一个由小写字母组成字符串,要你找出字符串中出现次数最多的字母,如果 ...
学习记录：《C++设计模式——李建忠主讲》5.“对象性能”模式
对象性能模式:面向对象很好地解决了抽象地问题,但是必不可免地要付出一定地代价.对于通常情况来讲,面向对象地成本大都可以忽略不计,但某些情况,面向对象所带来地成本必须谨慎处理. 典型模式:单件模式(Si ...
实现 Redis 协议解析器
本文是 <用 Golang 实现一个 Redis>系列文章第二篇,本文将分别介绍Redis 通信协议以及协议解析器的实现,若您对协议有所了解可以直接阅读协议解析器部分. Redis ...
bert+seq2seq 周公解梦，看AI如何解析你的梦境？【转】
介绍在参与的项目和产品中,涉及到模型和算法的需求,主要以自然语言处理(NLP)和知识图谱(KG)为主.NLP涉及面太广,而聚焦在具体场景下,想要生产落地的还需要花很多功夫. 作为NLP的主要方向,情 ...

机器学习预测时label错位对未来数据做预测

前言

实验过程

过程及结果

机器学习预测时label错位对未来数据做预测的更多相关文章

随机推荐

热门专题