金融时间序列预测方法合集:CNN、LSTM、随机森林、ARMA预测股票价格(适用于时序问题)、相似度计算、各类评判指标绘图(数学建模科研适用)
金融时间序列预测方法合集:CNN、LSTM、随机森林、ARMA预测股票价格(适用于时序问题)、相似度计算、各类评判指标绘图(数学建模科研适用)
1.使用CNN模型预测未来一天的股价涨跌-CNN(卷积神经网络)
使用CNN模型预测未来一天的股价涨跌
数据介绍
open 开盘价;close 收盘价;high 最高价
low 最低价;volume 交易量;label 涨/跌
训练规模
特征数量×5;天数×5 = 5 × 5
卷积过程
最大池化过程
代码流程
- 获取股票数据
- 数据归一化
- 数据预处理(划分成5×5)
- 数据集分割(训练集和测试集)
- 定义卷积神经网络
- 评估预测模型
模型架构
码源链接见文末跳转
2.基于LSTM预测股票价格(长短期记忆神经网络)
基于LSTM预测股票价格(简易版)
数据集:
沪深300数据
数据特征:
只选用原始数据特征(开盘价、收盘价、最高价、最低价、交易量)
时间窗口:
15天
代码流程:
读取数据->生成标签(下一天收盘价)->分割数据集->LSTM模型预测->可视化->预测结果评估
LSTM网络结构:
函数介绍:
1、generate_label 生成标签(下一天收盘价)
2、generate_model_data 分割数据集
3、evaluate 结果评估
4、lstm_model LSTM预测模型
5、main 主函数(含可视化)
可视化输出:
训练集测试集拟合效果:
评估指标:
1、RMSE:55.93668241713906
2、MAE:44.51361108752264
3、MAPE:1.3418267677320612
4、AMAPE:1.3420384401412058
3.基于随机森林预测股票未来第d+k天相比于第d天的涨/跌Random-Forest(随机森林)
基于随机森林预测股票未来第d+k天相比于第d天的涨/跌(简易版)
参考论文:Predicting the direction of stock market prices using random forest
论文流程:
算法流程:
获取金融数据->指数平滑->计算技术指标->数据归一化->随机森林模型预测
函数介绍:
1、get_stock_data 通过Tushare获取原始股票数据
2、exponential_smoothing、em_stock_data 股票指数平滑处理
3、calc_technical_indicators 计算常用的技术指标
4、normalization 数据归一化处理并分割数据集
5、random_forest_model 随机森林模型并返回准确率和特征排名
决策树:
(1)ID3: 基于信息增益大的数据特征划分层次
(2)C4.5: 基于信息增益比=信息增益/特征熵划分层次
(3)CART: 基于Gini划分层次
基于Bagging集成学习算法,有多棵决策树组成(通常是CART决策树),其主要特性有:
(1)样本和特征随机采样
(2)适用于数据维度大的数据集
(3)对异常样本点不敏感
(4)可以并行训练(决策树间独立同分布)
算法输出:
注意:算法仅用于参考学习交流,由于是研一时期独立编写(以后可能进一步完善),所公开的代码并非足够完善和严谨,如以下问题:
模型涉及参数未寻优(可考虑网格搜索、随机搜索、贝叶斯优化)
指数平滑因子
随机森林模型树数量、决策树深度、叶子节点最小样本数等
未来第k天的选择
归一化方法
随机森林模型其实本身不需要数据归一化(如算法对数据集进行归一化也需要考虑对训练集、验证集、测试集独立归一化)
股票预测考虑的数据特征:
原始数据特征(open/close/high/low)
技术指标(Technical indicator)
企业公开公告信息
企业未来规划
企业年度报表
社会舆论
股民情绪
国家政策
股票间影响等
4.模型输出结果
5.随机森林参数优化参考表
4.基于ARMA预测股票价格-ARMA(自回归滑动平均模型)
基于ARMA预测股票价格(5分钟数据)
1.检测数据平稳化
2.差分/对数等数据处理
3.使用ARMA模型预测
备注:部分代码参考网络资源
5.金融时间序列相似度计算
5.1.皮尔逊相关系数( pearson_correlation_coefficient)
1.1 由于不同股票价格范围差距过大,在进行股票时间序列相似度匹配过程中通常考虑对数差处理,其公式如下所示:
1.2经过对数差处理后的金融时间序列可表示:
1.3皮尔逊相关系数计算公式:
1.4结果
1.4.1相关性较强
1.4.2相关性较弱
5.2.动态时间规整(dynamic_time_wrapping)
2.1 计算两个金融时间序列的时间点对应数据的欧氏距离
2.2 更新时间点对应数据的距离
2.3 动态时间规整距离
2.4 伪代码
2.5 动态时间规整距离输出图举例
2.6 动态时间规整最优匹配对齐
2.7结果
2.7.1动态时间规整距离较短
2.7.1动态时间规整距离较长
5.3.余弦相似度(cosine similarity)
6.金融时间序列(其他)
6.1.计算特征方差(calc_variance.py)
open 161211.21669504658
close 161415.73886306392
high 166077.6958545937
low 156622.3645795179
......
6.2.绘制混淆矩阵(confuse_matrix.py)
6.3.特征间相关性(corr.py)
6.4.绘制预测模型性能——柱状图(result_bar.py)
6.5.绘制预测模型性能——折线图(result_plot.py)
6.6.相似金融时间序列绘制(similarity_time_series.py)
6.7.计算分类的评价指标(evaluation.py)
(1)准确率Accuracy
(2)精确率Precision
(3)召回率Recall
(4)特异度Specificity
(5)综合评价指标F-measure
(6)马修斯相关系数MCC(Matthews Correlation Coefficient)
6.8.窗口数据归一化(normalization.py)
(1)z-score标准化(std)
(2)最大最小归一化(maxmin)
6.9.股票数据下载(download.py)
(1)tushare接口
(2)JQdata接口
6.10.roc曲线绘制(roc.py)
6.11.混淆矩阵绘制(confusion_matrix.py)
6.12.卡尔曼滤波(kalmanfilter.py)
6.13.蜡烛图 (candle.py)
码源链接见文末跳转
更多优质内容请关注公号&知乎:汀丶人工智能;会提供一些相关的资源和优质文章,免费获取阅读。
金融时间序列预测方法合集:CNN、LSTM、随机森林、ARMA预测股票价格(适用于时序问题)、相似度计算、各类评判指标绘图(数学建模科研适用)的更多相关文章
- 机器学习入门-随机森林温度预测的案例 1.datetime.datetime.datetime(将字符串转为为日期格式) 2.pd.get_dummies(将文本标签转换为one-hot编码) 3.rf.feature_importances_(研究样本特征的重要性) 4.fig.autofmt_xdate(rotation=60) 对标签进行翻转
在这个案例中: 1. datetime.datetime.strptime(data, '%Y-%m-%d') # 由字符串格式转换为日期格式 2. pd.get_dummies(features) ...
- 机器学习入门-随机森林温度预测-增加样本数据 1.sns.pairplot(画出两个关系的散点图) 2.MAE(平均绝对误差) 3.MAPE(准确率指标)
在上一个博客中,我们构建了随机森林温度预测的基础模型,并且研究了特征重要性. 在这个博客中,我们将从两方面来研究数据对预测结果的影响 第一方面:特征不变,只增加样本的数据 第二方面:增加特征数,增加样 ...
- 关于Ubuntu系统忘记密码的解决方法合集
昨天有台机器的Ubuntu系统密码出了问题,一直提示错误.由于里面的数据比较重要,不建议重装系统,所以百度了一会,最终解决了忘记密码问题.整理了一个大合集分享出来. 第一种:参考教程如下 ...
- kaggle 欺诈信用卡预测——不平衡训练样本的处理方法 综合结论就是:随机森林+过采样(直接复制或者smote后,黑白比例1:3 or 1:1)效果比较好!记得在smote前一定要先做标准化!!!其实随机森林对特征是否标准化无感,但是svm和LR就非常非常关键了
先看数据: 特征如下: Time Number of seconds elapsed between each transaction (over two days) numeric V1 No de ...
- Unity3D 角色(物体) 移动方法 合集
1. 简介 在Unity3D中,有多种方式可以改变物体的坐标,实现移动的目的,其本质是每帧修改物体的position. 2. 通过Transform组件移动物体 Transform 组件用于描述物体在 ...
- Vs2015 win10虚拟机启动问题:无法设置UDP端口 解决方法 合集(转载)
刚装的vs2015 社区版 出现这个问题,wp8.1和win10m模拟器都无法启动,找了好久找到的解决方案,放这儿供大家参考,免得大家像我一样走弯路: Windows Phone emulator n ...
- Android中解析JSON格式数据常见方法合集
待解析的JSON格式的文件如下: [{"id":"5", "version":"1.0", "name&quo ...
- JQuery 方法合集(懒人备记)
原创文章,转载请私信.谢谢~ PS:请将jquery的引用文件放在head的标签内 语法:$(selector).action() $(document).ready(function(){ // 开 ...
- 【PaddlePaddle系列】报错解决方法合集 (不定时更新)
1.PaddlePaddle使用CPU时正常运行,但是使用GPU时却报出一堆错误信息,节选如下: paddle.fluid.core.EnforceNotMet: enforce allocating ...
- 菜鸟的Xamarin.Forms前行之路——从新建项目到APP上架各种报错问题解决方法合集(不定时更新)
出自:博客园-半路独行 原文地址:http://www.cnblogs.com/banluduxing/p/7425791.html 本文出自于http://www.cnblogs.com/banlu ...
随机推荐
- Docker 与 Linux Cgroups:资源隔离的魔法之旅
这篇文章主要介绍了 Docker 如何利用 Linux 的 Control Groups(cgroups)实现容器的资源隔离和管理. 最后通过简单 Demo 演示了如何使用 Go 和 cgroups ...
- Q查询进阶操作 ORM查询优化 only与defer select_related与prefetch_related ORM事务 ORM常用字段类型 ORM常用字段参数
目录 Q查询进阶操作 children.append 图书查询功能 ORM查询优化 惰性查询 自动分页 limit only与defer only defer select_related与prefe ...
- Codeforces 115A Party (并查集思维)
题意: 给你每个人的上级,并且一个人和他的所有上级都不能在一个party(小组)中(这点是根据题目给出的两点推导出来的),问最少需要几个party. 思路: 并查集,找一个集合中层级数最多的就是最少需 ...
- AcWing 每日一题 - Summer
本篇解题记录题源来自 AcWing 的 Summer 每日一题 补题链接:Here 2021/07/01 done Week 1 星期一 AcWing 3485. 最大异或和 (Hard 思路 先求出 ...
- 2013年 第四届蓝桥杯C/C++ B组(省赛)
第一题:高斯日记 大数学家高斯有个好习惯:无论如何都要记日记. 他的日记有个与众不同的地方,他从不注明年月日,而是用一个整数代替,比如:4210 后来人们知道,那个整数就是日期,它表示那一天是高斯出生 ...
- Spark 数据倾斜及其解决方案
本文首发于 vivo互联网技术 微信公众号 https://mp.weixin.qq.com/s/lqMu6lfk-Ny1ZHYruEeBdA 作者简介:郑志彬,毕业于华南理工大学计算机科学与技术(双 ...
- 为什么很多候选人投出去的简历石沉大海(面向Java方向)
我最近在帮上海某培训学校里的毕业生做面试辅导,普遍发现很多候选人不是没能力,或者说能力没有差到没有面试机会的程度,但这些同学投出去的简历大多石沉大海,即使有回应,也大多是些外包外派公司或者小公司. 而 ...
- OpenSCA用开源的方式做开源风险治理:Why? What? How?
随着容器.微服务等新技术的快速迭代,开源软件已成为业界主流形态,开源和云原生时代的到来导致软件供应链越来越趋于复杂化和多样化,网络攻击者开始采用软件供应链攻击作为击破关键基础设施的的重要突破口,从而导 ...
- java进阶(27)--HashSet与TreeSet
一.HashSet: 1.特点:无序不可重复,实际上为放入HashMap中的key部分. 2.举例说明:
- phpcms : Uncaught Error: [] operator not supported for strings... 的解决方案
打开/phpcms/modules/admin/classes/push_api.class.php,大概在约 141行, $fields_arr = $fields_value = ''; 将它改为 ...