股票与Bandit Machine看起来相去甚远,但实际上通过限制买入和卖出的行为,股票可以转换为Bandit Machine,比如:规定股票必须在买入一天以后卖出.为什么要大费周折地把股票变成Bandit Machine呢?因为有许许多多的Multiarmed Bandit算法就可以应用与股市了,例如小量贪心算法.Softmax算法和UCB算法. 为了应用这些算法,我们需要将每一支股票看作是一个Bandit Machine,这样就相当于许多个Bandit Machine摆在我们面前,我们面对的…
选自<Reinforcement Learning: An Introduction>, version 2, 2016, Chapter2 https://webdocs.cs.ualberta.ca/~sutton/book/bookdraft2016sep.pdf 引言中是这样引出Chapter2的: One of the challenges that arise in reinforcement learning, and not in other kinds of learning…
本篇的主题是对Upper Conference Bound(UCB)策略进行一个理论上的解释补充,主要探讨UCB方法的由来与相关公式的推导. UCB是一种动作选择策略,主要用来解决epsilon-greedy在选择时的低效率问题.对于解释UCB的使用机理上,我认为下面这篇文章写的还不错,深入浅出,只不过在公式推导上有一点点问题: Multi-Armed Bandit: UCB (Upper Bound Confidence) 我们先来说一说epsilon-greedy策略在选择动作时有什么问题.…
这是我学习Reinforcement Learning的一篇记录总结,参考了这本介绍RL比较经典的Reinforcement Learning: An Introduction (Drfit) .这本书的正文部分对理论的分析与解释做的非常详细,并且也给出了对结论详尽的解析,但是把问题的解决和实现都留到到了课后题,所以本篇文章主要侧重与对Multi-Armed Bandit问题解决算法的实现以及对实现中可能遇到的问题进行一个总结与记录.此外,如果困于书中对于理论解释的冗长,可以参考下面这两篇文章(…
本篇主要是为了记录UCB策略与Gradient策略在解决Multi-Armed Bandit问题时的实现方法,涉及理论部分较少,所以请先阅读Reinforcement Learning: An Introduction (Drfit) 的2.7,2.8的内容.为了更深入一点了解UCB策略,可以随后阅读下面这篇文章: [RL系列]Multi-Armed Bandit笔记补充(二)—— UCB策略 UCB策略需要进行初始化工作,也就是说通常都会在进入训练之前先将每个动作都测试一变,保证每个动作被选择…
在此之前,请先阅读上一篇文章:[RL系列]Multi-Armed Bandit笔记 本篇的主题就如标题所示,只是上一篇文章的补充,主要关注两道来自于Reinforcement Learning: An Introduction 的课后习题. 第一题为Exercise 2.5 (programming),主要讨论了Recency-Weighted Average算法相较于Sample Average算法的优点所在.练习内容大致为比较这两种算法在收益分布为非平稳分布的情况下的表现情况,主要的评价指标…
template <typename T>T algorithm(T* start, T* end, T total)//把[start, end)标记范围内所有元素累加到total中{    while (start != end)    {        total += *(start++);    }    return total;}…
说明:本人并不炒股,原因很简单:没钱.当然了,作为一名IT工作者,因为工作需要和个人兴趣,就有了本系列文章.阅读本系列文章不需要任何高深的知识,哪怕是一个像我这样从未真正炒过股的人也没关系.但本文还是假定您具备了一些基本的中学(高中.初中)数学知识,比如数列.求和公式等.可能也会涉及到类似微积分.卷积这种相对难一些的知识,文章会力图做到浅显易懂.本系列文章还假定您知道分时图.K线图等基本常识,至少使用过交易软件,否则您最好搜索一下再继续阅读.文中所引述的话都在引号中,出自网络.书籍. EMA是M…
st表示已经亏损超过1年以上的 *st表示连续亏损3年以上,并且有退市风险的,随时可能会“退市”到时候你的钱可能都拿不会来 主板股票代码上海60开头,深圳000开头,通常指大中型企业:中小板002开头,表示中小企业:创业板代码300开头,主要指创业型.高科技类型等企业:新三板也就是准上市公司.一图了解新三板与主板.中小板.创业板制度差异:http://mt.sohu.com/20150321/n410108995.shtml…
KMP算法(next数组) 二分查找(非递归) /** * 二分查找(非递归) * @param arr 从小到大的排序数组 * @param target 目标查找值 * @return */ public static int binarySearch(int[] arr,int target){ int left = 0; int right = arr.length - 1; while (left <= right){ int mid = (left + right )/2; if (…