cs231n spring 2017 lecture14 Reinforcement Learning 听课笔记

【cs231n spring 2017 lecture14 Reinforcement Learning 听课笔记】的更多相关文章

cs231n spring 2017 lecture14 Reinforcement Learning 听课笔记

(没太听明白,下次重新听) 1. 增强学习有一个 Agent 和 Environment 交互.在 t 时刻,Agent 获知状态是 st,做出动作是 at:Environment 一方面给出 Reward 信号 rt,另一方面改变状态至 st+1:Agent 获得 rt 和 st+1.目标是 Agent 学习 st 到 at 的某种映射 π* 最大化累积的 Reward,∑γtrt,其中 γt 是折现系数(discount factor). 用Markov Decision Process描…

cs231n spring 2017 lecture14 Reinforcement Learning

(没太听明白,下次重新听) 1. 增强学习有一个 Agent 和 Environment 交互.在 t 时刻,Agent 获知状态是 st,做出动作是 at:Environment 一方面给出 Reward 信号 rt,另一方面改变状态至 st+1:Agent 获得 rt 和 st+1.目标是 Agent 学习 st 到 at 的某种映射 π* 最大化累积的 Reward,∑γtrt,其中 γt 是折现系数(discount factor). 用Markov Decision Process描…

cs231n spring 2017 lecture9 CNN Architectures 听课笔记

参考<deeplearning.ai 卷积神经网络 Week 2 听课笔记>. 1. AlexNet(Krizhevsky et al. 2012),8层网络. 学会计算每一层的输出的shape:对于卷积层,输出的边长 =(输入的边长 - filter的边长)/ 步长 + 1,输出的通道数等于filter的数量.每个filter的通道数等于输入的通道数.卷积层的参数 = filter的长 * filter的宽 * 输入的通道数 * filter的数量.池化层没有需要学习的参数. 图中分成两个通…

cs231n spring 2017 lecture13 Generative Models 听课笔记

1. 非监督学习监督学习有数据有标签,目的是学习数据和标签之间的映射关系.而无监督学习只有数据,没有标签,目的是学习数据额隐藏结构. 2. 生成模型(Generative Models) 已知训练数据,根据训练数据的分布(distribution)生成新的样例. 无监督学习中的一个核心问题是估计分布. 3. PixelRNN 和 PixelCNN 依次根据已知的像素估计下一个像素. PixelRNN(van der Oord et al. NIPS 2016):利用RNN(LSTM)从角落开始…

cs231n spring 2017 lecture2 Image Classification 听课笔记

1. 相比于传统的人工提取特征(边.角等),深度学习是一种Data-Driven Approach.深度学习有统一的框架,喂不同的数据集,可以训练识别不同的物体.而人工提取特征的方式很脆弱,换一个物体就要重新设计特征. 2. 描述图像之间相似程度,可以直接把每个对应像素做减法,然后把差的绝对值累加起来.这个差值的和越小,图片越接近.这是曼哈顿距离L1. 对应像素点的差值的平方累加再开平方,这是欧几里得距离L2. L1和L2谁更好,这取决于具体问题.但一般来说,如果做差的向量有很具体的含义,比如对…

cs231n spring 2017 lecture8 Deep Learning Networks 听课笔记

1. CPU vs. GPU: CPU核心少(几个),更擅长串行任务.GPU有很多核心(几千个),每一个核都弱,有自己的内存(几个G),很适合并行任务.GPU最典型的应用是矩阵运算. GPU编程:1)CUDA,只能在英伟达:2)OpenCL类似CUDA,好处是可以跑在任何平台上,但相对慢一些.深度学习可以直接调用现成的库,不用自己写CUDA代码. 用cuDNN比不用快几倍. 深度学习的瓶颈可能不在GPU的运算,而在GPU和数据的通信上,解决办法是:1)把数据读入RAM:2)用SSD而不是HDD:…

cs231n spring 2017 lecture8 Deep Learning Networks

1. CPU vs. GPU: CPU核心少(几个),更擅长串行任务.GPU有很多核心(几千个),每一个核都弱,有自己的内存(几个G),很适合并行任务.GPU最典型的应用是矩阵运算. GPU编程:1)CUDA,只能在英伟达:2)OpenCL类似CUDA,好处是可以跑在任何平台上,但相对慢一些.深度学习可以直接调用现成的库,不用自己写CUDA代码. 用cuDNN比不用快几倍. 深度学习的瓶颈可能不在GPU的运算,而在GPU和数据的通信上,解决办法是:1)把数据读入RAM:2)用SSD而不是HDD:…

cs231n spring 2017 lecture9 CNN Architectures

参考<deeplearning.ai 卷积神经网络 Week 2 听课笔记>. 1. AlexNet(Krizhevsky et al. 2012),8层网络. 学会计算每一层的输出的shape:对于卷积层,输出的边长 =(输入的边长 - filter的边长)/ 步长 + 1,输出的通道数等于filter的数量.每个filter的通道数等于输入的通道数.卷积层的参数 = filter的长 * filter的宽 * 输入的通道数 * filter的数量.池化层没有需要学习的参数. 图中分成两个通…

cs231n spring 2017 lecture15 Efficient Methods and Hardware for Deep Learning 听课笔记

1. 深度学习面临的问题: 1)模型越来越大,很难在移动端部署,也很难网络更新. 2)训练时间越来越长,限制了研究人员的产量. 3)耗能太多,硬件成本昂贵. 解决的方法:联合设计算法和硬件. 计算硬件可以分为通用和专用两大类.通用硬件又可以分为CPU和GPU.专用硬件可以分为(FPGA和ASIC,ASIC更高效,谷歌的TPU就是ASIC). 2. Algorithms for Efficient Inference 1)Pruning,修剪掉不那么重要的神经元和连接.第一步,用原始的网络训练:第…

cs231n spring 2017 lecture7 Training Neural Networks II 听课笔记

1. 优化: 1.1 随机梯度下降法(Stochasitc Gradient Decent, SGD)的问题: 1)对于condition number(Hessian矩阵最大和最小的奇异值的比值)很大的loss function,一个方向梯度变化明显,另一个方向梯度变化很缓慢,SGD在优化过程中会震荡着下降,导致优化很慢.深度学习的网络会有上百万甚至更多的参数需要优化,在这个上百万维的空间里,更容易出现各个维度梯度变化差别很大的问题. 2)陷落在局部最小点或者鞍点(saddle point).…