Linear Regression and Gradient Descent

随着所学算法的增多，加之使用次数的增多，不时对之前所学的算法有新的理解。这篇博文是在2018年4月17日再次编辑，将之前的3篇博文合并为一篇。

1.Problem and Loss Function

首先，Linear Regression是一种Supervised Learning，有input X，有输出label y。X可以是一维数据，也可以数多维的，因为我们用矩阵来计算，所以对公式和算法都没有影响。我们期望X经过一个算法h_θ(X)=θ^TX后，得到的结果尽可能接近label y。但在初始状态下，不可能的，所以我们需要Traning Set去训练这个h_θ(X)函数。而因为函数的形式是确定的，是线性函数，所以我们通过训练去学习的，其实是参数值θ。

而怎么通过Training Set去学习呢？这里就要引入Cost Function了，其概念是预测值与真实值到底差多少？公式是：

至于这个公式含义，可以从数学上理解认为是把每个training example的差值平方求和，也叫最小二乘法(Mean Square Error, MSE)。从数理统计角度的解释则是，假定Y的值与模型预测值之间从在一个差值ε，这个差值是服从正态分布的，即ε~N(0,σ²)。所以y~N(θ^TX,σ²)。而后我们对y求最大似然估计（MLE），将最大化MLE的问题，一步步化简，最后也可以得到MSE的结果（公式我不敲了...)。

2.Gradient Descent

下一步是梯度下降 (Gradient Descent)，我觉得是machine learning里面最重要的算法之一了。求J(θ)在各个维度上的方向，即偏导数。

然后同时在n个方向上更新θ：

3. Batch Learning, Stochastic and Mini Batch

可以看到，在上面的算法里，是将m个training example一起计算的，m是training set的大小。也就是每更新一步，我要计算算有training example，复杂度较高。所以有两种变种算法，Stochastic，是每次计算梯度和更新θ时，只用一个training example，同样的问题就是只用一个training example随机性太大，很有可能会路径曲折浪费时间；而Mini Batch则是指定一个Batch_size，比如32,64，每次用一小批，兼顾二者。

Linear Regression and Gradient Descent的更多相关文章

Linear Regression Using Gradient Descent 代码实现
参考吴恩达<机器学习>, 进行 Octave, Python(Numpy), C++(Eigen) 的原理实现, 同时用 scikit-learn, TensorFlow, dlib 进行 ...
线性回归、梯度下降（Linear Regression、Gradient Descent）
转载请注明出自BYRans博客:http://www.cnblogs.com/BYRans/ 实例首先举个例子,假设我们有一个二手房交易记录的数据集,已知房屋面积.卧室数量和房屋的交易价格,如下表: ...
斯坦福机器学习视频笔记 Week1 Linear Regression and Gradient Descent
最近开始学习Coursera上的斯坦福机器学习视频,我是刚刚接触机器学习,对此比较感兴趣:准备将我的学习笔记写下来, 作为我每天学习的签到吧,也希望和各位朋友交流学习. 这一系列的博客,我会不定期的更 ...
斯坦福机器学习视频笔记 Week1 线性回归和梯度下降 Linear Regression and Gradient Descent
最近开始学习Coursera上的斯坦福机器学习视频,我是刚刚接触机器学习,对此比较感兴趣:准备将我的学习笔记写下来, 作为我每天学习的签到吧,也希望和各位朋友交流学习. 这一系列的博客,我会不定期的更 ...
Linear Regression and Gradient Descent (English version)
1.Problem and Loss Function Linear Regression is a Supervised Learning Algorithm with input matrix ...
Logistic Regression and Gradient Descent
Logistic Regression and Gradient Descent Logistic regression is an excellent tool to know for classi ...
Logistic Regression Using Gradient Descent -- Binary Classification 代码实现
1. 原理 Cost function Theta 2. Python # -*- coding:utf8 -*- import numpy as np import matplotlib.pyplo ...
flink 批量梯度下降算法线性回归参数求解（Linear Regression with BGD(batch gradient descent) ）
1.线性回归假设线性函数如下: 假设我们有10个样本x1,y1),(x2,y2).....(x10,y10),求解目标就是根据多个样本求解theta0和theta1的最优值. 什么样的θ最好的呢?最 ...
machine learning (7)---normal equation相对于gradient descent而言求解linear regression问题的另一种方式
Normal equation: 一种用来linear regression问题的求解Θ的方法,另一种可以是gradient descent 仅适用于linear regression问题的求解,对其 ...

随机推荐

uWSGI、uwsgi、WSGI、之间的关系，为什么要用nginx加uWSGI部署。
WSGI 协议 WSGI:是一种协议规范,起到规范参数的作用,就像告诉公路一样,规定超车靠右行,速度不低于90km/h,等.但这一切都是对双方进行沟通,比如,重庆到武汉这条高速路,这儿重庆和武汉就各为 ...
python字符串内置函数汇总
1.capitalize 第一个单词首字母大写 2.title 每个单词首字母大写 3.upper 每个字母变大写 4.lower 每个字母变小写 5.len() 字符串长度 6.format() 格 ...
Django - Xadmin (四) Filter
Django - Xadmin (四) Filter Filter 功能描述与 admin 组件中 Filter 功能类似,在展示页面右侧放置一列标签,通过点击这些标签来筛选出该标签相关的数据. 比 ...
VISTA Enhancer Browser
微信公众号:生物信息学起步如果觉得对你有帮助,欢迎关注/转发/分享[1] 内容目录 1.目的2.实验数据2.1 候选增强子识别2.2 转基因小鼠分析2.3 注释3.搜索数据库3.1 概括3.2 高级搜 ...
轻便的gb28181协议中的rtp+ps格式视频流的封装和解析
streams 轻便的gb28181协议中的rtp+ps格式视频流的封装和解析 packet packet实现ps的相关封装和解析, example/enc 通过joy4来读本地视频文件,然后调用Rt ...
ubuntu18.04 设置环境变量
1.第一步:命令行输入 sudo gedit /etc/profile 2.第二步:将你想要设置环境变量的内容追加到文件结尾例如:export JAVA_HOME=/usr/java/latest ...
Linux性能优化从入门到实战：14 文件系统篇：Linux 文件系统基础
磁盘为系统提供了最基本的持久化存储. 文件系统则在磁盘的基础上,提供了一个用来管理文件的树状结构. 文件系统:索引节点和目录项文件系统是对存储设备上的文件,进行组织管理的机制.组织方式不 ...
ghci对haskell的类型推导
今天这篇文章分析一下ghci交互解释器对类型的推导. 假设有函数fn定义如下: let fn = map map 现在fn的类型是: map map :: [a -> b] -> [[a] ...
Redux中间件之redux-thunk使用详解
Redux的核心概念其实很简单:将需要修改的state都存入到store里,发起一个action用来描述发生了什么,用reducers描述action如何改变state tree .创建store的时 ...
CSS3 结构性伪类选择器（2）
CSS3 结构性伪类选择器—first-child “:first-child”选择器表示的是选择父元素的第一个子元素的元素E.简单点理解就是选择元素中的第一个子元素,记住是子元素,而不是后代元素. ...

Linear Regression and Gradient Descent

Linear Regression and Gradient Descent的更多相关文章

随机推荐

热门专题