(整理自AndrewNG的课件,转载请注明.整理者:华科小涛@http://www.cnblogs.com/hust-ghtao/) 前面几篇博客主要介绍了线性回归的学习算法,那么它有什么不足的地方么?怎么改进呢?这就是本篇的主题. 为了引出问题,先看一个关于线性的例子,选取不同的特征会得到不同结果.考虑给定一组数据,我们要进行线性回归,得到和之间的关系.提出了三种不同的特征的选择方式,结果如下: 左图,选取一个特征,假设为,我们可以看到数据不能很好的和数据相吻合. 中图,我们选取了两个特征和,…
  局部加权线性回归  [转载时请注明来源]:http://www.cnblogs.com/runner-ljt/ Ljt 作为一个初学者,水平有限,欢迎交流指正. 线性回归容易出现过拟合或欠拟合的问题. 局部加权线性回归是一种非参数学习方法,在对新样本进行预测时,会根据新的权值,重新训练样本数据得到新的参数值,每一次预测的参数值是不相同的. 权值函数: t用来控制权值的变化速率(建议对于不同的样本,先通过调整t值确定合适的t) 不同t值下的权值函数图像: 局部加权线性回归R实现: #Local…
首先我们来看一个线性回归的问题,在下面的例子中,我们选取不同维度的特征来对我们的数据进行拟合. 对于上面三个图像做如下解释: 选取一个特征,来拟合数据,可以看出来拟合情况并不是很好,有些数据误差还是比较大 针对第一个,我们增加了额外的特征,,这时我们可以看出情况就好了很多. 这个时候可能有疑问,是不是特征选取的越多越好,维度越高越好呢?所以针对这个疑问,如最右边图,我们用5揭多项式使得数据点都在同一条曲线上,为.此时它对于训练集来说做到了很好的拟合效果,但是,我们不认为它是一个好的假设,因为它不…
通常我们使用的最小二乘都需要预先设定一个模型,然后通过最小二乘方法解出模型的系数. 而大多数情况是我们是不知道这个模型的,比如这篇博客中z=ax^2+by^2+cxy+dx+ey+f 这样的模型. 局部加权线性最小二乘就不需要我们预先知道待求解的模型,因为该方法是基于多个线性函数的叠加,最终只用到了线性模型. 计算线性模型时引入了一个加权函数: 来给当前预测数据分配权重,分配机制是:给距离近的点更高的权重,给距离远的点更低的权重. 公式中的k类似与高斯函数中的sigma. 当sigma变大时,函…
起本篇题目还是比较纠结的,原因是我本意打算寻找这样一个算法:在测量数据有比较大离群点时如何估计原始模型. 上一篇曲面拟合是假设测量数据基本符合均匀分布,没有特别大的离群点的情况下,我们使用最小二乘得到了不错的拟合结果. 但是当我加入比如10个大的离群点时,该方法得到的模型就很难看了.所以我就在网上搜了一下,有没有能够剔除离群点的方法. 结果找到了如下名词:加权最小二乘.迭代最小二乘.抗差最小二乘.稳健最小二乘. 他们细节的区别我就不过分研究了,不过这些最小二乘似乎表达的是一个意思: 构造权重函数…
We turn next to the task of finding a weight vector w which minimizes the chosen function E(w). Because there is clearly no hope of finding an anlytical solution to the equation ∂E(w)=0, we resort to iterative numerical procedures. On-line gradient d…
欠拟合.过拟合 如下图中三个拟合模型.第一个是一个线性模型,对训练数据拟合不够好,损失函数取值较大.如图中第二个模型,如果我们在线性模型上加一个新特征项,拟合结果就会好一些.图中第三个是一个包含5阶多项式的模型,对训练数据几乎完美拟合. 模型一没有很好的拟合训练数据,在训练数据以及在测试数据上都存在较大误差,这种情况称之为欠拟合(underfitting). 模型三对训练数据拟合的很不错,但是在测试数据上的准确度并不理想.这种对训练数据拟合较好,而在测试数据上准确度较低的情况称之为过拟合(ove…
鲁棒局部加权回归 [转载时请注明来源]:http://www.cnblogs.com/runner-ljt/ Ljt 作为一个初学者,水平有限,欢迎交流指正. 算法参考文献: (1) Robust Locally Weighted Regression and Smoothing Scatterplots (Willism_S.Cleveland) (2) 数据挖掘中强局部加权回归算法实现 (虞乐,肖基毅) R实现 #Robust Locally Weighted Regression 鲁棒局部…
本文主要解说局部加权(线性)回归.在解说局部加权线性回归之前,先解说两个概念:欠拟合.过拟合.由此引出局部加权线性回归算法. 欠拟合.过拟合 例如以下图中三个拟合模型.第一个是一个线性模型.对训练数据拟合不够好,损失函数取值较大.如图中第二个模型,假设我们在线性模型上加一个新特征 x%5E%7B2%7D" alt="" style="border:0px">项,拟合结果就会好一些. 图中第三个是一个包括5阶多项式的模型,对训练数据差点儿完美拟合. 模…
这篇文章将介绍过拟合和欠拟合的概念,并且介绍局部加权回归算法. 过拟合和欠拟合 之前在线性回归中,我们总是将单独的x作为我们的特征,但其实我们可以考虑将,甚至x的更高次作为我们的特征,那么我们通过线性回归得到的就将是一个多次函数了. 我们可以想象当我们只用x作为我们的特征的时候,我们的数据可能实际呈现的样子是一个二次函数的样子,也就是说我们的假设有一定的问题,那么我们求得的最小二乘值将相当的大了.但是如果我们有10组样本,我们选择一个10次方的特征,那么可以想象,最后我们得到的曲线将是一个能经过…