最小二乘法及C语言实现

我们以最简单的一元线性模型来解释最小二乘法。什么是一元线性模型呢？监督学习中，如果预测的变量是离散的，我们称其为分类（如决策树，支持向量机等），如果预测的变量是连续的，我们称其为回归。回归分析中，如果只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。对于二维空间线性是一条直线；对于三维空间线性是一个平面，对于多维空间线性是一个超平面...

对于一元线性回归模型, 假设从总体中获取了n组观察值（X1，Y1），（X2，Y2）， …，（Xn，Yn）。对于平面中的这n个点，可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看，这条直线处于样本数据的中心位置最合理。选择最佳拟合曲线的标准可以确定为：使总的拟合误差（即总残差）达到最小。有以下三个标准可以选择：

（1）用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。
（2）用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。
（3）最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外，得到的估计量还具有优良特性。这种方法对异常值非常敏感。

　最常用的是普通最小二乘法（ Ordinary Least Square，OLS）：所选择的回归模型应该使所有观察值的残差平方和达到最小。（Q为残差平方和）- 即采用平方损失函数。

　样本回归模型：

其中ei为样本（Xi, Yi）的误差

平方损失函数：

则通过Q最小确定这条直线，即确定，以为变量，把它们看作是Q的函数，就变成了一个求极值的问题，可以通过求导数得到。求Q对两个待估参数的偏导数：

根据数学知识我们知道，函数的极值点为偏导为0的点。

解得：

这就是最小二乘法的解法，就是求得平方损失函数的极值点。

    LeastSquare(const vector<double>& x, const vector<double>& y)

    {

        double t1=, t2=, t3=, t4=;

        for(int i=; i<x.size(); ++i)

        {

            t1 += x[i]*x[i];

            t2 += x[i];

            t3 += x[i]*y[i];

            t4 += y[i];

        }

        a = (t3*x.size() - t2*t4) / (t1*x.size() - t2*t2);  // 求得β1

        b = (t1*t4 - t2*t3) / (t1*x.size() - t2*t2);        // 求得β2

    }

最小二乘法
设经验
方程是y=F(x)，方程中含有一些待定系数an，给出真实值{(xi,yi)|i=1,2,...n},将这些x,y值代入方程然后作
差，可以描述误差：yi-F(xi)，为了考虑整体的误差，可以取平方和，之所以要平方是考虑到误差可正可负直接相加可以相互抵消，所以记误差为：

e=∑(yi-F(xi))^2

它是一个多元函数，有an共n个未知量，现在要求的是最小值。所以必然满足对各变量的偏导等于0，于是得到n个方程：

de/da1=0
de/da2=0
...
de/dan=0

n个方程确定n个未知量为常量是理论上可以解出来的。用这种误差分析的方法进行回归方程的方法就是最小二乘法。

线性回归
如果经验方程是线性的，形如y=ax+b，就是线性回归。按上面的分析，误差函数为：

e=∑(yi-axi-b)^2

各偏导为：

de/da=2∑(yi-axi-b)xi=0
de/db=-2∑(yi-axi-b)=0

于是得到关于a,b的线性方程组：

(∑xi^2)a+(∑xi)b=∑yixi
(∑xi)a+nb=∑yi

设A=∑xi^2,B=∑xi,C=∑yixi,D=∑yi，则方程化为：

Aa+Bb=C
Ba+nb=D

解出a,b得：

a=(Cn-BD)/(An-BB)
b=(AD-CB)/(An-BB)

#include  <stdlib.h>

#include  <iostream>

#include  <valarray>

using namespace std;

int main(int argc, char *argv[])

{

    int num = ;

    cout << " Input how many numbers you want to calculate:";

    cin >> num;

    valarray<double> data_x(num);

    valarray<double> data_y(num);

    while( num )

    {

        cout << "Input the "<< num <<" of x:";

        cin >> data_x[num-];

        cout << "Input the "<< num <<" of y:";

        cin >> data_y[num-];

        num--;

    }

    double A =0.0;

    double B =0.0;

    double C =0.0;

    double D =0.0;

    A = (data_x*data_x).sum();

    B = data_x.sum();

    C = (data_x*data_y).sum();

    D = data_y.sum();

    double k,b,tmp =;

    if(tmp=(A*data_x.size()-B*B))

    {

        k = (C*data_x.size()-B*D)/tmp;

        b = (A*D-C*B)/tmp;

    }

    else

    {

        k=;

        b=;

    }

    cout <<"k="<<k<<endl;

    cout <<"b="<<b<<endl;

    return ;

}

最小二乘法及C语言实现的更多相关文章

机器学习：R语言中如何使用最小二乘法
详细内容见上一篇文章:http://www.cnblogs.com/lc1217/p/6514734.html 这里只是介绍下R语言中如何使用最小二乘法解决一次函数的线性回归问题. 代码如下:(数据同 ...
matlab和C语言实现最小二乘法
参考:https://blog.csdn.net/zengxiantao1994/article/details/70210662 Matlab代码: N = ; x = [ ]; y = [ ]; ...
R语言中如何使用最小二乘法
R语言中如何使用最小二乘法这里只是介绍下R语言中如何使用最小二乘法解决一次函数的线性回归问题. 代码如下: > x<-c(6.19,2.51,7.29,7.01,5.7, ...
数据分析与R语言
数据结构创建向量和矩阵函数c(), length(), mode(), rbind(), cbind() 求平均值,和,连乘,最值,方差,标准差函数mean(), sum(), min(), m ...
R语言通过loess去除某个变量对数据的影响
当我们想研究不同sample的某个变量A之间的差异时,往往会因为其它一些变量B对该变量的固有影响,而影响不同sample变量A的比较,这个时候需要对sample变量A进行标准化之后才能进行比较.标 ...
R语言与格式、日期格式、格式转化
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言的基础包中提供了两种类型的时间数据,一类 ...
多元线性回归公式推导及R语言实现
多元线性回归多元线性回归模型实际中有很多问题是一个因变量与多个自变量成线性相关,我们可以用一个多元线性回归方程来表示. 为了方便计算,我们将上式写成矩阵形式: Y = XW 假设自变量维度为N W ...
R语言统计学习-1简介
一. 统计学习概述统计学习是指一组用于理解数据和建模的工具集.这些工具可分为有监督或无监督.1.监督学习:用于根据一个或多个输入预测或估计输出.常用于商业.医学.天体物理学和公共政策等领域.2.无监 ...
R语言通过loess去除某个变量对数据的影响--CNV分析
当我们想研究不同sample的某个变量A之间的差异时,往往会因为其它一些变量B对该变量的固有影响,而影响不同sample变量A的比较,这个时候需要对sample变量A进行标准化之后才能进行比较.标准化 ...

随机推荐

Google Optimize 安装使用教程
Google Optimize 介绍打开链接 https://optimize.google.com/optimize/signup/ 填入电邮地址后等待注册邀请 Google Optimize是什 ...
PAT乙级 1001(C)+1054(Java)
准备一天两道题,就这样吧,先从水题开始. 1001.点击查看分析:看懂题就应该写出来了,注意边界与0情况的处理. #include<stdio.h> #include<math.h ...
实战项目——获取图片中的GPS位置信息和拍摄时间
今天突然看到有人写过获取图片中位置信息的程序.我觉得很有趣,也就自己实践了一下,研究了一下话不多说,先上代码 #!/usr/bin/env python3 # -*- coding: utf-8 - ...
js跨域post请求
function funPostBack(srvMethod){ /* var contentNR=$(document.getElementById("reportFrame") ...
[python][django学习篇][6]操作数据库
查询(取)数据 >>> Category.objects.all() <QuerySet [<Category: Category object>]> > ...
BZOJ 2243：染色（树链剖分+区间合并线段树）
[SDOI2011]染色Description给定一棵有n个节点的无根树和m个操作,操作有2类:1.将节点a到节点b路径上所有点都染成颜色c:2.询问节点a到节点b路径上的颜色段数量(连续相同颜色被认 ...
[51nod 1022] 石子归并v2 [dp+四边形不等式优化]
题面: 传送门思路: 加强版的石子归并,现在朴素的区间dp无法解决问题了首先我们破环成链,复制一条一样的链并粘贴到原来的链后面,变成一个2n长度的序列,在它上面dp,效率O(8n^3) 显然是过不 ...
JavaScript简明教程之Node.js
Node.js是目前非常火热的技术,但是它的诞生经历却很奇特. 众所周知,在Netscape设计出JavaScript后的短短几个月,JavaScript事实上已经是前端开发的唯一标准. 后来,微软通 ...
【bzoj2127】happiness 最大流
happiness Time Limit: 51 Sec Memory Limit: 259 MBSubmit: 2579 Solved: 1245[Submit][Status][Discuss ...
记忆泛型约束where
原文发布时间为:2011-03-29 -- 来源于本人的百度文章 [由搬家工具导入] http://msdn.microsoft.com/en-us/library/d5x73970.aspx

最小二乘法及C语言实现

最小二乘法及C语言实现的更多相关文章

随机推荐

热门专题