# 预先导入库
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
import matplotlib.pyplot as plt
import numpy as np
from scipy import interpolate

在本例中,输入变量\(x\)为一维,然后对应的输出\(y=sin(x)+ \epsilon\),其中\(\epsilon\)为噪声。那么生成数据的代码为:

def make_data():
"""生成一维数据并且返回,y=sin(4x) + noise"""
np.random.seed(1)
X = np.sort(np.random.rand(30))
y = np.sin(4 * X) + np.random.randn(30) * 0.3
return X, y

一维线性回归

一开始,我们先用直接用线性回归拟合曲线。众所周知,拟合出来应该是一条直线。实际跑出来结果如下:

多元线性回归

要使得拟合结果更好,就需要增加输入变量的维度。要如何增加维度比较科学?大学我们有学过正弦函数的级数表达,也就是说:
\[sin(x) = a_0 * x + a_1 * x^2 + a_2 * x^3 + ...\]

所以接下来的目标是给输入变量\(x\)添加幂次方维度,并分析随着维度的增加,拟合曲线会怎么变化。

给输入变量增加维度可以使用sklearn.preprocessing.PolynomialFeatures处理,具体代码如下:

def get_polynomial_feature(origin_features, deg):
"""
用于添加幂次方维度,最后以np.array形式返回
:param origin_features: 多维数组,本例中shape为(n,1),即类似于np.array([[1],[2]])
:param deg: 需要扩展的维度.比如deg=3,那就是x, x^2, x^3
:return: 扩展后的np.array
"""
polynomial = PolynomialFeatures(
degree=deg,
include_bias=False # 不生成常数项
)
polynomial_features = polynomial.fit_transform(origin_features)
return polynomial_features

然后,根据\(degree\)的不同,生成不同的输入变量\(H_{degree}(x)\),使用sklearnLinearRegression来拟合即可。

if __name__ == '__main__':
# 生成数据
features, target = make_data()
features = features.reshape(-1, 1)
# 在图上画出点
plot_data(features, target) for i in [1, 2, 4, 16]:
poly_data = get_polynomial_feature(features, i)
model = LinearRegression()
model.fit(poly_data, target)
# print(f"degree - {i}:", model.coef_) # 查看模型训练得到的参数 # 插值处理画图平滑曲线
x = features.squeeze() # 生成插值的数据只能是一维
pred_y = model.predict(poly_data) new_x = np.arange(x.min(), x.max(), 0.0002) # 插值范围不能超过原数据的最小最大值
func = interpolate.interp1d(x, pred_y, kind='cubic') # kind方法:zero、slinear、quadratic、cubic
new_y = func(new_x) # 画图
plt.plot(new_x, new_y, label='degree' + str(i)) plt.legend()
plt.axis([0, 1, -1.5, 2]) # 设置横轴纵轴长度
plt.show()

最后得到拟合曲线如下所示:

为了画图好看,我用插值方法画出了更平滑的曲线,使用方法在代码中都有注释,完整代码可以访问我的github

最后总结一下,随着维度的增加,对于这些点的拟合情况逐渐变好,甚至趋于“变形”。这种模型的泛化能力不会太好。凭心而论,我觉得在\(deg=6\)左右的情况下,拟合效果可能会比较好。有兴趣试验的小伙伴可以在make_data生成更多的数据,然后使用交叉验证测试一下。

拟合多项式演示overfitting的更多相关文章

  1. 数据拟合:多项式拟合polynomial curve fitting

    http://blog.csdn.net/pipisorry/article/details/49804441 常见的曲线拟合方法 1.使偏差绝对值之和最小 2.使偏差绝对值最大的最小       3 ...

  2. numpy多项式拟合

    关于解决使用numpy.ployfit进行多项式拟合的时候请注意数据类型,解决问题的思路就是统一把数据变成浮点型,就可以了.这是numpy里面的一个bug,非常low希望后面改善. # coding: ...

  3. 【转】Matlab多项式拟合

    转:https://blog.csdn.net/hwecc/article/details/80308397 例: x = [0.33, 1.12, 1.41, 1.71, 2.19] y = [0. ...

  4. Apache Commons Math3学习笔记(2) - 多项式曲线拟合(转)

    多项式曲线拟合:org.apache.commons.math3.fitting.PolynomialCurveFitter类. 用法示例代码: // ... 创建并初始化输入数据: double[] ...

  5. 建模算法(九)——拟合

    一.线性最小二乘法 1.基本思路 令,其r(x)是事先选定的一组线性无关的函数.ak是待定系数.然后拟合的准则就是使得yi与f(xi)的距离的平方和最小,称之为最小二乘准则 2.系数的确定 ,要使距离 ...

  6. matlab最小二乘法数据拟合函数详解

    定义: 最小二乘法(又称最小平方法)是一种数学优化技术.它通过最小化误差的平方和寻找数据的最佳函数匹配.利用最小二乘法可 以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小. ...

  7. 最小二乘法拟合java实现源程序(转)

    因为我所在的项目要用到最小二乘法拟合,所有我抽时间将C++实现的程序改为JAVA实现,现在贴出来,供大家参考使用./** * <p>函数功能:最小二乘法曲线拟合</p> * @ ...

  8. 最小二乘法多项式曲线拟合原理与实现 zz

    概念 最小二乘法多项式曲线拟合,根据给定的m个点,并不要求这条曲线精确地经过这些点,而是曲线y=f(x)的近似曲线y= φ(x). 原理 [原理部分由个人根据互联网上的资料进行总结,希望对大家能有用] ...

  9. 用Python开始机器学习(3:数据拟合与广义线性回归)

    机器学习中的预测问题通常分为2类:回归与分类. 简单的说回归就是预测数值,而分类是给数据打上标签归类. 本文讲述如何用Python进行基本的数据拟合,以及如何对拟合结果的误差进行分析. 本例中使用一个 ...

随机推荐

  1. Qt 5.3更新无数,更改C++控制台输出最为赞(这样就和普通C++ IDE没区别了)

    转载请注明文章:Qt 5.3更新无数,更改C++控制台输出最为赞 出处:多客博图 本人觉得有了这个更新,Qt Creator可谓几乎没有缺点了,起码仅仅开发C/C++,是不用再去安装VS了. Qt 5 ...

  2. 如何在Qt中处理(接收/发送)MFC或Windows消息(直接覆盖MainDialog::nativeEvent,或者QApplication::installNativeEventFilter安装过滤器,或者直接改写QApplication::nativeEventFilter)

    关于接收: Receive WM_COPYDATA messages in a Qt app. 还有个中文网站: 提问: 如何在Qt中模拟MFC的消息机制 关于发送: 用Qt在Windows下编程,如 ...

  3. 下载Cloudera Repo

    wget http://archive-primary.cloudera.com/gplextras5/redhat/6/x86_64/gplextras/cloudera-gplextras5.re ...

  4. android 写文件到sd卡问题小记

    android 写文件到sd卡问题小记 事情是这样子的.... 这天我开始编写项目调试工具,高大上不?-----其实就是记录实时网络请求和崩溃日志相关等的小工具(此处一个会心的微笑). 然后我是这样写 ...

  5. ZooKeeper学习第六期---ZooKeeper机制架构(转)

    转载来源:https://www.cnblogs.com/sunddenly/p/4133784.html 一.ZooKeeper权限管理机制 1.1 权限管理ACL(Access Control L ...

  6. javaweb中Servlet配置到Tomcat

    1.tomcat容器来运行Servlet程序 在javase中,都是在控制台中运行java代码,而且提供了一个main方法,代码运行的入口.在javaee中,想要运行java代码,不是通过控制台程序来 ...

  7. Java:HashMap原理与设计缘由

    前言 Java中使用最多的数据结构基本就是ArrayList和HashMap,HashMap的原理也常常出现在各种面试题中,本文就HashMap的设计与设计缘由作出一一讲解,并解答面试常见的一些问题. ...

  8. 前端笔记之React(三)使用动态样式表&antd&React脚手架&props实战

    一.使用动态样式表 1.1 LESS使用 全局安装Less npm install -g less 创建1.less文件,然后可以用lessc命令来编译这个文件: lessc 1.less 1.css ...

  9. Python开发【第八篇】: 网络编程

    内容概要 楔子 软件开发架构 网络基础 套接字(socket) 粘包 socketserver模块 一. 楔子 现在有两个python文件a.py和b.py,分别运行,这两个程序之间需要传递一个数据, ...

  10. kubernetes实战篇之helm示例yaml文件文件详细介绍

    系列目录 前面完整示例里,我们主要讲解helm打包,部署,升级,回退等功能,关于这里面的文件只是简单介绍,这一节我们详细介绍一下这里面的文件,以方便我们参照创建自己的helm chart. Helm ...