基本形式

上文中,大叔说道了线性回归,线性回归是个非常直观又简单的模型,但是很多时候,数据的分布并不是线性的,如:

如果我们想用高次多项式拟合上面的数据应该如何实现呢?其实很简单,设假设函数为

\[y = \theta_0 + \theta_1x + \theta_2x^2 \tag{1}
\]

与之相像的线性函数为

\[y = \theta_0 + \theta_1x_1 + \theta_2x_2 \tag{2}
\]

观察(1)式和(2)式,其实我们只要把(1)式中的\(x\)看作是(2)式中的\(x_1\),(1)式中的\(x^2\)看作是(2)式中的\(x_2\),就可以把拟合一个关于\(x\)的二次函数的任务转换为拟合一个关于\(x_1\)和\(x_2\)的线性函数的任务,这样问题就简单了,关于如何拟合一个线性函数请参考大叔学ML第二:线性回归

现在,我们用正规方程来拟合线性函数,正规方程形如:\(\vec\theta=(X^TX)^{-1}X^T\vec{y}\),关键在于构建特征矩阵\(X\),显然,特征矩阵的第一列\(\vec x_0\)全为1,第二列\(\vec x_1\)由样本中的属性\(x\)构成,第三列\(\vec x_2\)由样本中的属性\(x\)的平方构成。

小试牛刀

import numpy as np
import matplotlib.pyplot as plt ''' 创建样本数据如下:'''
X = np.arange(0, 10, 0.1) # 产生100个样本
noise = np.random.randint(-5, 5, (1, 100))
Y = 10 + 2 * X + 3 * X * X + noise # 100个样本对应的标记 '''下面用正规方程求解theta'''
X0 = np.ones((100, 1)) # x0赋值1
X1 = X.reshape(100, 1) # x1
X2 = X1 * X1 #x2为x1的平方 newX = np.hstack((X0, X1, X2)) # 构建一个特征矩阵
newY = Y.reshape(100, 1) # 把标记转置一下
theta = np.dot(np.dot(np.linalg.pinv(np.dot(newX.T, newX)), newX.T), newY)
print(theta) '''绘制'''
plt.xlabel('$X$')
plt.ylabel('$Y$')
plt.scatter(X, Y, marker='.') # 原始数据
plt.plot(X, theta[0] + theta[1] * X + theta[2] * X * X, color = 'r') # 绘制我们拟合得到的函数
plt.show()

运行结果:

简直完美。

再试牛刀

上面我们只是拟合了一个一元函数(样本数据仅包含一个元素),下面我们来尝试拟合一个二元函数。假设我们有一堆样本,每个样本有两个元素,看起来大概是这样:

我们欲拟合一个函数形式如下:

\[y = \theta_0 + \theta_1x_1 + \theta_2x_2 + \theta_3x_1^2 + \theta_4x_1x_2 + \theta_5x_2^2
\]

同样,对比与之相像的线性函数:

\[y = \theta_0 + \theta_1x_1 + \theta_2x_2 + \theta_3x_3 + \theta_4x_4+ \theta_5x_5
\]

我们建立如下对应关系:

高次多项式 线性式
\(x_0=1\) \(x_0=1\)
\(x_1\) \(x_1\)
\(x_2\) \(x_2\)
\(x_1^2\) \(x_3\)
\(x_1x_2\) \(x_4\)
\(x_2^2\) \(x_5\)

编程如下:

import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D # 测试用多项式
def ploy(X1, X2, *theta):
noise = np.random.randint(-5, 5, (1, 10))
Y = theta[0] + theta[1] * X1 + theta[2] * X2 + theta[3] * X1**2 + theta[4] * X1 * X2 + theta[5] * X2**2 + noise # 10个样本对应的标记
return Y ''' 创建样本数据如下 '''
X1 = np.arange(0, 10, 1) # 产生10个样本的第一个属性
X2 = np.arange(5, 15, 1) # 产生10个样本的第二个属性
Y = ploy(X1, X2, 1, 2, 3, 4, 5, 6) '''构建特征矩阵 '''
newX0 = np.ones((10, 1))
newX1 = np.reshape(X1, (10, 1))
newX2 = np.reshape(X2, (10, 1))
newX3 = np.reshape(X1**2, (10, 1))
newX4 = np.reshape(X1 * X2, (10, 1))
newX5 = np.reshape(X2**2, (10, 1)) newX = np.hstack((newX0, newX1, newX2, newX3, newX4, newX5)) # 特征矩阵 '''用正规方程拟合 '''
newY = Y.reshape(10, 1) #把标记转置一下
result = np.dot(np.dot(np.linalg.pinv(np.dot(newX.T, newX)), newX.T), newY)
theta = tuple(result.reshape((1, 6))[0].tolist())
print(theta) '''绘制 '''
fig = plt.figure()
ax = Axes3D(fig)
ax.set_xlabel('$X_1$')
ax.set_ylabel('$X_2$')
ax.set_zlabel('$Y$')
AxesX1, AxesX2 = np.meshgrid(X1, X2) AxesY = ploy(AxesX1, AxesX2, 1, 2, 3, 4, 5, 6) # 原始数据
ax.scatter(AxesX1, AxesX2, AxesY) regressionY = ploy(AxesX1, AxesX2, *theta) # 用拟合出来的theta计算数据
ax.plot_surface(AxesX1, AxesX2, regressionY, color='r', alpha='0.5')
plt.show()

运行结果:

调用类库

我们可以调用sklean中模块PolynomialFeatures自动生成特征矩阵,而无需自己创建,计算参数\(\vec\theta\)也不用自己写,而是使用sklean中的模块linear_model

import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures
from sklearn import linear_model
from mpl_toolkits.mplot3d import Axes3D # 测试用多项式
def ploy(X1, X2, *theta):
noise = np.random.randint(-5, 5, (1, 10))
Y = theta[0] + theta[1] * X1 + theta[2] * X2 + theta[3] * X1**2 + theta[4] * X1 * X2 + theta[5] * X2**2 + noise # 10个样本对应的标记
return Y ''' 创建样本数据如下 '''
X1 = np.arange(0, 10, 1) # 产生10个样本的第一个属性
X2 = np.arange(5, 15, 1) # 产生10个样本的第二个属性
Y = ploy(X1, X2, 1, 2, 3, 4, 5, 6) X = np.vstack((X1, X2)).T
Y = Y.reshape((10, 1)) '''构建特征矩阵 '''
poly = PolynomialFeatures(2)
features_matrix = poly.fit_transform(X)
names = poly.get_feature_names() ''' 拟合'''
regr = linear_model.LinearRegression()
regr.fit(features_matrix, Y) theta = tuple(regr.intercept_.tolist() + regr.coef_[0].tolist())
print(theta) '''绘制 '''
fig = plt.figure()
ax = Axes3D(fig)
ax.set_xlabel('$X_1$')
ax.set_ylabel('$X_2$')
ax.set_zlabel('$Y$')
AxesX1, AxesX2 = np.meshgrid(X1, X2) AxesY = ploy(AxesX1, AxesX2, 1, 2, 3, 4, 5, 6) # 原始数据
ax.scatter(AxesX1, AxesX2, AxesY) regressionY = ploy(AxesX1, AxesX2, *theta) # 用拟合出来的theta计算数据
ax.plot_surface(AxesX1, AxesX2, regressionY, color='r', alpha='0.5')
plt.show()

运行结果如下:

感觉还不让自己写的代码拟合的好,可能是大叔的样本太少?或者是其他什么原因导致。大叔现在功力还不深,等有空了会看看这些类库的源码。

至于何时必须自己编码而不是调用类库,大叔在上文末尾做了一点总结,不一定对,欢迎指正。祝大家周末愉快。

大叔学ML第三:多项式回归的更多相关文章

  1. 大叔学ML第五:逻辑回归

    目录 基本形式 代价函数 用梯度下降法求\(\vec\theta\) 扩展 基本形式 逻辑回归是最常用的分类模型,在线性回归基础之上扩展而来,是一种广义线性回归.下面举例说明什么是逻辑回归:假设我们有 ...

  2. 大叔学ML第四:线性回归正则化

    目录 基本形式 梯度下降法中应用正则化项 正规方程中应用正则化项 小试牛刀 调用类库 扩展 正则:正则是一个汉语词汇,拼音为zhèng zé,基本意思是正其礼仪法则:正规:常规:正宗等.出自<楚 ...

  3. 大叔学ML第二:线性回归

    目录 基本形式 求解参数\(\vec\theta\) 梯度下降法 正规方程导法 调用函数库 基本形式 线性回归非常直观简洁,是一种常用的回归模型,大叔总结如下: 设有样本\(X\)形如: \[\beg ...

  4. 大叔学ML第一:梯度下降

    目录 原理 实践一:求\(y = x^2 - 4x + 1\)的最小值 实践二:求\(z = x^2 + y^2 + 5\)的最小值 问答时间 原理 梯度下降是一个很常见的通过迭代求解函数极值的方法, ...

  5. 跟vczh看实例学编译原理——三:Tinymoe与无歧义语法分析

    文章中引用的代码均来自https://github.com/vczh/tinymoe.   看了前面的三篇文章,大家应该基本对Tinymoe的代码有一个初步的感觉了.在正确分析"print ...

  6. [老老实实学WCF] 第三篇 在IIS中寄存服务

    老老实实学WCF 第三篇 在IIS中寄宿服务 通过前两篇的学习,我们了解了如何搭建一个最简单的WCF通信模型,包括定义和实现服务协定.配置服务.寄宿服务.通过添加服务引用的方式配置客户端并访问服务.我 ...

  7. 从零开始学Xamarin.Forms(三) Android 制作启动画面

    原文:从零开始学Xamarin.Forms(三) Android 制作启动画面     Xamarin.Forms 在启动的时候相当慢,必须添加一个启动界面,步骤如下: 1.将启动画面的图片命名为:s ...

  8. 跟我学SpringCloud | 第三篇:服务的提供与Feign调用

    跟我学SpringCloud | 第三篇:服务的提供与Feign调用 上一篇,我们介绍了注册中心的搭建,包括集群环境吓注册中心的搭建,这篇文章介绍一下如何使用注册中心,创建一个服务的提供者,使用一个简 ...

  9. 2017-2018-1 我爱学Java 第三周 作业

    Team Presentation 团队展示 队员学号 队名 团队项目描述 队员风采 团队首次合照 团队的特色描述 团队初步合作 前两周合作过程中的优缺点 如何改进 团队选题 确立,建立和初步熟悉团队 ...

随机推荐

  1. redis单例模式

    看到好多面试都问设计模式,我就简单的了解了一下,顺便把之前封装好的Reis做了一次修改. 单例模式(Singleton Pattern 单件模式或单元素模式) 单例模式确保某个类只有一个实例,而且自行 ...

  2. 十六、IDEA创建一个maven工程

    1.点击Create new Project 2.选择maven,使用的jdk,点击next; 3.填写GroupId和工程名,点击next; 4.默认不做其他修改,点击Finish; 5.创建成功

  3. linux 学习之路:mkdir命令使用

    linux mkdir 命令 在当前目录下创建文件夹,当前账号需要保证目录下有写到权限. 1.命令格式 mkdir[选项]文件名 mkdir  创建目录文件 语法:mkdir [ -m Mode ] ...

  4. macOS HomeBrew更换源 brew常用命令说明

    homebrew本身就是一个git仓库.使用homebrew安装软件包时,会自动先下载软件包,然后解压安装,但有时候下载会卡住,或者很慢,这个时候有以下几种方法: 1.临时的终止update,先con ...

  5. 2,fiddler的基本设置

    1,首次打开的基本设置 2,过滤抓包的内容 1)较为常用的是: URL包含和hosts的设置 2)不常用的是 3,设置https 这是实在安装证书,当还是不能抓到https的包的时候,可以区安装彼得证 ...

  6. Maven 基本用法

    1. 新建一个项目目录 2. 在项目目录中新建并编写 pom.xml 文件, 3. 在项目目录中新建主代码目录 src/main/java 4. 在项目目录中新建测试代码目录 src/test/jav ...

  7. 关于微信小程序切换获取不到元素的问题

    1.由于公司要实现微信小程序的自动化,所以开始学习python + appium 实现微信小程序自动化.在学习过程中遇到在切换webview后获取不到页面元素的问题,导致无法继续.今天在网上看到一篇关 ...

  8. get windows auth code

    public static WindowsIdentityInfo GetWindowsIdentityInfo(HttpContext context) { WindowsIdentityInfo ...

  9. opencv的安装

    网上搜了好多文章安装opencv3.2.0都未能成功,写的也个不相同,后来找到了opencv官网的教程,看了后才发现,这上面才是最详细的. 于是按照opencv官网教程安装,安装的一半就中断了.经过苦 ...

  10. css摘要

    由于需要,今天花三个小时了解一下css,在此记录一些摘要: 参考w3school 1. 当同一个 HTML 元素被不止一个样式定义时,会使用哪个样式呢? 一般而言,所有的样式会根据下面的规则层叠于一个 ...