Machine Learning笔记整理 ------ （四）线性模型

1. 线性模型

基本形式：给定由d个属性描述的样本 x = (x₁; x₂; ......; x_d)，其中，x_i是x在第i个属性上的取值，则有：

f(x) = w₁x₁ + w₂x₂+ ...... + w_dx_d + b

令w=(w₁; w₂; ......; w_d)，x = (x₁; x₂; ......; x_d)，使用矩阵乘法写为向量形式：

f(x) = w^Tx + b

在w和b的值确定后（w=(w₁; w₂; ......; w_d)），整个模型就得以确定，其中，权重向量w可以直观表达各个属性的重要性。

2. 单一变量线性回归（Single Variable Linear Regression）

给定数据集 D = {(x₁, y₁), (x₂, y₂), (x₃, y₃), ......, (x_m, y_m)}，其中 x_i= (x_i1, x_i2, x_i3, ......, x_id)，y_i∈ R，线性回归想要学到一个线性模型，以尽可能准确地预测实值输出标记。

首先考虑最简单的情况：输入的属性数目为1

目标：

误差函数（均方误差）：

基于均方误差最小化进行模型求解的方法称之为：最小二乘法。

所以，求解w和b的值，使得E(w, b)最小化的过程，称之为线性回归的最小二乘参数估计，将E(w, b) 分别对w和b进行求导：

故w和b的最优闭式解为：

附：对于离散属性，可以对其进行连续化处理，例如，[0, 1] 表示从低到高，则可以使用 [0, 0.5, 1] 来分别表示低、中、高。如果离散属性间属于无序关系，假定有k个属性，则可以转化为K维向量，例如，白人、黑人、黄人对应 (0, 0, 1)、(0, 1, 0)、(1, 0, 0)。

3. 多元线性回归（Multivariate Linear Regression）

从单一变量线性回归推广至更一般的情形：数据集D中的样本由d个属性描述，即：多元变量线性回归。

目标：

令 w = (w; b)，将数据集D表示为一个 m * (d+1) 的矩阵X，最后一个元素恒置为1，故有：

令标记为向量形式 y = (y_1; y_2; ......; y_m)，则有：

故令：

求导：

最后求得的多元线性回归模型为：

4. 对数几率回归 (Logistic Regression)

阶跃函数 (Unit-step Function)：

然而阶跃函数不连续，无法作为替代函数使用，所以选择使用Sigmoid函数来代替阶跃函数：

将 f(x)=w^Tx+b 代入Sigmoid函数：

可以推出：

从上面推导的最终结果可以看出，y为输入量x被模型预测为正例的可能性，相应的，1-y则是被预测为反例的可能性，所以 ln(y/1-y) 被称之为对数几率（log odds, logit），所以该模型称为对数几率回归，虽然基于回归，但是实现的功能却是分类，同线性回归一样，当w和b的值确定，模型就得以确定。

特点：

直接对分类结果可能性进行建模，无需事先假设数据分布；
不仅预测类别，还可以得到近似概率预测；
logit函数时任意阶可导的凸函数，数学性质优良，很多数值优化算法可以直接用于求取最优解。

Machine Learning笔记整理 ------ （四）线性模型的更多相关文章

Machine Learning笔记整理 ------ （一）基本概念
机器学习的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E,使其在T中任务获得了性能改善,我们则说关于任务类T和P,该程序对经验E进行了学习(Mitchell, 1997) ...
Machine Learning笔记整理 ------ （五）决策树、随机森林
1. 决策树一般的,一棵决策树包含一个根结点.若干内部结点和若干叶子结点,叶子节点对应决策结果,其他每个结点对应一个属性测试,每个结点包含的样本集合根据属性测试结果被划分到子结点中,而根结点包含样本 ...
Machine Learning笔记整理 ------ （三）基本性能度量
1. 均方误差,错误率,精度给定样例集 (Example set): D = {(x1, y1), (x2, y2), (x3, y3), ......, (xm, ym)} 其中xi是对应属性的值 ...
Machine Learning笔记整理 ------ （二）训练集与测试集的划分
在实际应用中,一般会选择将数据集划分为训练集(training set).验证集(validation set)和测试集(testing set).其中,训练集用于训练模型,验证集用于调参.算法选择等 ...
第五周（web，machine learning笔记）
2019/11/2 1. 表现层状态转换(REST, representational state transfer.)一种万维网软件架构风格,目的是便于不同软件/程序在网络(例如互联网)中互相 ...
Python学习笔记整理(四)Python中的字符串..
字符串是一个有序的字符集合,用于存储和表现基于文本的信息. 常见的字符串常量和表达式 T1=‘’ 空字符串 T2="diege's" 双引号 T3=""&quo ...
machine learning 笔记 normal equation
theta=(Xt*X)^-1 Xt*y x is feature matrix y is expectation
Scrapy Learning笔记（四）- Scrapy双向爬取
摘要:介绍了使用Scrapy进行双向爬取(对付分类信息网站)的方法. 所谓的双向爬取是指以下这种情况,我要对某个生活分类信息的网站进行数据爬取,譬如要爬取租房信息栏目,我在该栏目的索引页看到如下页面, ...
Struts2学习笔记整理(四)
Struts2上传下载文件上传如果想使用HTML表单上传文件(一个或多个),那么必须把HTML表单的enctype属性设置成multipart/form-data,且method=post, 且使 ...

随机推荐

js的单例
对于 JS 来说,巨大的灵活性使得其可以有多种方式实现单例模式,使用闭包方式来模拟私有数据,按照其思路可得: var single = (function(){ var unique; functi ...
Python入门(案例)
Python入门(案例) #一.上课案例: #输出hello wordprint('hello word') #python注释有两种#1.单行注释#这是单行注释#2.多行注释'''这是多行注释''' ...
Java线程池的创建详解
本篇文章主要总结了Java创建线程池的三种方式以及线程池参数的详细说明,对线程池感兴趣的同学可以作为参考学习. 1)通过工具类java.util.concurrent.Executors的静态方法来创 ...
H5新增的标签以及改良的标签
1>OL标签的改良 start type reversed:翻转排序 2>datalist标签自动补全的使用 3>progress标签的使用:进度条 4>meter标签的应用 ...
HTML5开篇定义（更新中）
以下介绍的两种属性是为后面的属性支持左铺垫,大概一看就OK了. 通用属性 id 用于为HTML元素指定唯一标识 style 用于为HTML元素指定CSS指定样式 class 用于匹配CSS样式的cla ...
thinkPHP5.0框架验证码调用及点击图片刷新简单实现方法
这篇文章主要介绍了thinkPHP5.0框架验证码调用及点击图片刷新简单实现方法,结合简单示例形式分析了thinkPHP5框架验证码相关配置.后台验证.前台刷新等操作技巧,学习thinkphp源码的朋 ...
composer 基本概念与常用命令总结
目录 composer 基本概念与常用命令总结基本概念软件安装 linux/mac安装 windows 配置镜像如何使用常用命令全局参数初始化 init 初始化参数依赖安装 instal ...
Python读取 csv文件中文乱码处理
需求:按行解析读取csv文件存入关系型数据库——主要是中文字体解析:遇到的问题:直接解析出来的数据为list形式,而且编码格式为unicode;解决问题:前提了解: 中文编码的规则 —— GB2312 ...
VxWorks 7 技术简介
VxWorks 7 是新一代的嵌入式实时操作系统,全新的架构设计,灵活化的组件配置,高可靠性与安全性,丰富的第三方软件包,极大的方便用户的开发和使用.本文对VxWorks7 的功能做个简要的记录. V ...
反射vs简单工厂模式
interface Computer { void printpc(); } class lenovo implements Computer { @Override public void prin ...

Machine Learning笔记整理 ------ （四）线性模型

Machine Learning笔记整理 ------ （四）线性模型的更多相关文章

随机推荐

热门专题