Machine Learning笔记整理 ------ (四)线性模型
1. 线性模型
基本形式:给定由d个属性描述的样本 x = (x1; x2; ......; xd),其中,xi是x在第i个属性上的取值,则有:
f(x) = w1x1 + w2x2 + ...... + wdxd + b
令w=(w1; w2; ......; wd),x = (x1; x2; ......; xd),使用矩阵乘法写为向量形式:
f(x) = wTx + b
在w和b的值确定后(w=(w1; w2; ......; wd)),整个模型就得以确定,其中,权重向量w可以直观表达各个属性的重要性。
2. 单一变量线性回归(Single Variable Linear Regression)
给定数据集 D = {(x1, y1), (x2, y2), (x3, y3), ......, (xm, ym)},其中 xi = (xi1, xi2, xi3, ......, xid),yi ∈ R,线性回归想要学到一个线性模型,以尽可能准确地预测实值输出标记。
首先考虑最简单的情况:输入的属性数目为1
目标:
误差函数(均方误差):
基于均方误差最小化进行模型求解的方法称之为:最小二乘法。
所以,求解w和b的值,使得E(w, b)最小化的过程,称之为线性回归的最小二乘参数估计,将E(w, b) 分别对w和b进行求导:
故w和b的最优闭式解为:
附:对于离散属性,可以对其进行连续化处理,例如,[0, 1] 表示从低到高,则可以使用 [0, 0.5, 1] 来分别表示低、中、高。如果离散属性间属于无序关系,假定有k个属性,则可以转化为K维向量,例如,白人、黑人、黄人对应 (0, 0, 1)、(0, 1, 0)、(1, 0, 0)。
3. 多元线性回归(Multivariate Linear Regression)
从单一变量线性回归推广至更一般的情形:数据集D中的样本由d个属性描述,即:多元变量线性回归。
目标:
令 w = (w; b),将数据集D表示为一个 m * (d+1) 的矩阵X,最后一个元素恒置为1,故有:
令标记为向量形式 y = (y1; y2; ......; ym),则有:
故令:
求导:
最后求得的多元线性回归模型为:
4. 对数几率回归 (Logistic Regression)
阶跃函数 (Unit-step Function):
然而阶跃函数不连续,无法作为替代函数使用,所以选择使用Sigmoid函数来代替阶跃函数:
将 f(x)=wTx+b 代入Sigmoid函数:
可以推出:
从上面推导的最终结果可以看出,y为输入量x被模型预测为正例的可能性,相应的,1-y则是被预测为反例的可能性,所以 ln(y/1-y) 被称之为对数几率(log odds, logit),所以该模型称为对数几率回归,虽然基于回归,但是实现的功能却是分类,同线性回归一样,当w和b的值确定,模型就得以确定。
特点:
- 直接对分类结果可能性进行建模,无需事先假设数据分布;
- 不仅预测类别,还可以得到近似概率预测;
- logit函数时任意阶可导的凸函数,数学性质优良,很多数值优化算法可以直接用于求取最优解。
Machine Learning笔记整理 ------ (四)线性模型的更多相关文章
- Machine Learning笔记整理 ------ (一)基本概念
机器学习的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E,使其在T中任务获得了性能改善,我们则说关于任务类T和P,该程序对经验E进行了学习(Mitchell, 1997) ...
- Machine Learning笔记整理 ------ (五)决策树、随机森林
1. 决策树 一般的,一棵决策树包含一个根结点.若干内部结点和若干叶子结点,叶子节点对应决策结果,其他每个结点对应一个属性测试,每个结点包含的样本集合根据属性测试结果被划分到子结点中,而根结点包含样本 ...
- Machine Learning笔记整理 ------ (三)基本性能度量
1. 均方误差,错误率,精度 给定样例集 (Example set): D = {(x1, y1), (x2, y2), (x3, y3), ......, (xm, ym)} 其中xi是对应属性的值 ...
- Machine Learning笔记整理 ------ (二)训练集与测试集的划分
在实际应用中,一般会选择将数据集划分为训练集(training set).验证集(validation set)和测试集(testing set).其中,训练集用于训练模型,验证集用于调参.算法选择等 ...
- 第五周(web,machine learning笔记)
2019/11/2 1. 表现层状态转换(REST, representational state transfer.)一种万维网软件架构风格,目的是便于不同软件/程序在网络(例如互联网)中互相 ...
- Python学习笔记整理(四)Python中的字符串..
字符串是一个有序的字符集合,用于存储和表现基于文本的信息. 常见的字符串常量和表达式 T1=‘’ 空字符串 T2="diege's" 双引号 T3=""&quo ...
- machine learning 笔记 normal equation
theta=(Xt*X)^-1 Xt*y x is feature matrix y is expectation
- Scrapy Learning笔记(四)- Scrapy双向爬取
摘要:介绍了使用Scrapy进行双向爬取(对付分类信息网站)的方法. 所谓的双向爬取是指以下这种情况,我要对某个生活分类信息的网站进行数据爬取,譬如要爬取租房信息栏目,我在该栏目的索引页看到如下页面, ...
- Struts2学习笔记整理(四)
Struts2上传下载 文件上传 如果想使用HTML表单上传文件(一个或多个),那么必须把HTML表单的enctype属性设置成multipart/form-data,且method=post, 且使 ...
随机推荐
- unittest单元测试框架之unittest 框架的总结2(八)
unittest 下的属性 1.Unittest.TestCase:所有测试用例类继承的基本类 2.Unittest.main():将一个单元测试模块变为可直接运行的测试脚本 If __name__ ...
- binlog2sql 用法
binlog2sql 用法 使用场景:binlog2sql是根据mysql的binlog (要求格式是row)反解析出delete,update操作,对误操作数据进行还原. https://githu ...
- Centos6_32位系统512M内存_如何安装gogs_Mysql_配置开机自启动
因为有很多人的Linux版本比较低,内存配置也较低,X86 ,32位系统的:所以这里推荐采用二进制安装gogs,并且使用Mysql:这个是傻瓜式的安装方案,适合绝大多数人(提及了centos7的安装思 ...
- 使用apt-get install时如何指定安装版本
命令语法如下: sudo apt-get install package=version 例如: sudo apt-get install samba=2:4.4.5+dfsg-2ubuntu6
- java并发实战:连接池实现
池化技术简介 在我们使用数据库的过程中,我们往往使用数据库连接池而不是直接使用数据库连接进行操作,这是因为每一个数据库连接的创建和销毁的代价是昂贵的,而池化技术则预先创建了资源,这些资源是可复用的,这 ...
- Python提高篇
Python提高篇 1.模块 1)模块定义 模块就是py文件,可以是你自己写的,也可以是python当中自带的工具,当你在某个py文件下想要引用其他模块的功能,就需要你把你把该py文件导入. 2)导入 ...
- PHP批量清理MIP-cache缓存(内附在线mipcache清理工具)
MIP是什么?我就不多说了把. MIPCache 又是什么? 科普一下:MIPCache 是一套基于代理的 CDN 缓存系统.可用于缓存所有被某度相关页面引用或者从百度相关服务点出的 MIP 页面.当 ...
- Java实例 Part2:Java语言基础
Part2:Java语言基础 ** Example01:从控制台接收输入字符 ** 运行结果: 实现代码: import java.util.Scanner; public class Example ...
- 插入排序,C语言实现
插入排序是稳定排序,时间复杂度最低为O(n),最高为O(n^2),平均为O(n^2). 插入排序是将数组分为两部分,一部分已经排好序,另一部分未排好序,每次从未排好序的部分取第一个元素插入到已经排好序 ...
- Python3爬虫(十六) pyspider框架
Infi-chu: http://www.cnblogs.com/Infi-chu/ 一.pyspider介绍1.基本功能 提供WebUI可视化功能,方便编写和调试爬虫 提供爬取进度监控.爬取结果查看 ...