Machine Learning

一、监督学习（supervised learning）

1.回归（regression）

①按我的理解来说，就是对于训练模型所用到的数据集，能够知道Input和Output的特征。比如，预测未来房价，我们给定了（房屋大小，房屋价格）这样一个形式的训练数据，给到模型完成训练后，我们再利用模型来对某一房屋的价格进行预测并得到一个预测结果。所以，回归模型即我们知道输入的数据有什么特征（房屋大小，房屋价格），以及我们要哪种结果类型的数据（房屋大小，预测价格）。

上面的例子中（房屋大小，房屋价格）相当于二维形式的数据，我们会将上面的“房屋大小” 用 $x$ 表示，房屋价格用 $y$ 表示，即 $(x,y)$，然后预测结果用 $\hat y$ 来表示。

②函数模型：寻找一个函数 $f$ 可以计算出一条最佳拟合曲线，使得我们的训练数据尽可能多地被曲线覆盖或靠近曲线。

下面是一个例子，比如函数模型：$f(x) = wx + b$。其中 $w$ 和 $b$ 也叫做系数或权重

③代价函数：

           首先，为什么会有代价函数？因为当我们的函数模型受到 $w$ 和 $b$ 的影响，即不同的 $w$ 和 $b$ 会得到一个不同的函数模型 $f$ ，所以我们会试图寻找 $w$ 和 $b$ ，使得函数模型得到的曲线，能够尽可能覆盖或靠近训练数据集。因此，我们可以用 $J(w,b)$ 来表示一个代价函数，即：$$J(w,b)=\sum_{i=0}^n \frac{1}{2n} * (\hat y - y)^2 $$

           那么这个函数的意义是什么？

           上方提到了 $f$ 是尽可能覆盖或靠近训练集，所以说明 $f$ 对应曲线上的点，和实际的训练集中的部分点会存在误差，我们的目的是为了让这个误差尽可能小，即找到一条合适的曲线，让预测数据更加接近实际值。所以，如何找到这条 $f$ ？通过 $f(x) = wx + b$ 的例子，我们知道了，通过找到最合适的 $w$ 和 $b$ 即可。所以 $J(w,b)$ 函数的目的，就是通过上方的代价函数，来找到最合适的 $w$ 和 $b$ 。

2.分类（classification）：按我的理解，我们想要的输出结果不再是一个单一值，而是对数据进行分类。比如：我有关于伤风感冒的几位患者的检查数据，那么我们想要得到的结果不再是某一个预测值，而是想对数据进行分析并分类，比如个人A的数据推测出“患病”，个人B的数据推测出“无病”，此时的数据就有了两种不同的结果，“患病”和“无病”。这即是分类。

二、无监督学习（unsupervised learning）

1.聚类（clustering）：按我的理解，无监督学习是我们不知道Input和Output数据的具体特征。给到我一堆数据集，我事先并不知道这堆数据集的具体特征，比如上方预测房价的例子，我们知道数据是有“房价”和“房屋大小”两种标签，输出结果数据是“预测房价”的标签。而对于无监督学习来说，给定的数据集没有这些标签，即模型不会知道，这堆数据代表“房价”和“房屋大小”，输出数据是“预测房价”。因此，无监督学习相当于让模型自己去对数据集进行分析，找到这些数据集中的关联，进行分类，将数据集划分为一批一批带有相似特征的数据集群。比如：这里有一堆客户的个人数据，模型对数据进行分析，并将提取到的几个特征对客户进行分类，得到了比如喜欢吃蔬菜的客户群体A，喜欢吃肉的客户群体B，讨厌蔬菜的客户群体C。

三、线性回归模型

我的理解，即 $f$ 是一个线性函数的模型就是线性回归模型，比如上方的 $f(x) = wx + b$。

Machine Learning - 笔记1的更多相关文章

第五周（web，machine learning笔记）
2019/11/2 1. 表现层状态转换(REST, representational state transfer.)一种万维网软件架构风格,目的是便于不同软件/程序在网络(例如互联网)中互相 ...
Machine Learning笔记整理 ------ （一）基本概念
机器学习的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E,使其在T中任务获得了性能改善,我们则说关于任务类T和P,该程序对经验E进行了学习(Mitchell, 1997) ...
machine learning 笔记 normal equation
theta=(Xt*X)^-1 Xt*y x is feature matrix y is expectation
Machine Learning笔记整理 ------ （五）决策树、随机森林
1. 决策树一般的,一棵决策树包含一个根结点.若干内部结点和若干叶子结点,叶子节点对应决策结果,其他每个结点对应一个属性测试,每个结点包含的样本集合根据属性测试结果被划分到子结点中,而根结点包含样本 ...
Machine Learning笔记整理 ------ （四）线性模型
1. 线性模型基本形式:给定由d个属性描述的样本 x = (x1; x2; ......; xd),其中,xi是x在第i个属性上的取值,则有: f(x) = w1x1 + w2x2 + ...... ...
Machine Learning笔记整理 ------ （三）基本性能度量
1. 均方误差,错误率,精度给定样例集 (Example set): D = {(x1, y1), (x2, y2), (x3, y3), ......, (xm, ym)} 其中xi是对应属性的值 ...
Machine Learning笔记整理 ------ （二）训练集与测试集的划分
在实际应用中,一般会选择将数据集划分为训练集(training set).验证集(validation set)和测试集(testing set).其中,训练集用于训练模型,验证集用于调参.算法选择等 ...
《Machine Learning》系列学习笔记之第一周
<Machine Learning>系列学习笔记第一周第一部分 Introduction The definition of machine learning (1)older, in ...
[Machine Learning]学习笔记-Logistic Regression
[Machine Learning]学习笔记-Logistic Regression 模型-二分类任务 Logistic regression,亦称logtic regression,翻译为" ...
Machine Learning 学习笔记
点击标题可转到相关博客. 博客专栏:机器学习 PDF 文档下载地址:Machine Learning 学习笔记机器学习 scikit-learn 图谱人脸表情识别常用的几个数据库机器学习 F1- ...

随机推荐

mogdb里xlog相关的几个参数
openGauss/MogDB 3.0 闪回恢复测试本文出处:https://www.modb.pro/db/411368 介绍闪回恢复功能是数据库恢复技术的一环,可以有选择性的撤销一个已提交事务 ...
Luogu P3007 奶牛议会
观前须知本题解使用 CC BY-NC-SA 4.0 许可. 同步发布于 Luogu 题解区. 更好的观看体验请点这里. 笔者的博客主页正文 Luogu P3007 [USACO11JAN] Th ...
setTimeout(fn, 0) // it works - JavaScript 事件循环动画演示
在前端代码中很经常看到使用 setTimeout(fn, 0),如下面代码所示,乍一看很多余,但是移除了可能会出现一些奇奇怪怪的问题.要解释这个就需要理解事件循环(Event Loop),下面会通过 ...
Xilinx USB JTAG两种JTGA-HS3和Platfrom下载器速度对比
下面测试速度,以一个V7的配置文件为例子.文件大小如下,27MB.特别是对于有点规模的项目配置文件都是很大的.总不能是点灯项目. 选择普通的下载器,Platform Cable USB.这种下载器是基 ...
Node 文件查找的优先级以及 Require 方法的文件查找策略
一.模块规范 NodeJS对CommonJS进行了支持和实现,让我们在开发node的过程中可以方便的进行模块化开发: 在Node中每一个js文件都是一个单独的模块模块中包括CommonJS规范的核心 ...
stmp 501 5.1.3 Invalid Address 无效的邮件地址
stmp 501 5.1.3 Invalid Address 无效的邮件地址一般来说就是要确认邮箱地址是不是对的还有一种可能的情况是使用的邮件服务器仅支持对内邮件,没有对外邮件的发送权限
400倍加速, PolarDB HTAP实时数据分析技术解密
简介: PolarDB MySQL是因云而生的一个数据库系统, 除了云上OLTP场景,大量客户也对PolarDB提出了实时数据分析的性能需求.对此PolarDB技术团队提出了In-Memory Col ...
DataWorks 如何撑起阿里99%的数据开发？
阿里妹导读: DataWorks是阿里巴巴自主研发,支撑阿里巴巴经济体99%数据业务建设和治理,每天数万名数据开发和算法开发工程师在使用.从2010年起步到目前的版本,经历了多次技术变革和架构升级,也 ...
宜搭小技巧｜维护Excel太麻烦？Excel一键转应用，为你的工作减负！
简介:只需6步,轻松学会「Excel一键创建应用」! 在钉钉的聊天窗口中,每天都会流转数量巨大的Excel表格,用于信息收集和数据统计,但有时这些表格并不能很好地帮助到我们的工作,相反还会带来许多不 ...
CDP 平台简介
简介: EDC 建立在 Cloudera Data Platform(CDP) 之上,该产品结合了 Cloudera Enterprise Data Hub 和 Hortonworks Data P ...

Machine Learning - 笔记1

Machine Learning - 笔记1的更多相关文章

随机推荐

热门专题