一、监督学习(supervised learning)

1.回归(regression)

        ①按我的理解来说,就是对于训练模型所用到的数据集,能够知道Input和Output的特征。比如,预测未来房价,我们给定了(房屋大小,房屋价格)这样一个形式的训练数据,给到模型完成训练后,我们再利用模型来对某一房屋的价格进行预测并得到一个预测结果。所以,回归模型即我们知道输入的数据有什么特征(房屋大小,房屋价格),以及我们要哪种结果类型的数据(房屋大小,预测价格)。

上面的例子中(房屋大小,房屋价格)相当于二维形式的数据,我们会将上面的“房屋大小” 用 \(x\) 表示,房屋价格用 \(y\) 表示,即 \((x,y)\),然后预测结果用 \(\hat y\) 来表示。

②函数模型:寻找一个函数 \(f\) 可以计算出一条最佳拟合曲线,使得我们的训练数据尽可能多地被曲线覆盖或靠近曲线。

           下面是一个例子,比如函数模型:\(f(x) = wx + b\)。其中 \(w\) 和 \(b\) 也叫做系数权重

③代价函数:

           首先,为什么会有代价函数?因为当我们的函数模型受到 \(w\) 和 \(b\) 的影响,即不同的 \(w\) 和 \(b\) 会得到一个不同的函数模型 \(f\) ,所以我们会试图寻找 \(w\) 和 \(b\) ,使得函数模型得到的曲线,能够尽可能覆盖或靠近训练数据集。因此,我们可以用 \(J(w,b)\) 来表示一个代价函数,即:$$J(w,b)=\sum_{i=0}^n \frac{1}{2n} * (\hat y - y)^2 $$

           那么这个函数的意义是什么?

           上方提到了 \(f\) 是尽可能覆盖或靠近训练集,所以说明 \(f\) 对应曲线上的点,和实际的训练集中的部分点会存在误差,我们的目的是为了让这个误差尽可能小,即找到一条合适的曲线,让预测数据更加接近实际值。所以,如何找到这条 \(f\) ?通过 \(f(x) = wx + b\) 的例子,我们知道了,通过找到最合适的 \(w\) 和 \(b\) 即可。所以 \(J(w,b)\) 函数的目的,就是通过上方的代价函数,来找到最合适的 \(w\) 和 \(b\) 。

2.分类(classification):按我的理解,我们想要的输出结果不再是一个单一值,而是对数据进行分类。比如:我有关于伤风感冒的几位患者的检查数据,那么我们想要得到的结果不再是某一个预测值,而是想对数据进行分析并分类,比如个人A的数据推测出“患病”,个人B的数据推测出“无病”,此时的数据就有了两种不同的结果,“患病”和“无病”。这即是分类。

二、无监督学习(unsupervised learning)

1.聚类(clustering):按我的理解,无监督学习是我们不知道Input和Output数据的具体特征。给到我一堆数据集,我事先并不知道这堆数据集的具体特征,比如上方预测房价的例子,我们知道数据是有“房价”和“房屋大小”两种标签,输出结果数据是“预测房价”的标签。而对于无监督学习来说,给定的数据集没有这些标签,即模型不会知道,这堆数据代表“房价”和“房屋大小”,输出数据是“预测房价”。因此,无监督学习相当于让模型自己去对数据集进行分析,找到这些数据集中的关联,进行分类,将数据集划分为一批一批带有相似特征的数据集群。比如:这里有一堆客户的个人数据,模型对数据进行分析,并将提取到的几个特征对客户进行分类,得到了比如喜欢吃蔬菜的客户群体A,喜欢吃肉的客户群体B,讨厌蔬菜的客户群体C。

三、线性回归模型

我的理解,即 $f$ 是一个线性函数的模型就是线性回归模型,比如上方的 $f(x) = wx + b$。


Machine Learning - 笔记1的更多相关文章

  1. 第五周(web,machine learning笔记)

    2019/11/2 1.    表现层状态转换(REST, representational state transfer.)一种万维网软件架构风格,目的是便于不同软件/程序在网络(例如互联网)中互相 ...

  2. Machine Learning笔记整理 ------ (一)基本概念

    机器学习的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E,使其在T中任务获得了性能改善,我们则说关于任务类T和P,该程序对经验E进行了学习(Mitchell, 1997) ...

  3. machine learning 笔记 normal equation

    theta=(Xt*X)^-1 Xt*y x is feature matrix y is expectation

  4. Machine Learning笔记整理 ------ (五)决策树、随机森林

    1. 决策树 一般的,一棵决策树包含一个根结点.若干内部结点和若干叶子结点,叶子节点对应决策结果,其他每个结点对应一个属性测试,每个结点包含的样本集合根据属性测试结果被划分到子结点中,而根结点包含样本 ...

  5. Machine Learning笔记整理 ------ (四)线性模型

    1. 线性模型 基本形式:给定由d个属性描述的样本 x = (x1; x2; ......; xd),其中,xi是x在第i个属性上的取值,则有: f(x) = w1x1 + w2x2 + ...... ...

  6. Machine Learning笔记整理 ------ (三)基本性能度量

    1. 均方误差,错误率,精度 给定样例集 (Example set): D = {(x1, y1), (x2, y2), (x3, y3), ......, (xm, ym)} 其中xi是对应属性的值 ...

  7. Machine Learning笔记整理 ------ (二)训练集与测试集的划分

    在实际应用中,一般会选择将数据集划分为训练集(training set).验证集(validation set)和测试集(testing set).其中,训练集用于训练模型,验证集用于调参.算法选择等 ...

  8. 《Machine Learning》系列学习笔记之第一周

    <Machine Learning>系列学习笔记 第一周 第一部分 Introduction The definition of machine learning (1)older, in ...

  9. [Machine Learning]学习笔记-Logistic Regression

    [Machine Learning]学习笔记-Logistic Regression 模型-二分类任务 Logistic regression,亦称logtic regression,翻译为" ...

  10. Machine Learning 学习笔记

    点击标题可转到相关博客. 博客专栏:机器学习 PDF 文档下载地址:Machine Learning 学习笔记 机器学习 scikit-learn 图谱 人脸表情识别常用的几个数据库 机器学习 F1- ...

随机推荐

  1. Qt使用https协议发送带参数的post请求

    背景: 现在公司项目需要做一个检测更新的功能,通过访问后台接口,判断是否需要更新. 后台接口是 https 协议的,接口需要post请求,需要带参数,来判断是哪个软件需要做检测更新的操作. 客户端软件 ...

  2. 直播预告丨Hello HarmonyOS进阶课程第四课——ArkUI动画开发

    为了帮助初识HarmonyOS的开发者快速入门,我们曾推出Hello HarmonyOS系列课程,从最基础的配置IDE和创建Hello World开始,详细介绍HarmonyOS基础.开发环境搭建.I ...

  3. Spring Cloud Stream 源码解析

    Spring Cloud Stream 是一个消息驱动微服务的框架.   应用程序通过inputs 或者outputs 来与 Spring Cloud Stream 中binder 交互,通过我们配置 ...

  4. Apollo+ES源码改造,构建民生银行的ELK日志平台配置管理中心【转载】

    Apollo+ES源码改造,构建民生银行的ELK日志平台配置管理中心 原创 高效开发运维 架构头条 2019-02-28 作者 | 中国民生银行大数据基础平台运维组团队 编辑 | 张婵 随着 IT 业 ...

  5. redis 面试题整理

    前言 前天面试了一家公司,平时看一本redis书的也使用redis,对里面的东西也基本了解,结果回答的时候居然回答了只是使用了(因为认为是redis是运维的东西,做的东西多,所以忘了,好吧这是借口), ...

  6. 重新整理数据结构与算法(c#)—— 算法套路分治算法[二十五]

    前言 有一个汉罗塔的游戏如下: 汉诺塔:汉诺塔(又称河内塔)问题是源于印度一个古老传说的益智玩具. 大梵天创造世界的时候做了三根金刚石柱子,在一根柱子上从下往上按照大小顺序摞着64片黄金圆盘. 大梵天 ...

  7. CentOS7下安装Elasticsearch-7.3.2和Elasticsearch-head

    下载Elasticsearch-7.3.2-linux-x86_64.tar.gzElasticsearch下载地址:https://www.elastic.co/cn/downloads/elast ...

  8. CSS 样式清单整理(二)

    16.元素占满整个屏幕 heigth如果使用100%,会根据父级的高度来决定,所以使用100vh单位. .dom{ width:100%; height:100vh; } 17.CSS实现文本两端对齐 ...

  9. 用百度和神策做埋点为何pv差异很大?

    近期ClkLog收到一个客户反馈说我们与百度统计的PV数据差异很大.为了验证问题,开发进行了一次对页面浏览量统计的测试.针对同一个IP同一个时间的页面浏览量统计发现,百度的统计数据只有一条,而ClkL ...

  10. 力扣412(java)-Fizz Buzz(简单)

    题目: 给你一个整数 n ,找出从 1 到 n 各个整数的 Fizz Buzz 表示,并用字符串数组 answer(下标从 1 开始)返回结果,其中: answer[i] == "FizzB ...