机器学习的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E,使其在T中任务获得了性能改善,我们则说关于任务类T和P,该程序对经验E进行了学习(Mitchell, 1997)。

机器学习的研究内容:关于在计算机上从数据中产生模型的算法,即学习算法(learning algorithm)。

1.名词定义

数据集 (Data set):数据的集合,其中每条数据都称为一条样本 (Sample)或示例 (Instance)。即:

         样本 (Sample) = 示例 (Instance)

         属性 (Attribute) = 特征 (Feature)

         属性空间 (Attribute space) = 样本空间 (Sample space) = 输入空间 (Input space)

E.g. 如图所示,若某数据集中的数据拥有三种属性,则可以看作是三维空间内对应坐标的点。而该坐标张成的空间即为属性空间。

即:数据集 D = {x1, x2, ......, xm}, 其中,样本 x = {x11, x22, ......, x1d},d为该条数据的维数(属性或特征的个数),xij 则是第 i 条数据中第 j 条属性或特征的值。

学习 (Learning) / 训练 (Training):从数据中学得模型的过程。

训练数据 (Training data):训练过程中使用的数据,其中的每个样本称为一个训练样本。

训练集 (Training set):训练样本所组成的集合。

标记 (Label):关于样本结果的信息。

样例 (Example):拥有标记的样本/示例即样例。即:

        示例 (Instance) / 样本 (Sample) + 标记 (Label) = 样例 (Example)

                               (xi, yi)

测试 (Testing):使用学得的模型进行预测的过程。

测试集 (Testing Set):测试样本所组成的集合,应尽量与训练集互斥。

泛化 (Generalization):学得的模型适用于新样本的能力。

独立同分布 (Independent and identically distributed, i.i.d):假设样本空间中的全体样本服从一个未知的分布D,我们获得的每个样本都是独立地从这个分布上采样获得的,这也是统计机器学习算法的基本依据。

奥卡姆剃刀 (Occam's razor):如果有多个假设与观察一致,则选取最简单的那个。

“没有免费的午餐”定理(No Free Lunch Theorem, NFL):无论学习算法 Σ多聪明,学习算法Σb多笨拙,它们的期望性能是相同的。

2. 分类、回归

根据预测任务中预测的值类型的不同:

根据是否拥有标记 (Label):

Machine Learning笔记整理 ------ (一)基本概念的更多相关文章

  1. Machine Learning笔记整理 ------ (五)决策树、随机森林

    1. 决策树 一般的,一棵决策树包含一个根结点.若干内部结点和若干叶子结点,叶子节点对应决策结果,其他每个结点对应一个属性测试,每个结点包含的样本集合根据属性测试结果被划分到子结点中,而根结点包含样本 ...

  2. Machine Learning笔记整理 ------ (四)线性模型

    1. 线性模型 基本形式:给定由d个属性描述的样本 x = (x1; x2; ......; xd),其中,xi是x在第i个属性上的取值,则有: f(x) = w1x1 + w2x2 + ...... ...

  3. Machine Learning笔记整理 ------ (三)基本性能度量

    1. 均方误差,错误率,精度 给定样例集 (Example set): D = {(x1, y1), (x2, y2), (x3, y3), ......, (xm, ym)} 其中xi是对应属性的值 ...

  4. Machine Learning笔记整理 ------ (二)训练集与测试集的划分

    在实际应用中,一般会选择将数据集划分为训练集(training set).验证集(validation set)和测试集(testing set).其中,训练集用于训练模型,验证集用于调参.算法选择等 ...

  5. 【Machine Learning】机器学习及其基础概念简介

    机器学习及其基础概念简介 作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...

  6. 第五周(web,machine learning笔记)

    2019/11/2 1.    表现层状态转换(REST, representational state transfer.)一种万维网软件架构风格,目的是便于不同软件/程序在网络(例如互联网)中互相 ...

  7. machine learning 笔记 normal equation

    theta=(Xt*X)^-1 Xt*y x is feature matrix y is expectation

  8. 【Machine Learning】KNN算法虹膜图片识别

    K-近邻算法虹膜图片识别实战 作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...

  9. 【Machine Learning】Python开发工具:Anaconda+Sublime

    Python开发工具:Anaconda+Sublime 作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现 ...

随机推荐

  1. 处理HTML表单(11)

    PHP和Web表单 <?php if(isset($_POST["name"])){//isset()函数设置变量是否设置,并且不能为空 $name = $_POST[&qu ...

  2. Microsoft SQL Server2008安装教程

    自己录制的视频,地址https://share.weiyun.com/5VITfph(微云分享,大小52MB,AVI格式) 视频中安装.net framework如果已经安装好了就不需要安装,也可自行 ...

  3. 【星云测试】Wings-让单元测试智能全自动生成

    Wings-让单元测试智能全自动生成 前言 单元测试是保证软件质量非常有效的手段,无论是从测试理论早期介入测试的理念来看或是从单元测试不受UI影响可以高速批量验证的特性,所以业界所倡导的测试驱动开发, ...

  4. 进程通信-Queue

    进程通信-Queue Queue消息队列是python进程通信的其中一种方式.需要引入multiprocessing包中的Queue函数(这是函数,不是类). 有一个queue包,里面也有Queue, ...

  5. WebGl 画线

    效果: 代码: <!DOCTYPE html> <html lang="en"> <head> <meta charset="U ...

  6. cookie,session,token

    发展史 1.很久很久以前,Web 基本上就是文档的浏览而已, 既然是浏览,作为服务器, 不需要记录谁在某一段时间里都浏览了什么文档,每次请求都是一个新的HTTP协议, 就是请求加响应,  尤其是我不用 ...

  7. Redis对象类型

    Redis对象类型 Redis基于基础的数据结构创建的对象: 字符串对象. 列表对象. 哈希对象. 集合对象 有序集合对象. 对象回收:Redis对象系统实现了基于引用计数技术的内存回收机制,当程序不 ...

  8. Delphi 高效读写锁

    本人设计了一个高效读写锁,可实现多个线程读一个线程写的锁,应该比Delphi自带的读写锁高效,本人没有做对比测试. 本文的锁不可以在一个线程里重入,否则会锁死,另外读写锁最多支持65535个线程同时读 ...

  9. QEMU 模拟运行 VxWorks 6.6

    QEMU 模拟运行 VxWorks 6.6 项目简介 本项目是在 Windows 系统编译运行 X86 平台 VxWorks 6.6 系统,使用的模拟软件是 qemu for Windows Host ...

  10. spark 例子groupByKey分组计算

    spark 例子groupByKey分组计算 例子描述: [分组.计算] 主要为两部分,将同类的数据分组归纳到一起,并将分组后的数据进行简单数学计算. 难点在于怎么去理解groupBy和groupBy ...