原文链接：https://developers.google.com/machine-learning/crash-course/framing

（监督式）机器学习的定义：机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。

1- 基本术语

1.1- 标签

标签是要预测的事物，即简单线性回归中的 y 变量。

标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。

1.2- 特征

特征是输入变量，即简单线性回归中的 x 变量。

简单的机器学习项目可能会使用单个特征，而比较复杂的机器学习项目可能会使用数百万个特征，按如下方式指定：

$\\{x_1, x_2, ... x_N\\}$

在垃圾邮件检测器示例中，特征可能包括：

电子邮件文本中的字词
发件人的地址
发送电子邮件的时段
电子邮件中包含“一种奇怪的把戏”这样的短语。

1.3- 样本

样本是指数据的特定实例：x。样本分为两类：有标签样本和无标签样本。

有标签样本同时包含特征和标签。即：labeled examples: {features, label}: (x, y)

使用有标签样本来训练模型。

在垃圾邮件检测器示例中，有标签样本是用户明确标记为“垃圾邮件”或“非垃圾邮件”的各个电子邮件。

无标签样本包含特征，但不包含标签。即：unlabeled examples: {features, ?}: (x, ?)

在使用有标签样本训练了模型之后，使用该模型来预测无标签样本的标签。在垃圾邮件检测器示例中，无标签样本是用户尚未添加标签的新电子邮件。

1.4- 模型

模型定义了特征与标签之间的关系。

例如，垃圾邮件检测模型可能会将某些特征与“垃圾邮件”紧密联系起来。

模型生命周期的两个阶段：

训练表示创建或学习模型。也就是说，向模型展示有标签样本，让模型逐渐学习特征与标签之间的关系。
推断表示将训练后的模型应用于无标签样本。也就是说，使用训练后的模型来做出有用的预测 (y')。例如，在推断期间，可以针对新的无标签样本预测 medianHouseValue。

1.5- 回归与分类

回归模型可预测连续值。例如，回归模型做出的预测可回答如下问题：

加利福尼亚州一栋房产的价值是多少？
用户点击此广告的概率是多少？

分类模型可预测离散值。例如，分类模型做出的预测可回答如下问题：

某个指定电子邮件是垃圾邮件还是非垃圾邮件？
这是一张狗、猫还是仓鼠图片？

2- 理解

问题

1- 假设您想开发一种监督式机器学习模型来预测指定的电子邮件是“垃圾邮件”还是“非垃圾邮件”。以下哪些表述正确？

主题标头中的字词适合做标签。
未标记为“垃圾邮件”或“非垃圾邮件”的电子邮件是无标签样本。
我们将使用无标签样本来训练模型。
有些标签可能不可靠。

2- 假设一家在线鞋店希望创建一种监督式机器学习模型，以便为用户提供合乎个人需求的鞋子推荐。也就是说，该模型会向小马推荐某些鞋子，而向小美推荐另外一些鞋子。以下哪些表述正确？

鞋码是一项实用特征。
“用户点击鞋子描述”是一项实用标签。
鞋的美观程度是一项实用特征。
用户喜欢的鞋子是一种实用标签。

解答

1- 假设您想开发一种监督式机器学习模型来预测指定的电子邮件是“垃圾邮件”还是“非垃圾邮件”。以下哪些表述正确？

主题标头中的字词可能是优质特征，但不适合做标签。
由于标签由“垃圾邮件”和“非垃圾邮件”这两个值组成，因此任何尚未标记为垃圾邮件或非垃圾邮件的电子邮件都是无标签样本。
将使用有标签样本来训练模型。然后，可以对无标签样本运行训练后的模型，以推理无标签的电子邮件是垃圾邮件还是非垃圾邮件。
当然。此数据集的标签可能来自将特定电子邮件标记为垃圾邮件的电子邮件用户。由于很少的用户会将每一封可疑的电子邮件都标记为垃圾邮件，因此可能很难知道某封电子邮件是否是垃圾邮件。此外，有些垃圾内容发布者或僵尸网络可能会故意提供错误标签来误导模型。

鞋码是一种可量化的标志，可能对用户是否喜欢推荐的鞋子有很大影响。例如，如果小马穿 43 码的鞋，则该模型不应该推荐 39 码的鞋。
用户可能只是想要详细了解他们喜欢的鞋子。因此，用户点击次数是可观察且可量化的指标，可用来训练合适的标签。
合适的特征应该是具体且可量化的。美观程度是一种过于模糊的概念，不能作为实用特征。美观程度可能是某些具体特征（例如样式和颜色）的综合表现。样式和颜色都比美观程度更适合用作特征。
喜好不是可观察且可量化的指标。我们能做到最好的就是针对用户的喜好来搜索可观察的代理指标。

3- 关键词

分类模型 (classification model)
一种机器学习模型，用于区分两种或多种离散类别。
例如，某个自然语言处理分类模型可以确定输入的句子是法语、西班牙语还是意大利语。
请与回归模型进行比较。

回归模型 (regression model)
一种模型，能够输出连续的值（通常为浮点值）。
请与分类模型进行比较，分类模型会输出离散值，例如“黄花菜”或“虎皮百合”。

样本 (example)
数据集的一行。一个样本包含一个或多个特征，此外还可能包含一个标签。
另请参阅有标签样本和无标签样本。

特征 (feature)
在进行预测时使用的输入变量。

推断 (inference)
在机器学习中，推断通常指以下过程：通过将训练过的模型应用于无标签样本来做出预测。
在统计学中，推断是指在某些观测数据条件下拟合分布参数的过程。

标签 (label)
在监督式学习中，标签指样本的“答案”或“结果”部分。
有标签数据集中的每个样本都包含一个或多个特征以及一个标签。
例如，在房屋数据集中，特征可能包括卧室数、卫生间数以及房龄，而标签则可能是房价。
在垃圾邮件检测数据集中，特征可能包括主题行、发件人以及电子邮件本身，而标签则可能是“垃圾邮件”或“非垃圾邮件”。

模型 (model)
机器学习系统从训练数据学到的内容的表示形式。
多含义术语，可以理解为“一种TensorFlow图，用于表示预测的计算结构”或者“该TensorFlow图的特定权重和偏差，通过训练决定"。

训练 (training)
确定构成模型的理想参数的过程。

机器学习入门01 - 框架处理(Framing)的更多相关文章

【机器学习】机器学习入门01 - kNN算法
0. 写在前面近日加入了一个机器学习的学习小组,每周按照学习计划学习一个机器学习的小专题.笔者恰好近来计划深入学习Python,刚刚熟悉了其基本的语法知识(主要是与C系语言的差别),决定以此作为对P ...
机器学习入门 - Google机器学习速成课程 - 笔记汇总
机器学习入门 - Google机器学习速成课程 https://www.cnblogs.com/anliven/p/6107783.html MLCC简介前提条件和准备工作完成课程的下一步机器学 ...
[转]MNIST机器学习入门
MNIST机器学习入门转自:http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/mnist_beginners.html?plg_ ...
【爬虫入门01】我第一只由Reuests和BeautifulSoup4供养的Spider
[爬虫入门01]我第一只由Reuests和BeautifulSoup4供养的Spider 广东职业技术学院欧浩源 1.引言网络爬虫可以完成传统搜索引擎不能做的事情,利用爬虫程序在网络上取得数据 ...
tensorfllow MNIST机器学习入门
MNIST机器学习入门这个教程的目标读者是对机器学习和TensorFlow都不太了解的新手.如果你已经了解MNIST和softmax回归(softmax regression)的相关知识,你可以阅读 ...
机器学习入门:K-近邻算法
机器学习入门:K-近邻算法先来一个简单的例子,我们如何来区分动作类电影与爱情类电影呢?动作片中存在很多的打斗镜头,爱情片中可能更多的是亲吻镜头,所以我们姑且通过这两种镜头的数量来预测这部电影的主题. ...
TensorFlow.NET机器学习入门【1】开发环境与类型简介
项目开发环境为Visual Studio 2019 + .Net 5 创建新项目后首先通过Nuget引入相关包: SciSharp.TensorFlow.Redist是Google提供的TensorF ...
TensorFlow.NET机器学习入门【0】前言与目录
曾经学习过一段时间ML.NET的知识,ML.NET是微软提供的一套机器学习框架,相对于其他的一些机器学习框架,ML.NET侧重于消费现有的网络模型,不太好自定义自己的网络模型,底层实现也做了高度封装. ...
TensorFlow.NET机器学习入门【2】线性回归
回归分析用于分析输入变量和输出变量之间的一种关系,其中线性回归是最简单的一种. 设: Y=wX+b,现已知一组X(输入)和Y(输出)的值,要求出w和b的值. 举个例子:快年底了,销售部门要发年终奖了, ...

随机推荐

python学习——用dictionary实现通过地区查询邮编
刚刚学习了python的基本语法,对自己学习的内容进行实践下. dictionary字典(类似map) 总结:1.dictionary比list读取速度快,但是占用内存大,适合存放不需修改,经常查询的 ...
logstash 默认时间少8小时的修改办法
logstash 的配置文件添加 filter { ruby { code => "event.set('timestamp', event.get('@timestamp').tim ...
sha1 算法源码
原来指望sha1 这种烂大街的算法不会出什么幺蛾子结果<linux C编程实战Code>bt章节的sha1 代码我在linux和windows下的结果不一样然后用了哈希工具查看了下 ...
Go的并发调度原理
Go语言是为并发而生的语言,Go语言是为数不多的在语言层面实现并发的语言:也正是Go语言的并发特性,吸引了全球无数的开发者. 并发(concurrency)和并行(parallellism) 并发 ...
Filezilla server配置FTP服务器中的各种问题与解决方法
转至;https://www.jb51.net/article/122171.htm 安装文件以及补丁下载公司很多资料需要通过ftp上传,那么就需要配置一个FTP服务器,找了一台Windows服务器 ...
mysql数据库保存sesison会话
<?php header('Content-type:text/html;charset=gbk;'); date_default_timezone_set('PRC'); class db{ ...
Oracle 12c 安装问题及解决方案
1. 介绍今天在我的开发电脑上安装Oracle12c,电脑环境是windows10家庭中文版,安装的Oracle数据库版本Oracle(12.1.0.2.0) - Standard Edition ...
linux 安装mysql5.7.25
这两天一直在弄mysql.一直安装.终于可以安装一个成一个了.哈哈哈自己又写了个脚本希望对大家有所帮助脚本非常简单不错操作起来也很容易重要提示我的linux 是centos7.不是6. 7和 ...
aircrakf
airmon-ng start wlan0 airodump-ng wlan0mon#find the wifi airodump-ng -w yakoazz -c 1 --bssid BE:5F:F ...
Windows和Office激活汇总
Windows和Office是常用的软件.多数情况下,即使不激活,也会使用一部分功能.今天来看一下很多前辈的工作成果. 1. Windows 7&10 1.1 永久激活通过key 分享几个常 ...

机器学习入门01 - 框架处理(Framing)