上二年级的大儿子一直在喝无乳糖牛奶,最近让他尝试喝正常牛奶,看看反应如何。三天过后,儿子说,好像没反应,我可不可以说我不对乳糖敏感了。
我说,呃,这个问题不简单啊。你知道吗,这在统计学上叫推断。
儿子很好学,居然叫我解释什么叫推断。
 
好吧,那我就来卖弄一下。
 
老早之前,听机器学习的一个podcast,是总结前一年机器学习领域发生什么事情,最后一段P主说: 我们已经总结了这一年,那我们来预测(predict)一下明年吧,不过我觉得说predict不是那么准确,应该是做一下inference比较对。
 
Hmm,我们做机器学习的一般来说,说来说去就是做预测,inference是个什么鬼。
 
推断inference是统计学上的概念。简单的理解,就是从少量的样本的统计结果,得出对总体的结论。
 
比如说有美国总统大选,有调查公司就会对一部分人进行问卷调查,问他们会选谁,然后从根据这个结果,推断出这届总统会是谁。统计学是基于概率论的,当给出结果的时候,会给出confident interval,就是可信度。这个推断做得好不好和样本的选取关系非常大,一句话样本必须有代表性。
 
听上去,和机器学习貌似很像,都差不多是预测个东西嘛。其实还是不一样的,什么才叫预测呢。举一个例子,就看出区别了。
 
比如说我们现在也知道一些样本,知道他们的年龄,性别,工作,收入,居住区域,会选谁。然后,我们从总体(population)中随便找出一个人,并且知道他的年龄,性别,工作,收入,居住区域,我们想知道他会选谁,现在做的就是预测predict。
 
预测,机器学习的定义就是,根据给定的样本,训练模型,用来预测未知的样本。
 
当然机器学习和统计学并不是分开的两学科。很多机器学习的模型是基于统计学的。比如说非常popular的贝叶斯统计模型。对于被观察事件,根据先验知识,建立分布模型,根据观察到的样本得到后验分布模型,然后再用来预测未知样本的概率分布,作出概率最大的预测,并给出可信度。和机器学习中的或回归或分类模型一起,可谓条条大路通罗马。但其实也有有交叉的,比如说最大熵算法其实是建立在以概率论为基础的信息论上的。
 
统计学是非常有意思的数学。 

推断(inference)和预测(prediction)的更多相关文章

  1. MATLAB时间序列预测Prediction of time series with NAR neural network

    具体请参考:http://lab.fs.uni-lj.si/lasin/wp/IMIT_files/neural/nn05_narnet/ 神经网络预测时间序列数据,有三种模型, 这里是给出的是第二种 ...

  2. inference和learning

    一开始对于机器学习,主要是有监督学习,我的看法是: 假定一个算法模型,然后它有一些超参数,通过喂多组数据,每次喂数据后计算一下这些超参数.最后,数据喂完了,参数取值也就得到了.这组参数取值+这个算法, ...

  3. 『计算机视觉』Mask-RCNN_推断网络终篇:使用detect方法进行推断

    一.detect和build 前面多节中我们花了大量笔墨介绍build方法的inference分支,这节我们看看它是如何被调用的. 在dimo.ipynb中,涉及model的操作我们简单进行一下汇总, ...

  4. cnn handwrite使用原生的TensorFlow进行预测

    100个汉字,放在data目录下.直接将下述文件和data存在同一个目录下运行即可. 关键参数: run_mode = "train" 训练模型用,修改为validation 表示 ...

  5. Effective HPA:预测未来的弹性伸缩产品

    作者 胡启明,腾讯云专家工程师,专注 Kubernetes.降本增效等云原生领域,Crane 核心开发工程师,现负责成本优化开源项目 Crane 开源治理和弹性能力落地工作. 余宇飞,腾讯云专家工程师 ...

  6. 机器学习入门02 - 深入了解 (Descending into ML)

    原文链接:https://developers.google.com/machine-learning/crash-course/descending-into-ml/ 线性回归是一种找到最适合一组点 ...

  7. 条件GAN论文简单解读

        条件GAN(Conditional Generative Adversarial Nets),原文地址为CGAN. Abstract     生成对抗网络(GAN)是最近提出的训练生成模型(g ...

  8. ISLR学习笔记

    目录 C1 Introduction to Statistical Learning 1.1Statistical Learning介绍: 1.1.1 估计 \(f\) 的目的:prediction和 ...

  9. Pattern Recognition And Machine Learning读书会前言

    读书会成立属于偶然,一次群里无聊到极点,有人说Pattern Recognition And Machine Learning这本书不错,加之有好友之前推荐过,便发了封群邮件组织这个读书会,采用轮流讲 ...

随机推荐

  1. 大汇总 | 一文学会八篇经典CNN论文

    本文主要是回顾一下一些经典的CNN网络的主要贡献. 论文传送门 [google团队] [2014.09]inception v1: https://arxiv.org/pdf/1409.4842.pd ...

  2. 【laravel】Eloquent 模型事件和监听方式

    所有支持的模型事件 在 Eloquent 模型类上进行查询.插入.更新.删除操作时,会触发相应的模型事件,不管你有没有监听它们.这些事件包括: retrieved 获取到模型实例后触发 creatin ...

  3. 使用Faker库生成模拟数据

    一.相关文档 该库在laravel框架中默认已经存在,无需手动进行安装.使用参考文档: https://packagist.org/packages/fzaninotto/faker 二.简单示例 & ...

  4. Java 继承与抽象类

    一.继承 1.概念 在Java中,类的继承是指在一个现有类的基础上去构建一个新的类,构建出来的新类被称作子类,现有类被称作父类,子类会自动拥有父类所有可继承的属性和方法. 2.继承的格式&使用 ...

  5. IDEA 修改快捷键和Myeclipse 快捷键一致

    介绍 我们知道IDEA这款开发工具功能很强大,为了简化开发步骤,提高开发效率,使用快捷键很显然是必不可少的,那么怎么才能使得IDEA快捷键和MyEclipse快捷键 保持相同呢? 第一种方法,一个快捷 ...

  6. 4-Pandas之数据类型与数据筛选

    一.数据类型 1.Pandas的数据类型主要结合了pandas和numpy两个模块中的数据类型,包括以下几种: float int bool datetime64[ns]------>日期类型 ...

  7. Python List index()方法

    描述 index() 函数用于从列表中找出某个值第一个匹配项的索引位置.高佣联盟 www.cgewang.com 语法 index()方法语法: list.index(x[, start[, end] ...

  8. PHP gd_info - 取得当前安装的 GD 库的信息

    gd_info — 取得当前安装的 GD 库的信息. 语法 array gd_info ( void )高佣联盟 www.cgewang.com 返回一个关联数组描述了安装的 GD 库的版本和性能. ...

  9. UOJ 422 [集训队作业2018] 小Z的礼物 min-max容斥 期望 轮廓线dp

    LINK:小Z的礼物 太精髓了 我重学了一遍min-max容斥 重写了一遍按位或才写这道题的. 还是期望多少时间可以全部集齐. 相当于求出 \(E(max(S))\)表示最后一个出现的期望时间. 根据 ...

  10. Spark Streaming高吞吐、高可靠的一些优化

    分享一些Spark Streaming在使用中关于高吞吐和高可靠的优化. 目录 1. 高吞吐的优化方式 1.1 更改序列化的方式 1.2 修改Receiver接受到的数据的存储级别 1.3 广播配置变 ...