为什么我们需要不断的开发不同的机器学习模型 —— Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?

引用：

作者：xyzh

https://www.zhihu.com/question/26726794/answer/151282052

写给懒得看的人：

没有最好的分类器，只有最合适的分类器。

随机森林平均来说最强，但也只在9.9%的数据集上拿到了第一，优点是鲜有短板。

SVM的平均水平紧随其后，在10.7%的数据集上拿到第一。

神经网络（13.2%）和boosting（~9%）表现不错。

数据维度越高，随机森林就比AdaBoost强越多，但是整体不及SVM[2]。

数据量越大，神经网络就越强。

-----------------------------------------------------------------

多年前读书的时候问过师兄这样一个问题，那就是为什么现在已经有了这么多的机器学习模型我们还要继续研究开发新的机器学习模型，这个问题估计也是很多刚接触机器学习的小白会问到的问题，当时师兄给我解释说其实不同的模型对不同的任务和数据其性能表现不同的，我们需要不断的研究新的模型来解决新的任务和数据；这个或许是我最早对这个问题的思考。

其实，早就有论文在理论层面给出过解释，那就是每个模型都有“归纳偏置”，即“inductive bias”，说的直白些就是如果一个模型对所有假设都采用同样的偏好，那么这个模型将不具备任何泛化能力，也就是说任何一个模型其实都是有着自身的假设偏好的，这也说明对于一个任务和数据来说不同的模型会有着不同的性能表现的，所以不存在一个适用于所有环境的模型，对于不同的任务都会有更适合的模型。

对于传统的机器学习任务来说可供选择的模型还是比较少的，就如论文《Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?》给出的那些算法模型那样，可以说存在某类问题上平均表现最好的模型，但是不存在说某个模型一定在某类问题上比另个模型表现更好。

可以说这篇论文《Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?》以实证的角度进行用实验数据说明的方法来解释了这样一个问题，你就是不存在最后的模型算法，只存在最适合的算法模型，这也是为什么存在“算法模型研究”这个方向的原因。

==========================================

论文：

《Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?》

论文地址：

https://jmlr.org/papers/volume15/delgado14a/delgado14a.pdf

=============================================

参考：

https://www.zhihu.com/question/26726794/answer/151282052

https://zhuanlan.zhihu.com/p/25327755

=============================================

为什么我们需要不断的开发不同的机器学习模型 —— Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?的更多相关文章

JavaScript 应用开发 #1：理解模型与集合
在 < Backbone 应用实例 > 这个课程里面,我们会一起用 JavaScript 做一个小应用,它可以管理任务列表,应用可以创建新任务,编辑还有删除任务等等.这个实例非常好的演示了 ...
运维开发笔记整理-Django模型语法
运维开发笔记整理-Django模型语法作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.模型基本概念 1>.什么是模型模型是你的数据唯一的,权威的信息源.它包含你所存储数 ...
HoloLens开发手记 - 应用程序模型 App model
HoloLens使用Universal Windows Platform (UWP)提供的应用模型.UWP应用模型定义了应用如何被安全和完全地安装.更新.版本控制和移除.它管理了应用生命周期 - 应用 ...
Fireworks Extension —— 开发篇（Dom模型）
如上一篇博文所叙述的,一个很偶然的机会,我得知可以使用Javascript开发Fireworks插件,又注意到了视觉小伙伴的需求,于是便上手开发Fireworks Extension了. 很幸运的,在 ...
【嵌入式开发】写入开发板Linux系统-模型S3C6410
笔者 : 万境绝尘转载请著名出处最终拿到板子了, 嵌入式开发正式开启. 板子型号 : 三星 S3C6410 基于ARM11, 指令集基于arm6指令集; 为毛不是 Cortext A9的板子; 烧 ...
sklearn：Python语言开发的通用机器学习库
引言:深入理解机器学习并全然看懂sklearn文档,须要较深厚的理论基础.可是.要将sklearn应用于实际的项目中,仅仅须要对机器学习理论有一个主要的掌握,就能够直接调用其API来完毕各种机器学习问 ...
解锁云原生 AI 技能 - 开发你的机器学习工作流
按照上篇文章<解锁云原生 AI 技能 | 在 Kubernetes 上构建机器学习系统>搭建了一套 Kubeflow Pipelines 之后,我们一起小试牛刀,用一个真实的案例,学习如何 ...
0009 基于DRF框架开发（02 创建模型）
上一节介绍了DRF开发的基本流程,共五个步骤: 1 创建模型 2 创建序列化器 3 编写视图 4 配置URL 5 运行测试本节主要讲解创建模型. 构建学校,教师,学生三个模型,这三个模型之间的关系是 ...
软件工程结组开发软件特色——NABC模型
特点:通过学生提前点餐,可以让摊主在准备食材的时候有个参照,当准备的食材比较少的时候可以及时回家取来. N(Need):每当放学的时候,学校外边的卖饭摊位总是挤满了人,好多同学都要排好长的队等比较长的 ...
IOS开发之动态获取模型的属性值
#import "model.h" #import <objc/runtime.h> @implementation model +(instancetype)mode ...

随机推荐

Vue学习：2.V标签综合2
接上一篇... V标签综合使用:书架案例功能: 实现列表的渲染和删除思路: 使用 v-for 渲染数据列表,并在每个列表项内放置一个绑定了 del方法的"删除"按钮,点击按钮时 ...
window10设置保护眼睛的颜色
1.调出运行菜单.右击开始键选择运行,或者同时按下键盘上的WIN+R打开运行框,输入 regedit 回车转到注册表编辑器.2.选择第二项 HKEY_CURRENT_USER 点击进入.进入后点击 C ...
OpenFOAM v2306 安装
参考 https://develop.openfoam.com/Development/openfoam/-/wikis/precompiled/debian curl https://dl.open ...
python基础-入门必备知识
1 标识符标识符是编程时使用的名字,用于给变量.函数.语句块等命名,Python 中标识符由字母.数字.下划线组成,不能以数字开头,区分大小写. 以下划线开头的标识符有特殊含义,单下划线开头的标识符 ...
Linux基本编程环境安装
前言可以采用组合式安装,如:https://oneinstack.com/ 选择好要安装的,然后复制安装命令就可以一键搞定很多东西了 VMware安装Centos7 按照物理机CPU实际情况,选择处 ...
在Docker中搭建rabbit MQ集群（Mac + OrbStack）
我以为用docker搭建一个rabbitMq集群会非常简单,但是结果却出乎意料,我花了差不多两个半天才搞定.这还是依赖了AI的协助,否则难度不敢想象. 我的环境是Mac上的OrbStack.用了Kim ...
gdb 根据c语言二进制文件进程号查看内部多线程任务
C语言二进制文件 a 编译时添加了 -g (gdb 调试), 但是 gdb a 这种方式有时不容易复现一些场景.这时可以先正常启动 a, 然后根据 a 的进程号启动gdb调试. # 1. 找到程序进程 ...
SpringBoot 对接美团闪购，检验签名，获取推送订单参数，text转json
接口文档地址订单推送(已确定订单):https://open-shangou.meituan.com/home/docDetail/177 签名算法:https://opendj.meituan.c ...
C++中的引用（Reference）
1. 引用(Reference) 在 C++ 中,引用(Reference)是一个变量的别名. 它允许你通过不同的名字访问同一个变量. 与指针不同,引用在定义时必须被初始化,并且一旦绑定到某个变量,之 ...
PixiJS源码分析系列：第一章从最简单的例子入手
从最简单的例子入手分析 PixiJS 源码我一般是以使用角度作为切入点查看分析源码,例子中用到什么类,什么方法,再入源码. 高屋建瓴的角度咱也做不到啊,毕竟水平有限 pixijs 的源码之前折腾了半 ...

为什么我们需要不断的开发不同的机器学习模型 —— Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?

为什么我们需要不断的开发不同的机器学习模型 —— Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?的更多相关文章

随机推荐

热门专题