机器学习术语


归纳总结机器学习相关的基本术语,以一批西瓜的数据为例,例如:(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),(色泽=浅白;根蒂=硬挺;敲声=清脆)。。。

  • 示例(instance)/样本(sample):对于某个事件或对象的描述(上例中的一个西瓜)
  • 数据集(data set):一组记录的合集
  • 属性(attribute)/特征feature):反映事件或对象在某方面的表现或性质的事项,如:色泽、根蒂、敲声
  • 属性值(attribute value):属性上的取值,如:“青绿","乌黑"
  • 属性空间(attribute space)/样本空间(sample space)/输入空间: 属性张成的空间
  • 特征向量(feature vector):在属性空间里每个点对应一个坐标向量,把一个示例称作特征向量。如:把"色泽”、“根蒂”、“敲声”作为三个坐标轴,则他它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置,由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个“特征向量”
  • 维数(dimensionality):描述样本参数的个数(也就是空间是几维的)
  • 学习(learning)/训练(training):从数据中学得模型的过程,这个过程通过执行某个学习算法来完成。
  • 训练数据(training data):训练过程中用到的数据
  • 训练样本(training sample):训练用到的每个样本
  • 训练集(training set):训练样本组成的集合
  • 假设(hypothesis):学得模型对应了关于数据的某种潜在规则,这种潜在规律自身,则称为“真相”或"真实“
  • 标记(label):关于示例的结果信息,比如这是一个“好瓜”。
  • 样例(example):拥有标记信息的示例,如下说明:
  • 分类(classification):预测时离散值,比如”好瓜“、"坏瓜”之类的学习任务称为分类
  • 回归(regression):若预测的是连续值,比如西瓜成熟度0.95、0.37之类的学习任务称为“回归”
  • 聚类(clustering):把训练集中的对象分为若干组,每组称为一个簇(cluster),这些自动生成的簇可能对应一些潜在的概念划分,如:“浅色瓜”、“深色瓜”,甚至“本地瓜“、”外地瓜“
  • 有监督学习(supervised learning):训练数据拥有标记,典范--分类和回归
  • 无监督学习(unsupervised learning):训练数据无标记,从数据集中自己自动发现模式和关系,典范--聚类 (先天的判断力,无需后天培养)
  • 泛化(generalization)能力:训练出来的模型适用于新样本的能力,具有强泛化能力的模型能很好地适用于整个样本空间。

常见算法分类


根据算法的功能和形式的类似性,我们可以把算法分类,比如说基于树的算法,基于神经网络的算法等等。当然,机器学习的范围非常庞大,有些算法很难明确归类到某一类。而对于有些分类来说,同一分类的算法可以针对不同类型的问题。这里,我们尽量把常用的算法按照最容易理解的方式进行分类。

回归算法: 回归算法是试图采用对误差的衡量来探索变量之间的关系的一类算法。回归算法是统计机器学习的利器。常见的回归算法包括:

  • 最小二乘法(Ordinary Least Square),
  • 逻辑回归(Logistic Regression),
  • 逐步式回归(Stepwise Regression),
  • 多元自适应回归样条(Multivariate Adaptive Regression Splines)
  • 本地散点平滑估计(Locally Estimated Scatterplot Smoothing)

基于实例的算法:基于实例的算法常常用来对决策问题建立模型,这样的模型常常先选取一批样本数据,然后根据某些近似性把新数据与样本数据进行比较。通过这种方式来寻找最佳的匹配。因此,基于实例的算法常常也被称为“赢家通吃”学习或者“基于记忆的学习”。常见的算法包括

  • k-Nearest Neighbor(KNN)
  • 学习矢量量化(Learning Vector Quantization, LVQ),
  • 以及自组织映射算法(Self-Organizing Map , SOM)

正则化方法:正则化方法是其他算法(通常是回归算法)的延伸,根据算法的复杂度对算法进行调整。正则化方法通常对简单模型予以奖励而对复杂算法予以惩罚。常见的算法包括:

  • Ridge Regression,
  • Least Absolute Shrinkage and Selection Operator(LASSO),
  • 弹性网络(Elastic Net)

决策树算法:决策树算法根据数据的属性采用树状结构建立决策模型, 决策树模型常常用来解决分类和回归问题。常见的算法包括:

  • 分类及回归树(Classification And Regression Tree, CART)
  • ID3 (Iterative Dichotomiser 3),
  • C4.5
  • Chi-squared Automatic Interaction Detection(CHAID)
  • Decision Stump
  • 随机森林(Random Forest)
  • 多元自适应回归样条(MARS)
  • 梯度推进机(Gradient Boosting Machine, GBM)

贝叶斯方法:贝叶斯方法算法是基于贝叶斯定理的一类算法,主要用来解决分类和回归问题。常见算法包括:

  • 朴素贝叶斯算法
  • 平均单依赖估计(Averaged One-Dependence Estimators, AODE)
  • Bayesian Belief Network(BBN)

基于核的算法: 基于核的算法把输入数据映射到一个高阶的向量空间, 在这些高阶向量空间里, 有些分类或者回归问题能够更容易的解决。 常见的基于核的算法包括:

  • 支持向量机(Support Vector Machine, SVM)
  • 径向基函数(Radial Basis Function ,RBF),
  • 线性判别分析(Linear Discriminate Analysis ,LDA)

聚类算法:聚类算法通常按照中心点或者分层的方式对输入数据进行归并。所以的聚类算法都试图找到数据的内在结构,以便按照最大的共同点将数据进行归类。常见的聚类算法包括:

  • k-Means算法
  • 期望最大化算法(Expectation Maximization, EM)

关联规则学习: 关联规则学习通过寻找最能够解释数据变量之间关系的规则,来找出大量多元数据集中有用的关联规则。常见算法包括 :

  • Apriori算法
  • Eclat算法

人工神经网络: 人工神经网络算法模拟生物神经网络,是一类模式匹配算法。通常用于解决分类和回归问题。人工神经网络是机器学习的一个庞大的分支,有几百种不同的算法。重要的人工神经网络算法包括:

  • 感知器神经网络(Perceptron Neural Network),
  • 反向传递(Back Propagation),
  • Hopfield网络
  • 自组织映射(Self-Organizing Map, SOM)
  • 学习矢量量化(Learning Vector Quantization, LVQ)

深度学习:  深度学习算法是对人工神经网络的发展。 在近期赢得了很多关注, 特别是百度也开始发力深度学习后, 更是在国内引起了很多关注。   在计算能力变得日益廉价的今天,深度学习试图建立大得多也复杂得多的神经网络。很多深度学习的算法是半监督式学习算法,用来处理存在少量未标识数据的大数据集。常见的深度学习算法包括:

  • 受限波尔兹曼机(Restricted Boltzmann Machine, RBN)
  • Deep Belief Networks(DBN)
  • 卷积网络(Convolutional Network),
  • 堆栈式自动编码器(Stacked Auto-encoders)

降低维度算法: 像聚类算法一样,降低维度算法试图分析数据的内在结构,不过降低维度算法是以非监督学习的方式试图利用较少的信息来归纳或者解释数据。此算法可以用于高维数据的可视化或者用来简化数据以便监督式学习使用。常见的算法包括:

  • 主成份分析(Principle Component Analysis, PCA)
  • 偏最小二乘回归(Partial Least Square Regression,PLS)
  • Sammon映射
  • 多维尺度(Multi-Dimensional Scaling, MDS)
  • 投影追踪(Projection Pursuit)

集成算法:集成算法用一些相对较弱的学习模型独立地就同样的样本进行训练,然后把结果整合起来进行整体预测。主要难点在于究竟集成哪些独立的较弱的学习模型以及如何把学习结果整合起来。是一类非常强大的算法,常见的算法包括:

  • Boosting
  • Bootstrapped Aggregation(Bagging)
  • AdaBoost
  • 堆叠泛化(Stacked Generalization, Blending)
  • 梯度推进机(Gradient Boosting Machine, GBM)
  • 随机森林(Random Forest)

    

ML(2): 术语及算法分类汇总的更多相关文章

  1. [Machine Learning] 机器学习常见算法分类汇总

    声明:本篇博文根据http://www.ctocio.com/hotnews/15919.html整理,原作者张萌,尊重原创. 机器学习无疑是当前数据分析领域的一个热点内容.很多人在平时的工作中都或多 ...

  2. paper 12:机器学习常见算法分类汇总

    机器学习无疑是当前数据分析领域的一个热点内容.很多人在平时的工作中都或多或少会用到机器学习的算法.这里南君先生为您总结一下常见的机器学习算法,以供您在工作和学习中参考. 机器学习的算法很多.很多时候困 ...

  3. Spark ML下实现的多分类adaboost+naivebayes算法在文本分类上的应用

    1. Naive Bayes算法 朴素贝叶斯算法算是生成模型中一个最经典的分类算法之一了,常用的有Bernoulli和Multinomial两种.在文本分类上经常会用到这两种方法.在词袋模型中,对于一 ...

  4. GitHub上史上最全的Android开源项目分类汇总 (转)

    GitHub上史上最全的Android开源项目分类汇总 标签: github android 开源 | 发表时间:2014-11-23 23:00 | 作者:u013149325 分享到: 出处:ht ...

  5. GitHub上史上最全的Android开源项目分类汇总

    今天在看博客的时候,无意中发现了 @Trinea 在GitHub上的一个项目 Android开源项目分类汇总 ,由于类容太多了,我没有一个个完整地看完,但是里面介绍的开源项目都非常有参考价值,包括很炫 ...

  6. Android 开源项目分类汇总(转)

    Android 开源项目分类汇总(转) ## 第一部分 个性化控件(View)主要介绍那些不错个性化的 View,包括 ListView.ActionBar.Menu.ViewPager.Galler ...

  7. Android 开源项目分类汇总

    Android 开源项目分类汇总 Android 开源项目第一篇——个性化控件(View)篇  包括ListView.ActionBar.Menu.ViewPager.Gallery.GridView ...

  8. Android开源项目分类汇总【畜生级别】[转]

    Android开源项目分类汇总 欢迎大家推荐好的Android开源项目,可直接Commit或在 收集&提交页 中告诉我,欢迎Star.Fork :) 微博:Trinea    主页:www.t ...

  9. Android开源项目分类汇总[转]

    Android开源项目分类汇总 如果你也对开源实现库的实现原理感兴趣,欢迎 Star 和 Fork Android优秀开源项目实现原理解析欢迎加入 QQ 交流群:383537512(入群理由需要填写群 ...

随机推荐

  1. maven相关资源

    http://mvnrepository.com/search?q= http://maven.aliyun.com/nexus/#welcome https://www.w3cschool.cn/m ...

  2. Openwrt WiFi Configure(1)

    1      Scope of Document This document describes how to custom wifi option 2      Requiremen 2.1     ...

  3. zoj2112&&bzoj1901

    题解: 可修改的主席树 一开始,我就按照最暴力的方法,空间nlognlogn 然后zju上面过不了,bzoj没有权限号 然后,参考了往上的论文,发现可以把初始的主席树先建好 然后,每次只需要维护修改的 ...

  4. Time-python

    1 datetime   datetime是Python处理日期和时间的标准库   1.1 datetime.datetime datetime.datetime.now()              ...

  5. 判断当前应用程序处于前台还是后台 ANDROID

    /**     *判断当前应用程序处于前台还是后台     *      * @param context * @return         */    public static boolean ...

  6. easyui 定义的右键菜单 在 浏览器中 失效.

    使用 火狐 打开 easy ui 开发的网页, 鼠标右键 没有出现 自定义的 easyUI右键菜单, 出现的是鼠标本身的右键菜单. 如果使用ie 则正常. 原因在于我 的火狐使用了解除右键限制 这个脚 ...

  7. NBUT 1222 English Game 2010辽宁省赛

    Time limit 1000 ms Memory limit 131072 kB This English game is a simple English words connection gam ...

  8. HDU 2181 哈密顿绕行世界问题(DFS)

    Problem Description 一个规则的实心十二面体,它的 20个顶点标出世界著名的20个城市,你从一个城市出发经过每个城市刚好一次后回到出发的城市. Input 前20行的第i行有3个数, ...

  9. Redis 缓存服务器

    Redis 服务器 Remote Dictionay Server   Redis是一个key-value持久化产品,通常被称为数据结构服务器. Redis的key是string类型:value可以是 ...

  10. HTTP之get post

    1.什么是URL URL的全称是Uniform Resource Locator(统一资源定位符) 通过1个URL,能找到互联网上唯一的1个资源 URL就是资源的地址.位置,互联网上的每个资源都有一个 ...