一、LR

LR,DT,SVM都有自身的特性，首先来看一下LR，工业界最受青睐的机器学习算法，训练、预测的高效性能以及算法容易实现使其能轻松适应工业界的需求。LR还有个非常方便实用的额外功能就是它并不会给出离散的分类结果，而是给出该样本属于各个类别的概率（多分类的LR就是softmax）,可以尝试不同的截断方式来在评测指标上进行同一模型的性能评估，从而得到最好的截断分数。LR不管是实现还是训练或者预测都非常高效，很轻松的handle大规模数据的问题(同时LR也很适合online learning)。此外，LR对于样本噪声是robust的，对于“mild”的多重共线性问题也不会受到太大影响，在特征的多重共线性很强的情况下，LR也可以通过L2正则化来应对该问题，虽然在有些情况下（想要稀疏特征）L2正则化并不太适用。

但是，当我们有大量的特征以及部分丢失数据时，LR就开始费劲了。太多的分类变量（变量值是定性的，表现为互不相容的类别或属性，例如性别，年龄段(1,2,3,4,5)等）也会导致LR的性能较差（这个时候可以考虑做离散化，其实肯定是要做离散化的）。还有一种论调是LR使用所有的样本数据用于训练，这引发了一个争论：明显是正例或者负例的样本(这种样本离分类边界较远，不大会影响分类的curve)不太应该被考虑太多，模型理想情况是由分类边界的样本决定的（类似SVM的思想），如下图。还有一个情况就是当特征是非线性时，需要做特征变换，这可能会导致特征维度急剧上升。下面是我认为的LR的一些利弊：

LR的优势：

对观测样本的概率值输出
实现简单高效
多重共线性的问题可以通过L2正则化来应对
大量的工业界解决方案
支持online learning（个人补充）

LR的劣势:

特征空间太大时表现不太好
对于大量的分类变量无能为力
对于非线性特征需要做特征变换
依赖所有的样本数据

二、决策树

　　决策树对于单调的特征变换是”indifferent”的，也就是说特征的单调变换对于决策树来说不会产生任何影响，因为决策树是通过简单的使用矩形切分特征空间的，单调的特征变换只是做了特征空间的缩放而已。由于决策树是的分支生成是使用离散的区间或类别值的，所以对于不管多少分类变量都能够轻松适应，而且通过决策树生成出来的模型很直观而且容易解释（随着决策树的分支解释即可），而且决策树也可以通过计算落到该叶子类目的标签平均值获得最终类别的概率输出。但是这就引发了决策树的最大问题：非常容易过拟合，我们很容易就会生成一个完美拟合训练集的模型，但是该模型在测试集合上的表现却很poor，所以这个时候就需要剪枝以及交叉验证来保证模型不要过拟合了。

　　过拟合的问题还可以通过使用随机森林的方式来解决，随机森林是对决策树的一个很smart的扩展，即使用不同的特征集合和样本集合生成多棵决策树，让它们来vote预测样本的标签值。但是随机森林并没有像单纯决策树一样的解释能力。

DT的优势：

直观的决策过程
能够处理非线性特征

DT的劣势：

极易过拟合（使用RF可以一定程度防止过拟合，但是只要是模型就会过拟合！）
无法输出score，只能给出直接的分类结果

三、SVM

　　SVM最大的好处就是它只依赖于处于分类边界的样本来构建分类面，可以处理非线性的特征，同时，只依赖于决策边界的样本还可以让他们能够应对”obvious”样本缺失的问题。由于SVM能够轻松搞定大规模的特征空间所以在文本分析等特征维度较高的领域是比较好的选择。SVM的可解释性并不像决策树一样直观，如果使用非线性核函数，SVM的计算代价会高很多。

SVM的优势：

可以处理高维特征
使用核函数轻松应对非线性特征空间
分类面不依赖于所有数据

SVM的劣势：

对于大量的观测样本，效率会很低

找到一个“合适”的核函数还是很tricky的

为什么将原问题转为对偶问题？

对偶问题将原始问题中的约束转为了对偶问题中的等式约束（KKT）
方便核函数的引入
改变了问题的复杂度。由求特征向量w转化为求比例系数a，在原始问题下，求解的复杂度与样本的维度有关，即w的维度。在对偶问题下，只与样本数量有关。

SVM、LR、决策树的对比的更多相关文章

【SVM、决策树、adaboost、LR对比】
一.SVM 1.应用场景: 文本和图像分类. 2.优点: 分类效果好:有效处理高维空间的数据:无局部最小值问题:不易过拟合(模型中含有L2正则项): 3.缺点: 样本数据量较大需要较长训练时间:噪声不 ...
[Python] 波士顿房价的7种模型(线性拟合、二次多项式、Ridge、Lasso、SVM、决策树、随机森林)的训练效果对比
目录 1. 载入数据列解释Columns: 2. 数据分析 2.1 预处理 2.2 可视化 3. 训练模型 3.1 线性拟合 3.2 多项式回归(二次) 3.3 脊回归(Ridge Regressi ...
美团店铺评价语言处理以及分类（tfidf，SVM，决策树，随机森林，Knn，ensemble）
第一篇数据清洗与分析部分第二篇可视化部分, 第三篇朴素贝叶斯文本分类支持向量机分类支持向量机网格搜索临近法决策树随机森林 bagging方法 import pandas as pd ...
svm、logistic regression对比
相同点:都是线性分类算法不同点: 1.损失函数不同 LR:基于“给定x和参数,y服从二项分布”的假设,由极大似然估计推导 SVM: hinge loss + L2 regularization的标准 ...
opencv7-ml之svm
因为<opencv_tutorial>这部分只有两个例子,就先暂时介绍两个例子好了,在refman中ml板块有:统计模型.普通的贝叶斯分类器.KNN.SVM.决策树.boosting.随机 ...
[Example of Sklearn] - 分类对比
refrence :http://cloga.info/python/2014/02/07/classify_use_Sklearn/ 加载数据集这里我使用pandas来加载数据集,数据集采用kag ...
Logistic Regression Vs Decision Trees Vs SVM: Part I
Classification is one of the major problems that we solve while working on standard business problem ...
GBDT+LR算法解析及Python实现
1. GBDT + LR 是什么本质上GBDT+LR是一种具有stacking思想的二分类器模型,所以可以用来解决二分类问题.这个方法出自于Facebook 2014年的论文 Practical L ...
CTR预估-GBDT与LR实现
1.来源本质上 GBDT+LR 是一种具有 stacking 思想的二分类器模型,所以可以用来解决二分类问题.这个方法出自于 Facebook 2014 年的论文 Practical Lessons ...

随机推荐

Asp.NET调用有道翻译API
调用有道API进行翻译,如图: HTML: <%@ Page Language="C#" AutoEventWireup="true" CodeFile= ...
爬虫----爬虫解析库Beautifulsoup模块
一:介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你 ...
关于device tree中的interrupts选项
http://blog.csdn.net/jiang__jiang/article/details/52064715 随着Linux的发展,dts技术是大势所趋.里面的interrupts = < ...
DB2 Version 10.5 补丁下载
DB2 Version 10.5 for Linux, UNIX, and Windows fix pack summary https://www.ibm.com/support/knowledge ...
js模拟浏览器加载效果 pace.js 中文官方文档
2017年2月20日12:11:25 官网URL:http://github.hubspot.com/pace/docs/welcome/ 文档 http://github.hubspot.com/p ...
下载文件的协议：HTTP、FTP、P2P
本篇学习笔记以HTTP.FTP.P2P叙述与网上下载文件有关的协议需要掌握的要点: 下载一个文件可以使用 HTTP 或 FTP,这两种都是集中下载的方式,而 P2P 则换了一种思路,采取非中心化下载 ...
Flink - Asynchronous I/O
https://docs.google.com/document/d/1Lr9UYXEz6s6R_3PWg3bZQLF3upGaNEkc0rQCFSzaYDI/edit // create the ...
LeetCode 832 Flipping an Image 解题报告
题目要求 Given a binary matrix A, we want to flip the image horizontally, then invert it, and return the ...
Java问题汇总
一.java编译通过,为什么运行却提示找不到或无法加载主类使用运行窗口编译通过,但运行提示通过eclipse可以运行原因:代码中有package javaLearn:编译时在javaLearn目 ...
使用U盘为虚拟机安装系统
前提:使用虚拟机安装WIN8系统时,由于WIN8镜像文件大于4G无法使用虚拟安装,所以使用U盘安装. 1.装有U盘启动的WINPe系统 (1)下载老毛桃U盘启动盘制作工具 (2)U盘清空 2.虚拟机 ...

SVM、LR、决策树的对比

一、LR

二、决策树

三、SVM

SVM、LR、决策树的对比的更多相关文章

随机推荐

热门专题