监督学习，无监督学习常用算法集合总结，引用scikit-learn库（监督篇）

why写这篇blog

最近在接触这方面的知识，但是找了许多的笔记，都感觉没有很好的总结出来，也正好当做是边学习，边复习着走。大佬轻喷。参考书目《python机器学习基础教程》

将分别从以下3方面进行总结

1.算法的作用

2.引用的方式（我这里主要是基于scikit-learn）

3.重要参数

4.优缺点

5.注意事项

监督学习算法

监督学习主要解决两种问题：回归与分类。

统一a为回归，b为分类。

（既然是总结，那概念就不过多赘述）有需要了解的概念，可以上这个网站AI知识库

直接上算法

K近邻 k-NN

理解：近朱者赤，近墨者黑

作用：回归和分类

引用方式：a：from sklearn.neighbors import KNeighborsRegressor|b： from sklearn.neighbors import KNeighborsClassifier

重要参数：n_neighbors=NN为近邻的邻居数量。数据点之间的距离默认使用欧式距离。

优缺点：模型很容易理解，通常不需要过多调节就可以得到不错的性能。使用 k-NN 算法时，对数据进行预处理是很重要的。预测速度慢且不能处理具有很多特征的数据集。

注意事项：多邻居的情况采用（voting）投票决定归属,k-NN在实践中往往不会用到。
线性回归 普通最小二乘法

理解：确定函数，给自变量，因变量为预测值。

作用：回归

引用方式：a：from sklearn.linear_model import LinearRegression

重要参数：w ， b

优缺点：无法控制复杂度，欠拟合的概率较大。

注意事项：“斜率”参数（w，也叫作权重或系数）被保存在 coef_ 属性中，而偏移或截距（b）被保存在 intercept_ 属性中。
岭回归 使用了L2正则化的线性回归

（正则化的个人拙见：加大或缩小某些特征的权值，改变其对预测结果的影响）

L2正则化：w 的所有元素都应接近于 0

理解：确定函数，给自变量，因变量为预测值。

作用：回归

重要参数：w（希望w尽量小）， b ， alpha（默认=1，增大alpha，w越趋近0）

引用方法：a ：from sklearn.linear_model import Ridge

优缺点：提高泛化能力，对小数据集的测试分数较高。如果有足够多的训练数据，正则化变得不那么重要，并且岭回归和线性回归将具有相同的性能。

注意事项：增大或减小alpha均有可能提高泛化性能，alpha 的最佳设定值取决于用到的具体数据集
lasso 使用了L1正则化的线性回归

L1正则化：某些特征被模型完全忽略，w = 0。

理解：确定函数，给自变量，因变量为预测值。

作用：回归

重要参数：w ， b ，alpha ， max_iter（运行迭代的最大次数，减小alpha时增大max_iter）

引用方法：a ：from sklearn.linear_model import Lasso

优缺点：给出更容易理解的模型，因为它只选择了一部分输入特征。

注意事项：把 alpha 设得太小，那么就会消除正则化的效果，并出现过拟合。
Logistic 回归 其本质是分类算法！！！

（默认使用L2正则化）

理解：确定函数，给自变量，y值与因变量比较大小。用于分类的线性模型

作用：分类

重要参数：C（默认=1）较小的 C 值可以让算法尽量适应“大多数”数据点，而较大的 C 值更强调每个数据点都分类正确的重要性。

引用方法：b from sklearn.linear_model import LogisticRegression

优缺点：

注意事项：理解成用于分类的线性模型。若想获得可解释性更强的模型可以更改为L1正则化LogisticRegression(C=1, penalty="l1")
线性支持向量机 线性SVM

（默认使用L2正则化）

理解：确定函数，给自变量，y值与因变量比较大小。用于分类的线性模型

作用：分类

重要参数：C（默认=1）较小的 C 值可以让算法尽量适应“大多数”数据点，而较大的 C 值更强调每个数据点都分类正确的重要性。

引用方法：b from sklearn.svm import LinearSVC

优缺点：适用于二分类问题（可以通过“一对其余”分类器进行多分类）。

注意事项：理解成用于分类的线性模型。与LogisticRegression作用极为相似。

小结

2--6均为线性模型，线性模型的主要参数是正则化参数，在回归模型中叫作 alpha，在 LinearSVC 和 Logistic-Regression 中叫作 C。如果特征数量大于样本数量，线性模型的表现通常都很好。

朴素贝叶斯分类器

这篇文章写的很好零基础学习朴素贝叶斯

优缺点：训练速度往往更快，泛化能力要比线性分类器稍差。
决策树

理解：从一层层的 if/else 问题中进行学习，并得出结论。

作用：回归和分类

重要参数：max_depth（树深），max_leaf_nodes（叶结点数目），min_samples_

leaf（结点中数据点的最小数目）均用于预剪枝。

引用方法： a: from sklearn.tree import DecisionTreeRegressor|b：from sklearn.tree import DecisionTreeClassifier

优缺点：模型很容易可视化，很容易理解，不受数据缩放的影响，即使做了预剪枝，它也经常会过拟合，泛化性能很差。

注意事项：决策树的回归不能进行外推，也就是说不能进行回归预测。可以利用 graphviz 模块读取文件，将树可视化。
随机森林

理解：本质上是许多决策树的集合。（决策树的数量和每棵树所取的特征）

作用：回归和分类

重要参数：n_estimators（构造的决策树的数量），max_features（每棵树所取的特征）

引用方法：a：from sklearn.ensemble import RandomForestRegressor |b:from sklearn.ensemble import RandomForestClassifier

优缺点：通常不需要反复调节参数就可以给出很好的结果

注意事项：固定 random_state 是很重要的，经验法则就是“在你的时间 / 内存允许的情况下尽量多”，max_features好的经验就是使用默认值。
梯度提升回归树 梯度提升机

理解：合并多个决策树来构建一个更为强大的模型，采用连续的方式构造树，每棵树都试图纠正前一棵树的错误。

作用：回归和分类

重要参数：learning_rate（学习率），n_estimators（树的数量）

引用方法：a：from sklearn.ensemble import GradientBoostingRegressor |b： from sklearn.ensemble import GradientBoostingClassifier

优缺点：需要仔细调参，通常不适用于高维稀疏数据

注意事项：梯度提升模型的 max_depth 通常都设置得很小，一般不超过 5，梯度提升回归树中没有随机化，而是用到了强预剪枝。

小结

9，10均是决策树的集成

集成：是合并多个机器学习模型来构建更强大模型的方法。由于梯度提升和随机森林两种方法在类似的数据上表现得都很好，常用的方法就是先尝试随机森林，它的鲁棒性很好。如果随机森林效果很好，但预测时间太长，或者机器学习模型精度小数点后第二位的提高也很重要，那么切换成梯度提升通常会有用。

核支持向量机 SVM

详细内容和理解SVM

理解：将线性支持向量机推广到更复杂模型。（背后的数学过于复杂）

作用：分类

重要参数：gamma（控制高斯核的宽度），C（正则化参数）。默认情况下，C=1，gamma=1/n_features

引用方法：b： from sklearn.svm import SVC

优缺点：预处理数据和调参都需要非常小心，很难检查
多层感知机 前反馈神经网路MLP

理解：广义的线性模型。

作用：回归和分类

重要参数：solver（默认=adam，还有lbfgs，sgd），层数，每层的隐单元个数

引用方法：a： from sklearn.neural_network import MLPRegressor |b：from sklearn.neural_network import MLPClassifier

优缺点：能够获取大量数据中包含的信息，并构建无比复杂的模型，需要很长的训练时间。它还需要仔细地预处理数据。

注意事项：所有流行的深度学习库也都允许使用高性能的图形处理单元（GPU），而 scikit-learn 不支持 GPU。使用 GPU 可以将计算速度加快 10 到 100倍，GPU 对于将深度学习方法应用到大型数据集上至关重要。

有很多细节的地方是没有讲清楚的，只是一个汇总方便查看。

监督学习，无监督学习常用算法集合总结，引用scikit-learn库（监督篇）的更多相关文章

《OD学算法》常用算法集合
1. 排序 (1)冒泡 (2)选择 (3)插入 (4)归并 2. 位运算 Bitmask provide an efficient way to manipulate a small set of B ...
AI之强化学习、无监督学习、半监督学习和对抗学习
1.强化学习 @ 目录 1.强化学习 1.1 强化学习原理 1.2 强化学习与监督学习 2.无监督学习 3.半监督学习 4.对抗学习强化学习(英语:Reinforcement Learning,简称 ...
【机器学习】从分类问题区别机器学习类型与初步介绍无监督学习算法 PAC
如果要对硬币进行分类,我们对硬币根据不同的尺寸重量来告诉机器它是多少面值的硬币这种对应的机器学习即使监督学习,那么如果我们不告诉机器这是多少面额的硬币,只有尺寸和重量,这时候让机器进行分类,希望机器 ...
无监督学习——K-均值聚类算法对未标注数据分组
无监督学习和监督学习不同的是,在无监督学习中数据并没有标签(分类).无监督学习需要通过算法找到这些数据内在的规律,将他们分类.(如下图中的数据,并没有标签,大概可以看出数据集可以分为三类,它就是一个 ...
<机器学习>无监督学习算法总结
本文仅对常见的无监督学习算法进行了简单讲述,其他的如自动编码器,受限玻尔兹曼机用于无监督学习,神经网络用于无监督学习等未包括.同时虽然整体上分为了聚类和降维两大类,但实际上这两类并非完全正交,很多地方 ...
监督学习 VS 无监督学习
监督学习就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为 ...
Machine Learning分类：监督/无监督学习
从宏观方面,机器学习可以从不同角度来分类是否在人类的干预/监督下训练.(supervised,unsupervised,semisupervised 以及 Reinforcement Learnin ...
易百教程人工智能python修正-人工智能无监督学习（聚类）
无监督机器学习算法没有任何监督者提供任何指导. 这就是为什么它们与真正的人工智能紧密结合的原因. 在无人监督的学习中,没有正确的答案,也没有监督者指导. 算法需要发现用于学习的有趣数据模式. 什么是聚 ...
深度｜OpenAI 首批研究成果聚焦无监督学习，生成模型如何高效的理解世界（附论文）
本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载,原文. 选自 Open AI 作者:ANDREJ KARPATHY, PIETER ABBEEL, GREG BRO ...

随机推荐

js _proto_和prototype 区别剖析
首先,要明确几个点: 1.在JS里,万物皆对象.方法(Function)是对象,方法的原型(Function.prototype)是对象.因此,它们都会具有对象共有的特点. 即:对象具有属性__pro ...
使用污点分析检查log4j问题
摘要:log4j问题的余波还在继续,为什么这个问题潜伏了这么长时间,大家一直没有发现?这里从静态分析的角度谈下log4j问题的发现. 本文分享自华为云社区<使用污点分析检查log4j问题> ...
自学linux（修改中文）STEP2
登录身份最好用普通身份登录,而不是root用户,因为root用户权限太高,容易引起安全问题. 不显示中文安装系统后,在图形化界面设置中文还是不生效.查询资料后如下: 1. 查看 linux 系统下 ...
Spring Cloud之服务注册中心搭建Eureka Server服务注册中⼼
Spring Cloud并不与Spring MVC类似是一个开源框架,而是一组解决问题的规范(个人理解).解决哪些问题呢?如下: 1)服务管理:⾃动注册与发现.状态监管 2)服务负载均衡 3)熔断 4 ...
从Spring容器的角度理解Dubbo扩展点的加载时机
对于Dubbo提供的扩展点,主程序执行的过程中并没有显示调用加载的过程,无论是自激活的Filter还是自适应的ThreadPool.那么这样的扩展点在程序运行的哪个节点调用的呢?跟踪之前性能监控扩展点 ...
【一天一个小知识10/20】Unity安卓获取麦克风并录音保存。
2021-10-20 10:42:16 #region 模块信息 // **************************************************************** ...
Linux 下 Git版本升级
一.下载需要安装的版本号 wget https://mirrors.edge.kernel.org/pub/software/scm/git/git-2.24.0.tar.gz 二.安装需求 yum ...
Devops 开发运维高级篇之微服务代码上传和代码检查
Devops 开发运维高级篇之微服务代码上传和代码检查微服务持续集成(1)-项目代码上传到Gitlab 微服务持续集成(2)-从Gitlab拉取项目源码微服务持续集成(3)-提交到SonarQub ...
selenium+python 处理只读日期控件的2种方法
前言有时候测试过程中会遇到日期控件场景,这时候需要特殊处理,下文以12306网站为例 1.处理方式通常是通过js去除只读属性(2种方法),然后通过send_keys重新写值 from time i ...
Renix绑定流详解——网络测试仪实操
一.测试环境使用测试仪模拟两台主机直接发流,中间有路由器.如下图,测试仪port1端口模拟的主机IP为10.1.1.2,port2端口模拟的主机IP为10.2.1.2 二.预约测试资源打开Reni ...