AI学习---分类算法[K-近邻 + 朴素贝叶斯 + 决策树 + 随机森林 ]

【AI学习---分类算法[K-近邻 + 朴素贝叶斯 + 决策树 + 随机森林 ]】的更多相关文章

AI学习---分类算法[K-近邻 + 朴素贝叶斯 + 决策树 + 随机森林 ]

分类算法:对目标值进行分类的算法 1.sklearn转换器(特征工程)和预估器(机器学习) 2.KNN算法(根据邻居确定类别 + 欧氏距离 + k的确定),时间复杂度高,适合小数据 3.模型选择与调优 4.朴素贝叶斯算法(假定特征互独立 + 贝叶斯公式(概率计算) + 拉普拉斯平滑系数),假定独立,对缺失数据不敏感,用于文本分类 5.决策树(找到最高效的决策顺序--信息增益(关键特征=信息熵-条件熵) + 可以可视化) 6.随机森林(bootstarp(又放回…

检测用户命令序列异常——使用LSTM分类算法【使用朴素贝叶斯，类似垃圾邮件分类的做法也可以，将命令序列看成是垃圾邮件】

通过搜集 Linux 服务器的 bash 操作日志, 通过训练识别出特定用户的操作习惯, 然后进一步识别出异常操作行为. 使用 SEA 数据集涵盖 70 多个 UNIX 系统用户的行为日志, 这些数据来自 UNIX 系统 acct 机制记录的用户使用的命令. SEA 数据集中每个用户都采集了 15000 条命令, 从用户集合中随机抽取 50 个用户作为正常用户, 剩余用户的命令块中随机插入…

第4章最基础的分类算法-k近邻算法

思想极度简单应用数学知识少效果好(缺点?) 可以解释机器学习算法使用过程中的很多细节问题更完整的刻画机器学习应用的流程 distances = [] for x_train in X_train: d=sqrt(np.sum((x_train-x)**2)) distances.append(d) distances=[sqrt(np.sum((x_train-x)**2)) for x_train in X_train] 可以说kNN是一个不需要训练过程的算法 K近邻算法是非常特殊的,可…

机器学习算法实践：朴素贝叶斯 (Naive Bayes)（转载）

前言上一篇<机器学习算法实践:决策树 (Decision Tree)>总结了决策树的实现,本文中我将一步步实现一个朴素贝叶斯分类器,并采用SMS垃圾短信语料库中的数据进行模型训练,对垃圾短信进行过滤,在最后对分类的错误率进行了计算. 与决策树分类和k近邻分类算法不同,贝叶斯分类主要借助概率论的知识来通过比较提供的数据属于每个类型的条件概率, 将他们分别计算出来然后预测具有最大条件概率的那个类别是最后的类别.当然样本越多我们统计的不同类型的特征值分布就越准确,使用此分布进行预测则会更加准确.…

[机器学习] 分类 --- Naive Bayes（朴素贝叶斯）

Naive Bayes-朴素贝叶斯 Bayes' theorem(贝叶斯法则) 在概率论和统计学中,Bayes' theorem(贝叶斯法则)根据事件的先验知识描述事件的概率.贝叶斯法则表达式如下所示 P(A|B) – 在事件B下事件A发生的条件概率 P(B|A) – 在事件A下事件B发生的条件概率 P(A), P(B) – 独立事件A和独立事件B的边缘概率顺便提一下,上式中的分母P(B)可以根据全概率公式分解为: Bayesian inferenc(贝叶斯推断) 贝叶斯定理的许多应用之一就是…

【学习笔记】分类算法-k近邻算法

k-近邻算法采用测量不同特征值之间的距离来进行分类. 优点:精度高.对异常值不敏感.无数据输入假定缺点:计算复杂度高.空间复杂度高使用数据范围:数值型和标称型用例子来理解k-近邻算法电影可以按照题材分类,每个题材又是如何定义的呢?那么假如两种类型的电影,动作片和爱情片.动作片有哪些公共的特征?那么爱情片又存在哪些明显的差别呢?我们发现动作片中打斗镜头的次数较多,而爱情片中接吻镜头相对更多.当然动作片中也有一些接吻镜头,爱情片中也会有一些打斗镜头.所以不能单纯通过是否存在打斗镜头或者接吻镜…

分类算法----k近邻算法

K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. 用官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中.根据这个说法,咱们来看下引自维基百科上的…