3--朴素贝叶斯

原理

朴素贝叶斯本质上就是通过贝叶斯公式来对得到类别概率，但区别于通常的贝叶斯公式，朴素贝叶斯有一个默认条件，就是特征之间条件独立。

条件概率公式：

\[P(B|A) = \frac{P(A|B)P(B)}{P(A)}
\]

贝叶斯公式可以写成：

\[p(y_i|x) = \frac{p(x|y_i)p(y_i)}{p(x)}
\]

如果A和B相对于C是条件独立的，那么满足\(P(A|C) = P(A|B,C)\)。如果样本的两个特征\(x_1\)\(x_2\)相对于y条件独立，那么可以得到\(p(x_1,x_2|y) = p(x_1|y)p(x_2|y)\)。

通过条件独立公式，上述贝叶斯公式中，\(p(x|y_i)\)的计算则可以简化成如下公式：

实现细节

对于离散类型数据， \(p(x_i|y)\)可以通过计算特征的数量得到概率。

\[p(x_i|y) = \frac{N_{yi}}{N_y}
\]

唯一需要注意的就是拉普拉斯修正（Laplacian Correction），如果莫一个新的特征x从来没有出现过，那么分母就有可能为0，为了避免这种情况，可以做如下操作：

\[p(x_i|y)= \frac{N_{yi}+\alpha}{N_y+an}
\]

而对于连续型数据，计算方法则不太相同，高斯贝叶斯认为数据服从高斯分布，所以默认为某一列特征服从高斯分布，然后通过高斯概率密度函数，就可以得到相应的概率。

假设某一列特征服从整体分布

\[p(x_i|y)\sim N(\mu_{y,i},\sigma_{y,i}^2)
\]

其中\(\mu\)和\(\sigma\)为y类样本在样本x第i个属性的均值和方差，那么其计算方法如下：

首先计算出标签y在特征\(x_i\)上的均值和方差，然后就可以得到其概率的计算公式了：

\[p(x_i|y) = \frac{1}{\sqrt{2\pi}\sigma_{y,i}}exp(-\frac{(x_i-\mu_{y,i})^2}{2\sigma^2_{y,i}})
\]

当具体计算的时候，可以直接对区间进行积分，然后进行化简，可以得到最终的概率值：

\(P(x_i<x<x_i+\epsilon) = \int_{x_i}^{x_i+\epsilon}f(x)dx \approx f(x_i)*\epsilon\)

这里就是使用高斯概率密度函数对概率进行估计的朴素贝叶斯计算方法，对于sklearn中的GaussionNB函数。

sklearn中的朴素贝叶斯方法

sklearn中的朴素贝叶斯有几种方法：

类	描述
naive_bayes.BernoullNB	伯努利分布下的朴素贝叶斯
naive_bayes.GaussianNB	高斯分布下的朴素贝叶斯
naive_bayes.MultinomialNB	多项式分布下的朴素贝叶斯
naive_bayes.ComplementNB	补集朴素贝叶斯
linear_model.BayesianRidge	贝叶斯岭回归，在参数估计过程中使用贝叶斯回归技术来包括正则化参数

sklearn中的朴素贝叶斯算法，就如上述所提到的，对于连续型变量，可以使用高斯正太分布进行概率估计（这里对应高斯朴素贝叶斯），当然可以使用其他不同的分布进行概率估计，比如使用伯努利分布估计的话，则对应下表中的伯努利朴素贝叶斯算法。也就是说，其差别主要在于使用不同的方法来估计概率。

使用示例：

from sklearn import naive_bayes as nb

from sklearn.preprocessing import LabelEncoder

#由于sklearn中的朴素贝叶斯默认不支持字符串形式的特征，需要将字符串编码成数字特征，

所以这里可以使用LabelEncoder，例如下面所示，会自动将字符串从0到N进行编码

X[:,1] = LabelEncoder().fit_transform(X[:,1]))

使用朴素贝叶斯：

model = nb.GaussianNB()

model.fit(X,y)

机器学习Sklearn系列：（四）朴素贝叶斯的更多相关文章

机器学习算法实践：朴素贝叶斯 (Naive Bayes)（转载）
前言上一篇<机器学习算法实践:决策树 (Decision Tree)>总结了决策树的实现,本文中我将一步步实现一个朴素贝叶斯分类器,并采用SMS垃圾短信语料库中的数据进行模型训练,对垃圾 ...
11.sklearn中的朴素贝叶斯模型及其应用
#1.使用朴素贝叶斯模型对iris数据集进行花分类 #尝试使用3种不同类型的朴素贝叶斯: #高斯分布型,多项式型,伯努利型 from sklearn import datasets iris=data ...
【机器学习】文本分类——朴素贝叶斯Bayes
朴素贝叶斯主要用于文本分类.文本分类常见三大算法:KNN.朴素贝叶斯.支持向量机SVM. 一.贝叶斯定理贝叶斯公式思想:利用已知值来估计未知概率.已知某条件概率,如何得到两个事件交换后的概率,也就是 ...
机器学习---用python实现朴素贝叶斯算法（Machine Learning Naive Bayes Algorithm Application）
在<机器学习---朴素贝叶斯分类器(Machine Learning Naive Bayes Classifier)>一文中,我们介绍了朴素贝叶斯分类器的原理.现在,让我们来实践一下. 在 ...
sklearn中的朴素贝叶斯模型及其应用
1.(1)多项式 from sklearn.datasets import load_iris iris = load_iris() from sklearn.naive_bayes import G ...
<机器学习实战>读书笔记--朴素贝叶斯
1.朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法, 最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model, ...
Andrew Ng机器学习公开课笔记 -- 朴素贝叶斯算法
网易公开课,第5,6课 notes,http://cs229.stanford.edu/notes/cs229-notes2.pdf 前面讨论了高斯判别分析,是一种生成学习算法,其中x是连续值这里要 ...
NLP系列(4)_朴素贝叶斯实战与进阶
作者: 寒小阳 && 龙心尘时间:2016年2月. 出处:http://blog.csdn.net/han_xiaoyang/article/details/50629608 htt ...
NLP系列(4)_朴素贝叶斯实战与进阶（转）
http://blog.csdn.net/han_xiaoyang/article/details/50629608 作者: 寒小阳 && 龙心尘时间:2016年2月. 出处:htt ...

随机推荐

浅谈，seata在使用feign-url通过域名调用时分布式事务不生效的问题及解决
浅谈,seata在使用feign-url通过域名调用时分布式事务不生效的问题及解决在前几个月时,我们项目出现了分布式事务的问题,那么什么是分布式事务问题呢,简单的说,我们有俩服务A和B,它们对应 ...
Auto ML自动特征工程
Auto ML自动特征工程特征工程是在做机器学习训练的过程中必不可少的环节,特征工程就是找出对模型结果有益的特征交叉关系,通常特征工程需要耗费算法工程师大量的精力去尝试.针对这样的场景,PAI推出智 ...
如何写新的Python OP
如何写新的Python OP Paddle 通过 py_func 接口支持在Python端自定义OP. py_func的设计原理在于Paddle中的Tensor可以与numpy数组可以方便的互相转换, ...
TensorRT 7.2.1开发初步
TensorRT 7.2.1开发初步 TensorRT 7.2.1开发人员指南演示了如何使用C ++和Python API来实现最常见的深度学习层.它显示了如何采用深度学习框架构建现有模型,并使用该模 ...
JAVA面向对象详细总结
面向对象概念所有操作基于对象进行操作实现面向对象的三大特征封装.继承.多态类:具有相同特征和行为物体的统称在java中类的定义语法: [修饰符] class 类名{ 属性 ...
【无线通信篇01 | Zstack协议栈】CC2530 Zigbee Zstack协议栈组网项目及详细讲解篇
演示视频:https://www.bilibili.com/video/BV1Ew411o7Fp 物联网无线通信技术,ZigBee无线传感网络 CC2530最大的特点就是一个拥有无线收发器(RF)的单 ...
Mysql优化（出自官方文档） - 第十篇（优化InnoDB表篇）
Mysql优化(出自官方文档) - 第十篇(优化InnoDB表篇) 目录 Mysql优化(出自官方文档) - 第十篇(优化InnoDB表篇) 1 Optimizing Storage Layout f ...
vue项目使用Echarts制作项目工期甘特图
目录 1,前言 2,布局和数据部分 3,制作甘特图 1,前言项目迭代过程中,碰上一个需求,要求用甘特图的方式显示项目的工期进度,开完会我赶紧搜索一下甘特图是啥东东,大概了解之后,做出了如下样式 Ec ...
sql把一个字段中的特定字符替换成其他字符
将'0654879'替换成'0754879' UPDATE dbo.SG_Functionality SET FunctionalityCode=REPLACE(FunctionalityCode,' ...
Ubuntu安装部署Kafka
Ubuntu安装部署Kafka 环境: Ubuntu 18.04.4 LTS ,JDK1.8,kafka_2.12-2.3.1 确保已经安装了JDK,JDK安装过程不再赘述.可参考文章xxxx 一.下 ...

机器学习Sklearn系列：（四）朴素贝叶斯

3--朴素贝叶斯

原理

实现细节

sklearn中的朴素贝叶斯方法

机器学习Sklearn系列：（四）朴素贝叶斯的更多相关文章

随机推荐

热门专题