朴素贝叶斯分类法 Naive Bayes ---R

朴素贝叶斯算法

【转载时请注明来源】：http://www.cnblogs.com/runner-ljt/

Ljt 勿忘初心无畏未来

作为一个初学者，水平有限，欢迎交流指正。

朴素贝叶斯分类法是一种生成学习算法。

假设：在y给定的条件下，各特征X_i之间是相互独立的，即满足： P(x₁,x₂.....x_m| y)=∏ P(x_i| y) (该算法朴素的体现之处)

原理：贝叶斯公式

思想：对于待分类样本，求出在该样本的各特征出现的条件下，其属于每种类别的概率（P(Y_i|X)），哪种类别的概率大就将该样本判别为哪一种类别。

（P(X)为x的先验概率，与Y无关，在具体计算是分母可以直接忽略，只计算分子）

P(x_i| y)的估计

（1）特征属性为离散值

直接用每一类别中各名录出现的频率作为其概率值P(x_i|y)

（2）特征属性为连续性值

假设特征属性服从正太分布，用各类别的样本均值及标准差作为正态分布的参数。

Laplace 平滑

在训练样本中，某一特征的属性值可能没有出现，为了保证一个属性出现次数为0时，能够得到一个很小但是非0的概率值。

在计算P(x_i|y)时分子加上 P_i*U ; 分母加上 U 。

其中P_i表示x_i 出现的先验概率，数值较大的U表示这些先验值是比较重要的，数值较小的U表示这些先验值的影响较小；

一般情况下，P_i=1/N . (N为该特征所含有的属性类的数目)

R实现

包：e1071 ；函数：naiveBayes

>

> library(e1071)

> head(iris)

  Sepal.Length Sepal.Width Petal.Length Petal.Width Species

1          5.1         3.5          1.4         0.2  setosa

2          4.9         3.0          1.4         0.2  setosa

3          4.7         3.2          1.3         0.2  setosa

4          4.6         3.1          1.5         0.2  setosa

5          5.0         3.6          1.4         0.2  setosa

6          5.4         3.9          1.7         0.4  setosa

> classifier<-naiveBayes(iris[,c(1:4)],iris[,5])

> classifier

Naive Bayes Classifier for Discrete Predictors

Call:

naiveBayes.default(x = iris[, c(1:4)], y = iris[, 5])

A-priori probabilities:

iris[, 5]

    setosa versicolor  virginica

 0.3333333  0.3333333  0.3333333 

Conditional probabilities:

            Sepal.Length

iris[, 5]     [,1]      [,2]

  setosa     5.006 0.3524897

  versicolor 5.936 0.5161711

  virginica  6.588 0.6358796

            Sepal.Width

iris[, 5]     [,1]      [,2]

  setosa     3.428 0.3790644

  versicolor 2.770 0.3137983

  virginica  2.974 0.3224966

            Petal.Length

iris[, 5]     [,1]      [,2]

  setosa     1.462 0.1736640

  versicolor 4.260 0.4699110

  virginica  5.552 0.5518947

            Petal.Width

iris[, 5]     [,1]      [,2]

  setosa     0.246 0.1053856

  versicolor 1.326 0.1977527

  virginica  2.026 0.2746501

> #A-priori probabilities 为 样本中个类别出现的频率

> #Conditional probabilities （该样本的特征属于连续型值）该值表示各特征在各类别上的服从正太分布下的均值和标准差

>

>

>

> #检验分类器效果

> table(predict(classifier,iris[,-5]),iris[,5])

             setosa versicolor virginica

  setosa         50          0         0

  versicolor      0         47         3

  virginica       0          3        47

>

> #构造新数据并进行预测

> newdata<-data.frame(Sepal.Length=5, Sepal.Width=2.3, Petal.Length=3.3, Petal.Width=1)

> predict(classifier,newdata)

[1] versicolor

Levels: setosa versicolor virginica

>

>

朴素贝叶斯分类法 Naive Bayes ---R的更多相关文章

数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes
贝叶斯分类器贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类.眼下研究较多的贝叶斯分类器主要有四种, ...
十大经典数据挖掘算法(9) 朴素贝叶斯分类器 Naive Bayes
贝叶斯分类器贝叶斯分类分类原则是一个对象的通过先验概率.贝叶斯后验概率公式后计算,也就是说,该对象属于一类的概率.选择具有最大后验概率的类作为对象的类属.现在更多的研究贝叶斯分类器,有四个,每间:N ...
分类算法之朴素贝叶斯分类（Naive Bayesian Classification）
1.什么是分类分类是一种重要的数据分析形式,它提取刻画重要数据类的模型.这种模型称为分类器,预测分类的(离散的,无序的)类标号.例如医生对病人进行诊断是一个典型的分类过程,医生不是一眼就看出病人得了 ...
朴素贝叶斯 Naive Bayes
2017-12-15 19:08:50 朴素贝叶斯分类器是一种典型的监督学习的算法,其英文是Naive Bayes.所谓Naive,就是天真的意思,当然这里翻译为朴素显得更学术化. 其核心思想就是利用 ...
机器学习算法实践：朴素贝叶斯 (Naive Bayes)（转载）
前言上一篇<机器学习算法实践:决策树 (Decision Tree)>总结了决策树的实现,本文中我将一步步实现一个朴素贝叶斯分类器,并采用SMS垃圾短信语料库中的数据进行模型训练,对垃圾 ...
Python机器学习算法 — 朴素贝叶斯算法（Naive Bayes）
朴素贝叶斯算法 -- 简介朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法.最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Baye ...
R语言学习笔记—朴素贝叶斯分类
朴素贝叶斯分类(naive bayesian,nb)源于贝叶斯理论,其基本思想:假设样本属性之间相互独立,对于给定的待分类项,求解在此项出现的情况下其他各个类别出现的概率,哪个最大,就认为待分类项属于 ...
【机器学习速成宝典】模型篇05朴素贝叶斯【Naive Bayes】（Python版）
目录先验概率与后验概率条件概率公式.全概率公式.贝叶斯公式什么是朴素贝叶斯(Naive Bayes) 拉普拉斯平滑(Laplace Smoothing) 应用:遇到连续变量怎么办?(多项式分布, ...
javascript实现朴素贝叶斯分类与决策树ID3分类
今年毕业时的毕设是有关大数据及机器学习的题目.因为那个时间已经步入前端的行业自然选择使用JavaScript来实现其中具体的算法.虽然JavaScript不是做大数据处理的最佳语言,相比还没有优势,但 ...

随机推荐

PHP XML 函数
PHP XML Parser 简介 XML 函数允许您解析 XML 文档,但无法对其进行验证. XML 是一种用于标准结构化文档交换的数据格式.您可以在我们的 XML 教程中找到更多有关 XML 的 ...
JAVA处理Blob大对象
Blob对象是SQL Blob的Java语言映射.SQL Blob是一个内置类型,它可以将一个二进制大对象保存在数据库中.接口ResultSet.CallableStatement和PreparedS ...
Linux中MySQL忽略表中字段大小写
linux 下,mysql 的表面默认是区分大小写的,windows 下默认不区分大小写,我们大多数在windows 下开发,之后迁移到linux(特别是带有Hibernate的工程),可以修改配置是 ...
非参数估计：核密度估计KDE
http://blog.csdn.net/pipisorry/article/details/53635895 核密度估计Kernel Density Estimation(KDE)概述密度估计的问 ...
postgresql添加字段
ALTER TABLE jiangan_config ADD COLUMN article text NOT NULL DEFAULT ''; pg_dump -s database_name -t ...
Android图表库MPAndroidChart(六)——换一种思考方式，水平条形图的实现过程
Android图表库MPAndroidChart(六)--换一种思考方式,水平条形图的实现过程一.基本实现我们之前实现了条形图,现在来看下水平条形图是怎么实现的,说白了就是横起来,看下效果: 说起 ...
SSH 之 Spring的源码(二)——Bean实例化
首先来看一段代码,看过上一节的朋友肯定对这段代码并不陌生.这一段代码诠释了Spring加载bean的完整过程,包括读取配置文件,扫描包,加载类,实例化bean,注入bean属性依赖. <span ...
剑指Offer——搜狐畅游笔试题+知识点总结
剑指Offer--搜狐畅游笔试题+知识点总结情景回顾时间:2016.9.24 10:00-12:00 地点:山东省网络环境智能计算技术重点实验室事件:搜狐畅游笔试注意事项:要有大局观,该舍 ...
JAR、WAR、EAR的使用和区别
最近接触这几个词较多,停下来总结总结它们的区别和联系,更好的深刻理解 Jar.war.EAR.在文件结构上,三者并没有什么不同,它们都采用zip或jar档案文件压缩格式.但是它们的使用目的有所区别: ...
集合框架之Set接口
一个不包含重复元素的 collection.更确切地讲,set 不包含满足e1.equals(e2) 的元素对 e1 和 e2,并且最多包含一个 null 元素. 在所有构造方法以及 add.equa ...

朴素贝叶斯分类法 Naive Bayes ---R

朴素贝叶斯分类法 Naive Bayes ---R的更多相关文章

随机推荐

热门专题