1. 贝叶斯定理

条件概率公式：

这个公式非常简单，就是计算在B发生的情况下，A发生的概率。但是很多时候，我们很容易知道P(A|B)，需要计算的是P(B|A)，这时就要用到贝叶斯定理：

2. 朴素贝叶斯分类

朴素贝叶斯分类的推导过程就不详述了，其流程可以简单的用一张图来表示：

举个简单的例子来说，下面这张表说明了各地区的人口构成：

这个时候如果一个黑皮肤的人走过来（一个待分类项(0,0,1)），他是来自欧美，亚洲还是非洲呢？可以根据朴素贝叶斯分类进行计算：

欧美=0.30×0.90×0.20×0.40=0.0216

亚洲=0.95×0.10×0.05×0.40=0.0019

非洲=0.90×1.00×0.90×0.20=0.1620

即他来自非洲的可能性最大，来自欧美的可能性次之，来自亚洲的可能性最小，那么我们就判断他来自非洲，这和我们日常生活中的经验是一致的。

如果特征属性是连续值，则按照下面的公式计算：

3. MLlib的贝叶斯分类

直接上代码：

import org.apache.log4j.{Level, Logger}

import org.apache.spark.mllib.classification.NaiveBayes

import org.apache.spark.mllib.linalg.Vectors

import org.apache.spark.mllib.regression.LabeledPoint

import org.apache.spark.{SparkConf, SparkContext}

object NaiveBayesTest {

  def main(args: Array[String]) {

    // 设置运行环境

    val conf = new SparkConf().setAppName("Naive Bayes Test")

      .setMaster("spark://master:7077").setJars(Seq("E:\\Intellij\\Projects\\MachineLearning\\MachineLearning.jar"))

    val sc = new SparkContext(conf)

    Logger.getRootLogger.setLevel(Level.WARN)

    // 读取样本数据并解析

    val dataRDD = sc.textFile("hdfs://master:9000/ml/data/sample_naive_bayes_data.txt")

    val parsedDataRDD = dataRDD.map { line =>

      val parts = line.split(',')

      LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split(' ').map(_.toDouble)))

    }

    // 样本数据划分,训练样本占0.8,测试样本占0.2

    val dataParts = parsedDataRDD.randomSplit(Array(0.8, 0.2))

    val trainRDD = dataParts(0)

    val testRDD = dataParts(1)

    // 建立贝叶斯分类模型并训练

    val model = NaiveBayes.train(trainRDD, lambda = 1.0, modelType = "multinomial")

    // 对测试样本进行测试

    val predictionAndLabel = testRDD.map(p => (model.predict(p.features), p.label, p.features))

    val showPredict = predictionAndLabel.take(50)

    println("Prediction" + "\t" + "Label" + "\t" + "Data")

    for (i <- 0 to showPredict.length - 1) {

      println(showPredict(i)._1 + "\t" + showPredict(i)._2 + "\t" + showPredict(i)._3)

    }

    val accuracy = 1.0 * predictionAndLabel.filter(x => x._1 == x._2).count() / testRDD.count()

    println("Accuracy=" + accuracy)

  }

}

其中，NaiveBayes是贝叶斯分类伴生对象，train方法进行模型训练，三个参数分别是训练样本，平滑参数和模型类别。模型类别有两个：multinomial（多项式）和bernoulli（伯努利），这里使用的是multinomial。predict方法根据特征值进行判断分类。

运行结果：

Spark机器学习(4)：朴素贝叶斯算法的更多相关文章

吴裕雄--天生自然python机器学习：朴素贝叶斯算法
分类器有时会产生错误结果,这时可以要求分类器给出一个最优的类别猜测结果,同时给出这个猜测的概率估计值. 概率论是许多机器学习算法的基础在计算特征值取某个值的概率时涉及了一些概率知识,在那里我们先 ...
【十大算法实现之naive bayes】朴素贝叶斯算法之文本分类算法的理解与实现
关于bayes的基础知识,请参考: 基于朴素贝叶斯分类器的文本聚类算法 (上) http://www.cnblogs.com/phinecos/archive/2008/10/21/1315948.h ...
朴素贝叶斯算法原理及Spark MLlib实例(Scala/Java/Python)
朴素贝叶斯算法介绍: 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法. 朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,在没有其它可用信息下,我 ...
Python机器学习笔记：朴素贝叶斯算法
朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法.对于大多数的分类算法,在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同.比如决策树,KNN,逻辑回归,支持向 ...
Python机器学习算法 — 朴素贝叶斯算法（Naive Bayes）
朴素贝叶斯算法 -- 简介朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法.最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Baye ...
朴素贝叶斯算法源码分析及代码实战【python sklearn/spark ML】
一.简介贝叶斯定理是关于随机事件A和事件B的条件概率的一个定理.通常在事件A发生的前提下事件B发生的概率,与在事件B发生的前提下事件A发生的概率是不一致的.然而,这两者之间有确定的关系,贝叶斯定理就 ...
机器学习---用python实现朴素贝叶斯算法（Machine Learning Naive Bayes Algorithm Application）
在<机器学习---朴素贝叶斯分类器(Machine Learning Naive Bayes Classifier)>一文中,我们介绍了朴素贝叶斯分类器的原理.现在,让我们来实践一下. 在 ...
什么是机器学习的分类算法？【K-近邻算法(KNN)、交叉验证、朴素贝叶斯算法、决策树、随机森林】
1.K-近邻算法(KNN) 1.1 定义 (KNN,K-NearestNeighbor) 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类 ...
机器学习：python中如何使用朴素贝叶斯算法
这里再重复一下标题为什么是"使用"而不是"实现": 首先,专业人士提供的算法比我们自己写的算法无论是效率还是正确率上都要高. 其次,对于数学不好的人来说,为了实 ...
朴素贝叶斯算法下的情感分析——C#编程实现
这篇文章做了什么朴素贝叶斯算法是机器学习中非常重要的分类算法,用途十分广泛,如垃圾邮件处理等.而情感分析(Sentiment Analysis)是自然语言处理(Natural Language Pr ...

随机推荐

jmeter正则表达式提取器多模块相互调用
提取return的结果 (1)例: 创建账户和转账功能注:以下为soap协议添加账户1 创建正则表达式提取器(提取创建的结果) 点击导入接口文档URL地址和方框内方法同上方法添加账户2 点击正则 ...
数据库中的null用法
LINQ学习之旅（五）
Union All/Union/Intersect操作和Top/Bottom操作和Paging操作和SqlMethods操作 Union All/Union/Intersect操作适用场景:对两个集 ...
php输出json的内容
$json = '{"foo": 12345}'; $obj = json_decode($json); print $obj->{'foo'}; // 12345
Mahout介绍和简单应用
Mahout学习(主要学习内容是Mahout中推荐部分的ItemCF.UserCF.Hadoop集群部署运行) 1.Mahout是什么? Mahout是一个算法库,集成了很多算法. Apache Ma ...
SparseArray源码解析
转载自SparseArray源码解析 No1: Android官方推荐:当使用HashMap(K, V),如果K为整数类型时,使用SparseArray的效率更高. No2: HashMap是使用数组 ...
class.forName的作用？
调用该访问返回一个以字符串指定类名的类的对象. 返回字节码,返回字节码的方式有几种: ①:这份字节码曾经被加载过已经存在java虚拟机中了直接返回. ②:java虚拟机中还没有这份字节码,用类加载器 ...
C#多线程编程实战（二）：线程同步
2.1 简介竞争条件:多个线程同时使用共享对象.需要同步这些线程使得共享对象的操作能够以正确的顺序执行线程同步问题:多线程的执行并没有正确的同步,当一个线程执行递增和递减操作时,其他线程需要依次等 ...
Python学习——Python进程
python中的多线程其实并不是真正的多线程,如果想要充分地使用多核CPU的资源,在python中大部分情况需要使用多进程.Python提供了非常好用的多进程包multiprocessing,只需要定 ...
UVA - 1625 Color Length[序列DP 提前计算代价]
UVA - 1625 Color Length 白书很明显f[i][j]表示第一个取到i第二个取到j的代价问题在于代价的计算,并不知道每种颜色的开始和结束和模拟赛那道环形DP很想,计算这 ...

Spark机器学习(4)：朴素贝叶斯算法

1. 贝叶斯定理

2. 朴素贝叶斯分类

3. MLlib的贝叶斯分类

Spark机器学习(4)：朴素贝叶斯算法的更多相关文章

随机推荐

热门专题