朴素贝叶斯算法原理及Spark MLlib实例(Scala/Java/Python)

朴素贝叶斯

算法介绍：

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。

朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，在没有其它可用信息下，我们会选择条件概率最大的类别作为此待分类项应属的类别。

朴素贝叶斯分类的正式定义如下：

1、设 $x = \left\{ {{a_1},{a_2}, \ldots ,{a_m}} \right\}$ 为一个待分类项，而每个a为x的一个特征属性。

2、有类别集合 $C = \left\{ {{y_1},{y_2}, \ldots ,{y_n}} \right\}$ 。

3、计算 $P\left( {{y_1}\left| x \right.} \right),P({y_2}\left| x \right.), \ldots ,P({y_n}\left| x \right.)$ 。

4、如果 $P\left( {{y_k}\left| x \right.} \right) = max\{ P\left( {{y_1}\left| x \right.} \right),P\left( {{y_2}\left| x \right.} \right), \ldots ,P\left( {{y_n}\left| x \right.} \right)\}$ ，则 $x \in {y_k}$ 。

那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做：

1、找到一个已知分类的待分类项集合，这个集合叫做训练样本集。

2、统计得到在各类别下各个特征属性的条件概率估计。即 $P({a_1}{\left| y \right._1}),P({a_2}{\left| y \right._1}), \ldots ,P({a_m}\left| {{y_1}} \right.);P({a_1}{\left| y \right._2}),P({a_2}{\left| y \right._2}), \ldots ,P({a_m}\left| {{y_2}} \right.); \ldots ;P({a_1}{\left| y \right._n}),P({a_2}{\left| y \right._n}), \ldots ,P({a_m}{\left| y \right._n})$

3、如果各个特征属性是条件独立的，则根据贝叶斯定理有如下推导：

$P\left( {{y_i}\left| x \right.} \right) = \frac{{P(x\left| {{y_i})P({y_i})} \right.}}{{P(x)}}$

因为分母对于所有类别为常数，因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的，所以有：

$P\left( {x\left| {{y_i}} \right.} \right)P\left( {{y_i}} \right) = P\left( {{a_1}\left| {{y_i}} \right.} \right)P({a_2}\left| {{y_i}} \right.) \ldots P({a_m}\left| {{y_i}} \right.) = P\left( {{y_i}} \right)\prod P\left( {{a_j}\left| {{y_i}} \right.} \right)$

spark.ml现在支持多项朴素贝叶斯和伯努利朴素贝叶斯。

参数：

featuresCol:

类型：字符串型。

含义：特征列名。

labelCol:

类型：字符串型。

含义：标签列名。

modelType:

类型：字符串型。

含义：模型类型（区分大小写）。

predictionCol:

类型：字符串型。

含义：预测结果列名。

probabilityCol:

类型：字符串型。

含义：用以预测类别条件概率的列名。

rawPredictionCol:

类型：字符串型。

含义：原始预测。

smoothing:

类型：双精度型。

含义：平滑参数。

thresholds:

类型：双精度数组型。

含义：多分类预测的阀值，以调整预测结果在各个类别的概率。

示例：

Scala:

import org.apache.spark.ml.classification.NaiveBayes

import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator  

// Load the data stored in LIBSVM format as a DataFrame.

val data = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")  

// Split the data into training and test sets (30% held out for testing)

val Array(trainingData, testData) = data.randomSplit(Array(0.7, 0.3), seed = 1234L)  

// Train a NaiveBayes model.

val model = new NaiveBayes()

  .fit(trainingData)  

// Select example rows to display.

val predictions = model.transform(testData)

predictions.show()  

// Select (prediction, true label) and compute test error

val evaluator = new MulticlassClassificationEvaluator()

  .setLabelCol("label")

  .setPredictionCol("prediction")

  .setMetricName("accuracy")

val accuracy = evaluator.evaluate(predictions)

println("Accuracy: " + accuracy)

Java:

import org.apache.spark.ml.classification.NaiveBayes;

import org.apache.spark.ml.classification.NaiveBayesModel;

import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator;

import org.apache.spark.sql.Dataset;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.SparkSession;  

// Load training data

Dataset<Row> dataFrame =

  spark.read().format("libsvm").load("data/mllib/sample_libsvm_data.txt");

// Split the data into train and test

Dataset<Row>[] splits = dataFrame.randomSplit(new double[]{0.6, 0.4}, 1234L);

Dataset<Row> train = splits[];

Dataset<Row> test = splits[];  

// create the trainer and set its parameters

NaiveBayes nb = new NaiveBayes();

// train the model

NaiveBayesModel model = nb.fit(train);

// compute accuracy on the test set

Dataset<Row> result = model.transform(test);

Dataset<Row> predictionAndLabels = result.select("prediction", "label");

MulticlassClassificationEvaluator evaluator = new MulticlassClassificationEvaluator()

  .setMetricName("accuracy");

System.out.println("Accuracy = " + evaluator.evaluate(predictionAndLabels));

Python：

from pyspark.ml.classification import NaiveBayes

from pyspark.ml.evaluation import MulticlassClassificationEvaluator  

# Load training data

data = spark.read.format("libsvm") \

    .load("data/mllib/sample_libsvm_data.txt")

# Split the data into train and test

splits = data.randomSplit([0.6, 0.4], )

train = splits[]

test = splits[]  

# create the trainer and set its parameters

nb = NaiveBayes(smoothing=1.0, modelType="multinomial")  

# train the model

model = nb.fit(train)

# compute accuracy on the test set

result = model.transform(test)

predictionAndLabels = result.select("prediction", "label")

evaluator = MulticlassClassificationEvaluator(metricName="accuracy")

print("Accuracy: " + str(evaluator.evaluate(predictionAndLabels)))

朴素贝叶斯算法原理及Spark MLlib实例(Scala/Java/Python)的更多相关文章

朴素贝叶斯算法源码分析及代码实战【python sklearn/spark ML】
一.简介贝叶斯定理是关于随机事件A和事件B的条件概率的一个定理.通常在事件A发生的前提下事件B发生的概率,与在事件B发生的前提下事件A发生的概率是不一致的.然而,这两者之间有确定的关系,贝叶斯定理就 ...
【数据挖掘】朴素贝叶斯算法计算ROC曲线的面积
题记: 近来关于数据挖掘学习过程中,学习到朴素贝叶斯运算ROC曲线.也是本节实验课题,roc曲线的计算原理以及如果统计TP.FP.TN.FN.TPR.FPR.ROC面积等等.往往运用 ...
Python机器学习笔记：朴素贝叶斯算法
朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法.对于大多数的分类算法,在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同.比如决策树,KNN,逻辑回归,支持向 ...
Machine Learning in Action(3) 朴素贝叶斯算法
贝叶斯决策一直很有争议,今年是贝叶斯250周年,历经沉浮,今天它的应用又开始逐渐活跃,有兴趣的可以看看斯坦福Brad Efron大师对其的反思,两篇文章:“Bayes'Theorem in the 2 ...
机器学习---用python实现朴素贝叶斯算法（Machine Learning Naive Bayes Algorithm Application）
在<机器学习---朴素贝叶斯分类器(Machine Learning Naive Bayes Classifier)>一文中,我们介绍了朴素贝叶斯分类器的原理.现在,让我们来实践一下. 在 ...
什么是机器学习的分类算法？【K-近邻算法(KNN)、交叉验证、朴素贝叶斯算法、决策树、随机森林】
1.K-近邻算法(KNN) 1.1 定义 (KNN,K-NearestNeighbor) 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类 ...
朴素贝叶斯算法下的情感分析——C#编程实现
这篇文章做了什么朴素贝叶斯算法是机器学习中非常重要的分类算法,用途十分广泛,如垃圾邮件处理等.而情感分析(Sentiment Analysis)是自然语言处理(Natural Language Pr ...
朴素贝叶斯算法的python实现
朴素贝叶斯算法优缺点优点:在数据较少的情况下依然有效,可以处理多类别问题缺点:对输入数据的准备方式敏感适用数据类型:标称型数据算法思想: 朴素贝叶斯比如我们想判断一个邮件是不是垃圾邮件,那么 ...
C#编程实现朴素贝叶斯算法下的情感分析
C#编程实现这篇文章做了什么朴素贝叶斯算法是机器学习中非常重要的分类算法,用途十分广泛,如垃圾邮件处理等.而情感分析(Sentiment Analysis)是自然语言处理(Natural Lang ...

随机推荐

面试题：谈谈如何优化MYSQL数据库查询
1.优化数据类型 MySQL中数据类型有多种,如果你是一名DBA,正在按照优化的原则对数据类型进行严格的检查,但开发人员可能会选择他们认为最简单的方案,以加快编码速度,或者选择最明显的选择,因此,你可 ...
[redis] redis 对string类型数据操作
package com.xwolf.java.redis; import org.junit.Before; import org.junit.Test; import redis.clients.j ...
Leetcode: n-queen, n-queen II
思路: 题目给出的测试数据范围比较小, 使用回溯就可以AC, 搞的我也没有兴趣去研究高效解法了总结: 刚开始, 本以为用棋盘问题的状态压缩 DP 就可以解决, 但做完 N-queen 才发现多个皇后 ...
测试sql语句性能，提高执行效率
为了让您的程序执行的效率更高,SQL的效率一定不可忽视. 现有以下方法去检测SQL的执行效率. 对于多表查询的效率测试: )直接from ,where方式. SET STATISTICS io ON ...
解决报错：scandir() has been disabled for security reasons
服务器环境: LNMP 在服务器部署代码时候.遇到了这个问题. 蛋疼啊! 2 解决办法: 打开phpinfo.php , 搜索: scandir 找到disabled_function,确认此函数未 ...
LeetCode——Convert Sorted Array to Binary Search Tree
Description: Given an array where elements are sorted in ascending order, convert it to a height bal ...
【BZOJ2815】[ZJOI2012]灾难拓扑排序+LCA
[BZOJ2815][ZJOI2012]灾难题目描述阿米巴是小强的好朋友. 阿米巴和小强在草原上捉蚂蚱.小强突然想,果蚂蚱被他们捉灭绝了,那么吃蚂蚱的小鸟就会饿死,而捕食小鸟的猛禽也会跟着灭绝,从 ...
Windows Phone 7 检查手机网络
using System; using System.Collections.Generic; using System.Linq; using System.Net; using System.Wi ...
如何判断SharedPreferences 记录存在
private EditText et; private String ettext; SharedPreferences settings; Editor editor; //设置 settings ...
android 软键盘回车键捕获
EditText editText2 = (EditText)findViewById(R.id.txtTest2); editText2.setOnEditorActionListener(new ...

朴素贝叶斯算法原理及Spark MLlib实例(Scala/Java/Python)

朴素贝叶斯算法原理及Spark MLlib实例(Scala/Java/Python)的更多相关文章

随机推荐

热门专题