朴素贝叶斯算法简介及python代码实现分析

概念：

　　贝叶斯定理：贝叶斯理论是以18世纪的一位神学家托马斯.贝叶斯(Thomas Bayes)命名。通常，事件A在事件B（发生）的条件下的概率，与事件B在事件A（发生）的条件下的概率是不一样的；然而，这两者是有确定的关系的，贝叶斯定理就是这种关系的陈述

　　朴素贝叶斯：朴素贝叶斯方法是基于贝叶斯定理和特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率(Maximum A Posteriori)最大的输出y。

通俗的来讲，在给定数据集的前提下，对于一个新样本（未分类），在数据集中找到和新样本特征相同的样本，最后根据这些样本算出每个类的概率，概率最高的类即为新样本的类。

运算公式：

P( h | d) = P ( d | h ) * P( h) / P(d)

这里：
P ( h | d )：是因子h基于数据d的假设概率,叫做后验概率
P ( d | h ) : 是假设h为真条件下的数据d的概率
P( h)　: 是假设条件h为真的时候的概率（和数据无关），它叫做h的先验概率
P(d)　: 数据d的概率，和先验条件无关．

算法实现分解：

１　数据处理：加载数据并把他们分成训练数据和测试数据
２　汇总数据：汇总训练数据的概率以便后续计算概率和做预测
３　结果预测：　通过给定的测试数据和汇总的训练数据做预测
４　评估准确性：使用测试数据来评估预测的准确性

代码实现：

 # Example of Naive Bayes implemented from Scratch in Python

 import csv

 import random

 import math

 def loadCsv(filename):

         lines = csv.reader(open(filename, "rb"))

         dataset = list(lines)

         for i in range(len(dataset)):

                 dataset[i] = [float(x) for x in dataset[i]]

         return dataset

 def splitDataset(dataset, splitRatio):

         trainSize = int(len(dataset) * splitRatio)

         trainSet = []

         copy = list(dataset)

         while len(trainSet) < trainSize:

                 index = random.randrange(len(copy))

                 trainSet.append(copy.pop(index))

         return [trainSet, copy]

 def separateByClass(dataset):

         separated = {}

         for i in range(len(dataset)):

                 vector = dataset[i]

                 if (vector[-1] not in separated):

                         separated[vector[-1]] = []

                 separated[vector[-1]].append(vector)

         return separated

 def mean(numbers):

         return sum(numbers)/float(len(numbers))

 def stdev(numbers):

         avg = mean(numbers)

         variance = sum([pow(x-avg,2) for x in numbers])/float(len(numbers)-1)

         return math.sqrt(variance)

 def summarize(dataset):

         summaries = [(mean(attribute), stdev(attribute)) for attribute in zip(*dataset)]

         del summaries[-1]

         return summaries

 def summarizeByClass(dataset):

         separated = separateByClass(dataset)

         summaries = {}

         for classValue, instances in separated.iteritems():

                 summaries[classValue] = summarize(instances)

         return summaries

 def calculateProbability(x, mean, stdev):

         exponent = math.exp(-(math.pow(x-mean,2)/(2*math.pow(stdev,2))))

         return (1 / (math.sqrt(2*math.pi) * stdev)) * exponent

 def calculateClassProbabilities(summaries, inputVector):

         probabilities = {}

         for classValue, classSummaries in summaries.iteritems():

                 probabilities[classValue] = 1

                 for i in range(len(classSummaries)):

                         mean, stdev = classSummaries[i]

                         x = inputVector[i]

                         probabilities[classValue] *= calculateProbability(x, mean, stdev)

         return probabilities

 def predict(summaries, inputVector):

         probabilities = calculateClassProbabilities(summaries, inputVector)

         bestLabel, bestProb = None, -1

         for classValue, probability in probabilities.iteritems():

                 if bestLabel is None or probability > bestProb:

                         bestProb = probability

                         bestLabel = classValue

         return bestLabel

 def getPredictions(summaries, testSet):

         predictions = []

         for i in range(len(testSet)):

                 result = predict(summaries, testSet[i])

                 predictions.append(result)

         return predictions

 def getAccuracy(testSet, predictions):

         correct = 0

         for i in range(len(testSet)):

                 if testSet[i][-1] == predictions[i]:

                         correct += 1

         return (correct/float(len(testSet))) * 100.0

 def main():

         filename = 'pima-indians-diabetes.data.csv'

         splitRatio = 0.67

         dataset = loadCsv(filename)

         trainingSet, testSet = splitDataset(dataset, splitRatio)

         print('Split {0} rows into train={1} and test={2} rows').format(len(dataset), len(trainingSet), len(testSet))

         # prepare model

         summaries = summarizeByClass(trainingSet)

         # test model

         predictions = getPredictions(summaries, testSet)

         accuracy = getAccuracy(testSet, predictions)

         print('Accuracy: {0}%').format(accuracy)

 main()

pima-indians-diabetes.data.csv的下载地址：

https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv

参考文档：

１　https://en.wikipedia.org/wiki/Naive_Bayes_classifier

２　https://machinelearningmastery.com/naive-bayes-classifier-scratch-python/

３　https://machinelearningmastery.com/naive-bayes-for-machine-learning/

朴素贝叶斯算法简介及python代码实现分析的更多相关文章

Python机器学习算法 — 朴素贝叶斯算法（Naive Bayes）
朴素贝叶斯算法 -- 简介朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法.最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Baye ...
Python机器学习笔记：朴素贝叶斯算法
朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法.对于大多数的分类算法,在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同.比如决策树,KNN,逻辑回归,支持向 ...
朴素贝叶斯算法的python实现方法
朴素贝叶斯算法的python实现方法本文实例讲述了朴素贝叶斯算法的python实现方法.分享给大家供大家参考.具体实现方法如下: 朴素贝叶斯算法优缺点优点:在数据较少的情况下依然有效,可以处理多类 ...
利用朴素贝叶斯算法进行分类-Java代码实现
http://www.crocro.cn/post/286.html 利用朴素贝叶斯算法进行分类-Java代码实现鳄鱼 3个月前 (12-14) 分类:机器学习阅读(44) 评论(0) ...
机器学习：python中如何使用朴素贝叶斯算法
这里再重复一下标题为什么是"使用"而不是"实现": 首先,专业人士提供的算法比我们自己写的算法无论是效率还是正确率上都要高. 其次,对于数学不好的人来说,为了实 ...
朴素贝叶斯算法--python实现
朴素贝叶斯算法要理解一下基础: [朴素:特征条件独立贝叶斯:基于贝叶斯定理] 1朴素贝叶斯的概念[联合概率分布.先验概率.条件概率**.全概率公式][条件独立性假设.] 极大似然估计 ...
朴素贝叶斯算法原理及Spark MLlib实例(Scala/Java/Python)
朴素贝叶斯算法介绍: 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法. 朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,在没有其它可用信息下,我 ...
机器学习---用python实现朴素贝叶斯算法（Machine Learning Naive Bayes Algorithm Application）
在<机器学习---朴素贝叶斯分类器(Machine Learning Naive Bayes Classifier)>一文中,我们介绍了朴素贝叶斯分类器的原理.现在,让我们来实践一下. 在 ...
朴素贝叶斯算法的python实现
朴素贝叶斯算法优缺点优点:在数据较少的情况下依然有效,可以处理多类别问题缺点:对输入数据的准备方式敏感适用数据类型:标称型数据算法思想: 朴素贝叶斯比如我们想判断一个邮件是不是垃圾邮件,那么 ...

随机推荐

记录在Ubuntu 18.04系统中安装Apache, MySQL和PHP环境
虽然我们在Linux VPS.服务器安装WEB环境比较方便,可以选择面板或者一键包,但是有些我们需要深入学习的网友不会选择一键安装,而是会尝试编译安装.这样可以学到一些内在的技术.一般我们较为习惯选择 ...
20172306 2018-2019-2 《Java程序设计与数据结构》第八周学习总结
20172306 2018-2019-2 <Java程序设计与数据结构>第八周学习总结教材学习内容总结堆堆是具有两个附加属性的一棵二叉树它是一个完全树对每一结点,它小于或等于其左 ...
修改当前会话的sql_mode
-- show variables like 'sql_mode'; -- set session sql_mode="ONLY_FULL_GROUP_BY,STRICT_TRANS_TAB ...
Linux无法正常连接服务器，无法连接上 127.0.0.1:8989 (127.0.0.1)。 - connect (111: 拒绝连接)
最近修改了下电脑的hosts文件,电脑就突然不能连接下载更新的服务器了,但是浏览器还能正常上网,这让我很是难受啊!!! 错误现象如下: 错误:1 http://archive.ubuntukylin. ...
关于webpack使用的一些问题
1.镜像安装 npm安装webpack慢的爆炸,如果不能FQ,试下下面的国内良心镜像,浑身都舒爽了. npm config set registry https://registry.npm.taob ...
guns开源项目数据库切换为oracle
本次使用oracle版本 11.2.0.1.0 1.guns-core 修改pom.xml 文件引入oracle驱动 <dependency> <groupId>com.ora ...
前端js收藏
1 爱心特效 <script type="text/javascript"> (function(window,document,undefined){ var hea ...
nodejs之使用express框架连接mongodb数据库
var express = require('express');var router = express.Router();var app = express();var MongoClient = ...
解决使用Mybatis 传入多参数使用map封装遇到的 “坑”问题
好久没来写些东西了,今天我分享一下自己遇到的一个“小坑”,这也许对您来说不是个问题,但是我还是希望对没有遇到过这类问题的朋友给个小小的帮助吧是这样的,需求:需要实现根据多条件且分页展示数据 1 ...
86、UIWindow简单介绍
一.介绍 UIWindow是一种特殊的UIView,通常在一个app中只会有一个UIWindow ios程序启动完毕后,创建的第一个视图控制器 ,接着创建控制器的view,最后将控制器的view添加到 ...

朴素贝叶斯算法简介及python代码实现分析

朴素贝叶斯算法简介及python代码实现分析的更多相关文章

随机推荐

热门专题