朴素贝叶斯算法--python实现

朴素贝叶斯算法要理解一下基础：【朴素：特征条件独立贝叶斯：基于贝叶斯定理】

1朴素贝叶斯的概念【联合概率分布、先验概率、条件概率**、全概率公式】【条件独立性假设、】极大似然估计

2优缺点

【优点：分类效率稳定；对缺失数据不敏感，算法比较简单，常用于文本分类；在属性相关性较小时，该算法性能最好缺点：假设属性之间相互独立；先验概率多取决于假设；对输入数据的表达形式很敏感】

3先验概率、后验概率

先验概率的计算比较简单，没有使用贝叶斯公式；

而后验概率的计算，要使用贝叶斯公式，而且在利用样本资料计算逻辑概率时，还要使用理论概率分布，需要更多的数理统计知识。

4朴素贝叶斯的参数估计：

①极大似然估计（可能出现概率为0的情况）②贝叶斯估计（加入常数，拉普拉斯平滑）

参考：

教你明白啥是朴素贝叶斯分类器有助于理解朴素贝叶斯算法

《统计学习方法》-朴素贝叶斯法笔记和python源码理论总结得很全*

前提python2.7 数据来源： http://pan.baidu.com/s/1pLoKUMJ

 # 极大似然估计  朴素贝叶斯算法

 #coding:utf-8

 # 极大似然估计  朴素贝叶斯算法

 import pandas as pd

 import numpy as np

 class NaiveBayes(object):

     def getTrainSet(self):

         dataSet = pd.read_csv('C://pythonwork//practice_data//naivebayes_data.csv')

         dataSetNP = np.array(dataSet)  #将数据由dataframe类型转换为数组类型

         trainData = dataSetNP[:,0:dataSetNP.shape[1]-1]   #训练数据x1,x2

         labels = dataSetNP[:,dataSetNP.shape[1]-1]        #训练数据所对应的所属类型Y

         return trainData, labels

     def classify(self, trainData, labels, features):

         #求labels中每个label的先验概率

         labels = list(labels)    #转换为list类型

         P_y = {}       #存入label的概率

         for label in labels:

             P_y[label] = labels.count(label)/float(len(labels))   # p = count(y) / count(Y)

         #求label与feature同时发生的概率

         P_xy = {}

         for y in P_y.keys():

             y_index = [i for i, label in enumerate(labels) if label == y]  # labels中出现y值的所有数值的下标索引

             for j in range(len(features)):      # features[0] 在trainData[:,0]中出现的值的所有下标索引

                 x_index = [i for i, feature in enumerate(trainData[:,j]) if feature == features[j]]

                 xy_count = len(set(x_index) & set(y_index))   # set(x_index)&set(y_index)列出两个表相同的元素

                 pkey = str(features[j]) + '*' + str(y)

                 P_xy[pkey] = xy_count / float(len(labels))

         #求条件概率

         P = {}

         for y in P_y.keys():

             for x in features:

                 pkey = str(x) + '|' + str(y)

                 P[pkey] = P_xy[str(x)+'*'+str(y)] / float(P_y[y])    #P[X1/Y] = P[X1Y]/P[Y]

         #求[2,'S']所属类别

         F = {}   #[2,'S']属于各个类别的概率

         for y in P_y:

             F[y] = P_y[y]

             for x in features:

                 F[y] = F[y]*P[str(x)+'|'+str(y)]     #P[y/X] = P[X/y]*P[y]/P[X]，分母相等，比较分子即可，所以有F=P[X/y]*P[y]=P[x1/Y]*P[x2/Y]*P[y]

         features_label = max(F, key=F.get)  #概率最大值对应的类别

         return features_label

 if __name__ == '__main__':

     nb = NaiveBayes()

     # 训练数据

     trainData, labels = nb.getTrainSet()

     # x1,x2

     features = [2,'S']

     # 该特征应属于哪一类

     result = nb.classify(trainData, labels, features)

     print features,'属于',result

#朴素贝叶斯算法   贝叶斯估计， λ=1  K=2， S=3； λ=1 拉普拉斯平滑

 #coding:utf-8

 #朴素贝叶斯算法   贝叶斯估计， λ=1  K=2， S=3； λ=1 拉普拉斯平滑

 import pandas as pd

 import numpy as np

 class NavieBayesB(object):

     def __init__(self):

         self.A = 1    # 即λ=1

         self.K = 2

         self.S = 3

     def getTrainSet(self):

         trainSet = pd.read_csv('C://pythonwork//practice_data//naivebayes_data.csv')

         trainSetNP = np.array(trainSet)     #由dataframe类型转换为数组类型

         trainData = trainSetNP[:,0:trainSetNP.shape[1]-1]     #训练数据x1,x2

         labels = trainSetNP[:,trainSetNP.shape[1]-1]          #训练数据所对应的所属类型Y

         return trainData, labels

     def classify(self, trainData, labels, features):

         labels = list(labels)    #转换为list类型

         #求先验概率

         P_y = {}

         for label in labels:

             P_y[label] = (labels.count(label) + self.A) / float(len(labels) + self.K*self.A)

         #求条件概率

         P = {}

         for y in P_y.keys():

             y_index = [i for i, label in enumerate(labels) if label == y]   # y在labels中的所有下标

             y_count = labels.count(y)     # y在labels中出现的次数

             for j in range(len(features)):

                 pkey = str(features[j]) + '|' + str(y)

                 x_index = [i for i, x in enumerate(trainData[:,j]) if x == features[j]]   # x在trainData[:,j]中的所有下标

                 xy_count = len(set(x_index) & set(y_index))   #x y同时出现的次数

                 P[pkey] = (xy_count + self.A) / float(y_count + self.S*self.A)   #条件概率

         #features所属类

         F = {}

         for y in P_y.keys():

             F[y] = P_y[y]

             for x in features:

                 F[y] = F[y] * P[str(x)+'|'+str(y)]

         features_y = max(F, key=F.get)   #概率最大值对应的类别

         return features_y

 if __name__ == '__main__':

     nb = NavieBayesB()

     # 训练数据

     trainData, labels = nb.getTrainSet()

     # x1,x2

     features = [2,'S']

     # 该特征应属于哪一类

     result = nb.classify(trainData, labels, features)

     print features,'属于',result

朴素贝叶斯算法--python实现的更多相关文章

朴素贝叶斯算法python实现
朴素贝叶斯是一种十分简单的分类算法,称其朴素是因为其思想基础的简单性,就文本分类而言,他认为词袋中的两两词之间的关系是相互独立的,即一个对象的特征向量中的每个维度都是互相独立的.这是朴素贝叶斯理论的思 ...
朴素贝叶斯算法原理及Spark MLlib实例(Scala/Java/Python)
朴素贝叶斯算法介绍: 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法. 朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,在没有其它可用信息下,我 ...
朴素贝叶斯算法的python实现方法
朴素贝叶斯算法的python实现方法本文实例讲述了朴素贝叶斯算法的python实现方法.分享给大家供大家参考.具体实现方法如下: 朴素贝叶斯算法优缺点优点:在数据较少的情况下依然有效,可以处理多类 ...
朴素贝叶斯算法的python实现
朴素贝叶斯算法优缺点优点:在数据较少的情况下依然有效,可以处理多类别问题缺点:对输入数据的准备方式敏感适用数据类型:标称型数据算法思想: 朴素贝叶斯比如我们想判断一个邮件是不是垃圾邮件,那么 ...
机器学习：python中如何使用朴素贝叶斯算法
这里再重复一下标题为什么是"使用"而不是"实现": 首先,专业人士提供的算法比我们自己写的算法无论是效率还是正确率上都要高. 其次,对于数学不好的人来说,为了实 ...
Python机器学习笔记：朴素贝叶斯算法
朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法.对于大多数的分类算法,在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同.比如决策树,KNN,逻辑回归,支持向 ...
Python机器学习算法 — 朴素贝叶斯算法（Naive Bayes）
朴素贝叶斯算法 -- 简介朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法.最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Baye ...
机器学习---用python实现朴素贝叶斯算法（Machine Learning Naive Bayes Algorithm Application）
在<机器学习---朴素贝叶斯分类器(Machine Learning Naive Bayes Classifier)>一文中,我们介绍了朴素贝叶斯分类器的原理.现在,让我们来实践一下. 在 ...
朴素贝叶斯算法下的情感分析——C#编程实现
这篇文章做了什么朴素贝叶斯算法是机器学习中非常重要的分类算法,用途十分广泛,如垃圾邮件处理等.而情感分析(Sentiment Analysis)是自然语言处理(Natural Language Pr ...

随机推荐

鸟哥的Linux私房菜——第十九章：例行命令的建立
视频链接:http://www.bilibili.com/video/av11008859/ 1. 什么是例行性命令 (分为两种,一种是周期性的,一种是突发性的)1.1 Linux 工作排程的种类: ...
Spark记录-实例和运行在Yarn
#运行实例 #./bin/run-example SparkPi 10 #./bin/spark-shell --master local[2] #./bin/pyspark --master l ...
web html 基础2
1.表格<table> 行 tr,没有列的说法,只是单元格td table里面只能仿tr,tr里面只能放td,td可以嵌套任何标签表格属性 border 边框, cellspacing ...
Red Pen - 快速高效的获取设计项目的反馈
Red Pen 让设计师能够快速,高效的从你的同事和客户获取反馈.只需要简单的拖放图像到 Red Pen 主页,然后把生成的链接分享给你的同事或者客户.他们打开链接就能看到设计稿,并给予实时的反馈,所 ...
ASP.NET生成二维码
下面使用ThoughtWorks.QRCode.dll这个类库,实现生成二维码使用时需要增加:下面三个命名空间 using ThoughtWorks.QRCode.Codec; using Thou ...
spring Mvc Web 编码相关 [model 到视图传递数据] (九)
在某种编码环境,由bean注解的参数可能会发生乱码问题. 即可页面web.xml或其他地方都设备UTF-8, 但还是会有这样的问题. 首先不要使用model传到视图的数据. 第二,不要request. ...
ZYNQ. GPIO
GPIO General Purpose I/O ,网上能找到很多关于znyq gpio 的文章. 分类:EMIO .MIO .AXI_GPIO 硬件系统 MIO和EMIO是在zynq核中配置的,MI ...
ARMCC和GCC编译ARM代码的软浮点和硬浮点问题【转】
转自:https://blog.csdn.net/hunanchenxingyu/article/details/47003279 本文介绍了ARM代码编译时的软浮点(soft-float)和硬浮点( ...
rank over partition by
高级函数,分组排序 over: 在什么条件之上. partition by e.deptno: 按部门编号划分(分区). order by e.sal desc: 按工资从高到低排序(使用rank() ...
Java中抽象类概述
抽象类 1.抽象类的定义抽象类是为子类提供一个规范,这就必须联系到继承: 抽象类的制定就是让子类继承的: public abstract 类名{ //类体 //抽象方法修饰符 abstract ...

朴素贝叶斯算法--python实现

朴素贝叶斯算法--python实现的更多相关文章

随机推荐

热门专题