朴素贝叶斯算法--python实现

朴素贝叶斯算法要理解一下基础：【朴素：特征条件独立贝叶斯：基于贝叶斯定理】

1朴素贝叶斯的概念【联合概率分布、先验概率、条件概率**、全概率公式】【条件独立性假设、】极大似然估计

2优缺点

【优点：分类效率稳定；对缺失数据不敏感，算法比较简单，常用于文本分类；在属性相关性较小时，该算法性能最好缺点：假设属性之间相互独立；先验概率多取决于假设；对输入数据的表达形式很敏感】

3先验概率、后验概率

先验概率的计算比较简单，没有使用贝叶斯公式；

而后验概率的计算，要使用贝叶斯公式，而且在利用样本资料计算逻辑概率时，还要使用理论概率分布，需要更多的数理统计知识。

4朴素贝叶斯的参数估计：

①极大似然估计（可能出现概率为0的情况）②贝叶斯估计（加入常数，拉普拉斯平滑）

参考：

教你明白啥是朴素贝叶斯分类器有助于理解朴素贝叶斯算法

《统计学习方法》-朴素贝叶斯法笔记和python源码理论总结得很全*

前提python2.7 数据来源： http://pan.baidu.com/s/1pLoKUMJ

 # 极大似然估计  朴素贝叶斯算法

 #coding:utf-8

 # 极大似然估计  朴素贝叶斯算法

 import pandas as pd

 import numpy as np

 class NaiveBayes(object):

     def getTrainSet(self):

         dataSet = pd.read_csv('C://pythonwork//practice_data//naivebayes_data.csv')

         dataSetNP = np.array(dataSet)  #将数据由dataframe类型转换为数组类型

         trainData = dataSetNP[:,0:dataSetNP.shape[1]-1]   #训练数据x1,x2

         labels = dataSetNP[:,dataSetNP.shape[1]-1]        #训练数据所对应的所属类型Y

         return trainData, labels

     def classify(self, trainData, labels, features):

         #求labels中每个label的先验概率

         labels = list(labels)    #转换为list类型

         P_y = {}       #存入label的概率

         for label in labels:

             P_y[label] = labels.count(label)/float(len(labels))   # p = count(y) / count(Y)

         #求label与feature同时发生的概率

         P_xy = {}

         for y in P_y.keys():

             y_index = [i for i, label in enumerate(labels) if label == y]  # labels中出现y值的所有数值的下标索引

             for j in range(len(features)):      # features[0] 在trainData[:,0]中出现的值的所有下标索引

                 x_index = [i for i, feature in enumerate(trainData[:,j]) if feature == features[j]]

                 xy_count = len(set(x_index) & set(y_index))   # set(x_index)&set(y_index)列出两个表相同的元素

                 pkey = str(features[j]) + '*' + str(y)

                 P_xy[pkey] = xy_count / float(len(labels))

         #求条件概率

         P = {}

         for y in P_y.keys():

             for x in features:

                 pkey = str(x) + '|' + str(y)

                 P[pkey] = P_xy[str(x)+'*'+str(y)] / float(P_y[y])    #P[X1/Y] = P[X1Y]/P[Y]

         #求[2,'S']所属类别

         F = {}   #[2,'S']属于各个类别的概率

         for y in P_y:

             F[y] = P_y[y]

             for x in features:

                 F[y] = F[y]*P[str(x)+'|'+str(y)]     #P[y/X] = P[X/y]*P[y]/P[X]，分母相等，比较分子即可，所以有F=P[X/y]*P[y]=P[x1/Y]*P[x2/Y]*P[y]

         features_label = max(F, key=F.get)  #概率最大值对应的类别

         return features_label

 if __name__ == '__main__':

     nb = NaiveBayes()

     # 训练数据

     trainData, labels = nb.getTrainSet()

     # x1,x2

     features = [2,'S']

     # 该特征应属于哪一类

     result = nb.classify(trainData, labels, features)

     print features,'属于',result

#朴素贝叶斯算法   贝叶斯估计， λ=1  K=2， S=3； λ=1 拉普拉斯平滑

 #coding:utf-8

 #朴素贝叶斯算法   贝叶斯估计， λ=1  K=2， S=3； λ=1 拉普拉斯平滑

 import pandas as pd

 import numpy as np

 class NavieBayesB(object):

     def __init__(self):

         self.A = 1    # 即λ=1

         self.K = 2

         self.S = 3

     def getTrainSet(self):

         trainSet = pd.read_csv('C://pythonwork//practice_data//naivebayes_data.csv')

         trainSetNP = np.array(trainSet)     #由dataframe类型转换为数组类型

         trainData = trainSetNP[:,0:trainSetNP.shape[1]-1]     #训练数据x1,x2

         labels = trainSetNP[:,trainSetNP.shape[1]-1]          #训练数据所对应的所属类型Y

         return trainData, labels

     def classify(self, trainData, labels, features):

         labels = list(labels)    #转换为list类型

         #求先验概率

         P_y = {}

         for label in labels:

             P_y[label] = (labels.count(label) + self.A) / float(len(labels) + self.K*self.A)

         #求条件概率

         P = {}

         for y in P_y.keys():

             y_index = [i for i, label in enumerate(labels) if label == y]   # y在labels中的所有下标

             y_count = labels.count(y)     # y在labels中出现的次数

             for j in range(len(features)):

                 pkey = str(features[j]) + '|' + str(y)

                 x_index = [i for i, x in enumerate(trainData[:,j]) if x == features[j]]   # x在trainData[:,j]中的所有下标

                 xy_count = len(set(x_index) & set(y_index))   #x y同时出现的次数

                 P[pkey] = (xy_count + self.A) / float(y_count + self.S*self.A)   #条件概率

         #features所属类

         F = {}

         for y in P_y.keys():

             F[y] = P_y[y]

             for x in features:

                 F[y] = F[y] * P[str(x)+'|'+str(y)]

         features_y = max(F, key=F.get)   #概率最大值对应的类别

         return features_y

 if __name__ == '__main__':

     nb = NavieBayesB()

     # 训练数据

     trainData, labels = nb.getTrainSet()

     # x1,x2

     features = [2,'S']

     # 该特征应属于哪一类

     result = nb.classify(trainData, labels, features)

     print features,'属于',result

朴素贝叶斯算法--python实现的更多相关文章

朴素贝叶斯算法python实现
朴素贝叶斯是一种十分简单的分类算法,称其朴素是因为其思想基础的简单性,就文本分类而言,他认为词袋中的两两词之间的关系是相互独立的,即一个对象的特征向量中的每个维度都是互相独立的.这是朴素贝叶斯理论的思 ...
朴素贝叶斯算法原理及Spark MLlib实例(Scala/Java/Python)
朴素贝叶斯算法介绍: 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法. 朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,在没有其它可用信息下,我 ...
朴素贝叶斯算法的python实现方法
朴素贝叶斯算法的python实现方法本文实例讲述了朴素贝叶斯算法的python实现方法.分享给大家供大家参考.具体实现方法如下: 朴素贝叶斯算法优缺点优点:在数据较少的情况下依然有效,可以处理多类 ...
朴素贝叶斯算法的python实现
朴素贝叶斯算法优缺点优点:在数据较少的情况下依然有效,可以处理多类别问题缺点:对输入数据的准备方式敏感适用数据类型:标称型数据算法思想: 朴素贝叶斯比如我们想判断一个邮件是不是垃圾邮件,那么 ...
机器学习：python中如何使用朴素贝叶斯算法
这里再重复一下标题为什么是"使用"而不是"实现": 首先,专业人士提供的算法比我们自己写的算法无论是效率还是正确率上都要高. 其次,对于数学不好的人来说,为了实 ...
Python机器学习笔记：朴素贝叶斯算法
朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法.对于大多数的分类算法,在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同.比如决策树,KNN,逻辑回归,支持向 ...
Python机器学习算法 — 朴素贝叶斯算法（Naive Bayes）
朴素贝叶斯算法 -- 简介朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法.最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Baye ...
机器学习---用python实现朴素贝叶斯算法（Machine Learning Naive Bayes Algorithm Application）
在<机器学习---朴素贝叶斯分类器(Machine Learning Naive Bayes Classifier)>一文中,我们介绍了朴素贝叶斯分类器的原理.现在,让我们来实践一下. 在 ...
朴素贝叶斯算法下的情感分析——C#编程实现
这篇文章做了什么朴素贝叶斯算法是机器学习中非常重要的分类算法,用途十分广泛,如垃圾邮件处理等.而情感分析(Sentiment Analysis)是自然语言处理(Natural Language Pr ...

随机推荐

linux命令总结vmstat命令
一.简介 vmstat命令是最常见的Linux/Unix监控工具,可以展现给定时间间隔的服务器的状态值,包括服务器的CPU使用率,内存使用,虚拟内存交换情况,IO读写情况.这个命令是我查看Linux/ ...
OpenStack 计算服务 Nova介绍和控制节点部署（七）
介绍 Nova是openstack最早的两块模块之一,另一个是对象存储swift.在openstack体系中一个叫做计算节点,一个叫做控制节点.这个主要和nova相关,我们把安装为计算节点nova-c ...
Win10新增功能快捷键大全
原文地址:http://wenwen.sogou.com/z/q703976788.htm贴靠窗口:Win + 左/右 > Win + 上/下 > 窗口可以变为 1/4 大小放置在屏幕 4 ...
hdu 5385 The path
http://acm.hdu.edu.cn/showproblem.php?pid=5385 题意: 给定一张n个点m条有向边的图,构造每条边的边权(边权为正整数),令d(x)表示1到x的最短路,使得 ...
Export SQLite data to Excel in iOS programmatically(OC)
//For the app I have that did this, the SQLite data was fairly large. Therefore, I used a background ...
转载一篇介绍CUDA
鉴于自己的毕设需要使用GPU CUDA这项技术,想找一本入门的教材,选择了Jason Sanders等所著的书<CUDA By Example an Introduction to Genera ...
关于mysql-connector-java（JDBC驱动）的一些坑
最近在写一个项目的时候,用了maven仓库里面较新的mysql的JDBC驱动,版本是6.0.6,Mybatis的全局配置是这么写的: <?xml version='1.0' encoding=' ...
import和require的区别
node编程中最重要的思想就是模块化,import和require都是被模块化所使用. 遵循规范 require 是 AMD规范引入方式 import是es6的一个语法标准,如果要兼容浏览器的话必须转 ...
Servlet笔记9--转发与重定向
关于Web中资源跳转的问题: 转发和重定向基本代码: package com.bjpowernode.javaweb; import java.io.IOException; import javax ...
C# 将某个方法去异步执行
C# 将某个方法去异步执行 Task.Run(() => { string msgerror = SendPhoneCode.NewSendByTemplate(apply.PhoneNum, ...

朴素贝叶斯算法--python实现

朴素贝叶斯算法--python实现的更多相关文章

随机推荐

热门专题