朴素贝叶斯假设各属性间相互独立,直接从已有样本中计算各种概率,以贝叶斯方程推导出预测样本的分类。

为了处理预测时样本的(类别,属性值)对未在训练样本出现,从而导致概率为0的情况,使用拉普拉斯修正(假设属性值与类别均匀分布)。

代码及注释如下:

一、离散值

1,朴素贝叶斯算法计算相关参数并返回,预测使用这些参数即可

# 手写拉普拉斯修正的朴素贝叶斯
import numpy as np
import pandas as pd
def naive_bayes(data):
'''data:pandas.DataFrame'''
# 列名
attrs=data.columns
# 类别
labels=data[attrs[-1]].unique()
# 类别数
N=labels.size
# 样本总数
D=data.index.size
# c类样本概率
pc=np.empty(shape=(N,1))
# c类中,第i个属性取值为xi的概率,这里计算了所有,而非只针对测试样本,保存后predict时直接从里面取值即可
p_xc=[]
# 包含每个属性的可取值
features=[data[i].unique() for i in attrs[:-1]]
for i in range(N):
df=data[data[attrs[-1]]==labels[i]]
Dc=df[attrs[0]].count()
pc[i]=np.array([(Dc+1)/(D+N)])
p_c=[]
for j in range(len(features)):
values=features[j]
Ni=values.size
c_attr=[]
for value in values:
Dc_xi=df[df[attrs[j]]==value].index.size
c_attr.append((Dc_xi+1)/(Dc+Ni))
p_c.append(c_attr)
p_xc.append(p_c)
return p_xc,pc,N,features,labels
# 预测一个样本
def predict(x,p_xc,pc,num_class,features,labels):
result=[]
for i in range(num_class):
res=1.
c=p_xc[i]
for j in range(len(c)):
feature_j=c[j]
for k in range(len(feature_j)):
if x[j]==features[j][k]:
res*=feature_j[k]
result.append(pc[i][0]*res)
max_c=0
max_index=-1
for i in range(len(result)):
if result[i]>max_c:
max_c=result[i]
max_index=i
return result,labels[max_index]
# 预测多个样本
def predicts(x,p_xc,pc,num_class,features,labels):
result=[]
for data in x:
_,clazz=predict(data,p_xc,pc,num_class,features,labels)
result.append(clazz)
return result

2,使用西瓜集2.0训练及测试

def createDataSet():

    dataSet = [
#
['青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', '好瓜'],
#
['乌黑', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', '好瓜'],
#
['乌黑', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', '好瓜'],
#
['青绿', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', '好瓜'],
#
['浅白', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', '好瓜'],
#
['青绿', '稍蜷', '浊响', '清晰', '稍凹', '软粘', '好瓜'],
#
['乌黑', '稍蜷', '浊响', '稍糊', '稍凹', '软粘', '好瓜'],
#
['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '硬滑', '好瓜'], # ----------------------------------------------------
#
['乌黑', '稍蜷', '沉闷', '稍糊', '稍凹', '硬滑', '坏瓜'],
#
['青绿', '硬挺', '清脆', '清晰', '平坦', '软粘', '坏瓜'],
#
['浅白', '硬挺', '清脆', '模糊', '平坦', '硬滑', '坏瓜'],
#
['浅白', '蜷缩', '浊响', '模糊', '平坦', '软粘', '坏瓜'],
#
['青绿', '稍蜷', '浊响', '稍糊', '凹陷', '硬滑', '坏瓜'],
#
['浅白', '稍蜷', '沉闷', '稍糊', '凹陷', '硬滑', '坏瓜'],
#
['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '软粘', '坏瓜'],
#
['浅白', '蜷缩', '浊响', '模糊', '平坦', '硬滑', '坏瓜'],
#
['青绿', '蜷缩', '沉闷', '稍糊', '稍凹', '硬滑', '坏瓜']
] # 特征值列表
labels = ['色泽', '根蒂', '敲击', '纹理', '脐部', '触感','好坏']
dataset=pd.DataFrame(data=dataSet,columns=labels)
return dataset

3,训练及预测

这里预测使用训练数据,可以看到精度却不咋样,个人认为这跟样本太小、使用了修正(修正在大样本下的影响较小)及属性并非相互独立有关

dataset=createDataSet()
p_xc,pc,num_class,features,labels=naive_bayes(dataset) value=dataset[dataset.columns[:-1]].values
result=predicts(value,p_xc,pc,num_class,features,labels)
real=dataset[dataset.columns[-1]].values
df=pd.DataFrame([[result[i]==real[i] for i in range(len(result))]])
# 精度 0.8235294117647058
df.iloc[0].sum()/df.iloc[0].count()

二、连续值

1,贝叶斯方法

def normal_distribution(mean,var,x):
return np.power(np.e,-(x-mean)*(x-mean)/(2*var))/np.sqrt(2*np.pi*var)
# 连续值处理,假设数据服从正态分布,如上函数所示
def naive_bayes_2(X_train,y_train):
'''data:pandas.DataFrame'''
labels=list(set(y_train))
# 类别数
num_class=len(labels)
data=pd.DataFrame(X_train,columns=['l1','l2','l3','l4'])
data['label']=y_train
N=len(y_train)
# 均值和方差
means=[]
vals=[]
# c类样本概率
pc=np.empty(shape=(num_class,1))
# 对每一类求均值和方差
for i in range(num_class):
df=data[data['label']==labels[i]]
l=df.index.size
pc[i]=l/N
mean=[]
val=[]
# 各属性的均值和方差
for col in df.columns[:-1]:
mean.append(df[col].mean())
val.append(df[col].var())
means.append(mean)
vals.append(val) return means,vals,pc,labels
# 预测多个样本
def predict_2(x_test,means,vals,pc,labels):
num_class=len(labels)
results=[]
for x in x_test:
result=[]
for i in range(num_class):
res=1.
res*=pc[i][0]
j=0
for mean,val in zip(means[i],vals[i]):
res*=normal_distribution(mean,val,x[j])
j+=1
result.append(res)
results.append(labels[result.index(max(result))])
return results

2,使用sklearn中iris数据集

from sklearn.datasets import load_iris
data = load_iris() x=data['data']
y=data['target']
cols=data['target_names'] from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test=train_test_split(x,y,test_size=0.2,random_state=10)

3,训练及测试

means,vals,pc,labels=naive_bayes_2(X_train,y_train)

results=predict_2(X_test,means,vals,pc,labels)

from sklearn.metrics import accuracy_score
# 精度100%
accuracy_score(results,y_test)

三、总结

例举了2个例子,离散值的样本少,使用了修正,精度不咋样,连续值的精度100%,取得不错的效果,也说明各个类别下的各个特征基本符合正态分布。

手写朴素贝叶斯(naive_bayes)分类算法的更多相关文章

  1. 3.朴素贝叶斯和KNN算法的推导和python实现

    前面一个博客我们用Scikit-Learn实现了中文文本分类的全过程,这篇博客,着重分析项目最核心的部分分类算法:朴素贝叶斯算法以及KNN算法的基本原理和简单python实现. 3.1 贝叶斯公式的推 ...

  2. 机器学习集成算法--- 朴素贝叶斯,k-近邻算法,决策树,支持向量机(SVM),Logistic回归

    朴素贝叶斯: 是使用概率论来分类的算法.其中朴素:各特征条件独立:贝叶斯:根据贝叶斯定理.这里,只要分别估计出,特征 Χi 在每一类的条件概率就可以了.类别 y 的先验概率可以通过训练集算出 k-近邻 ...

  3. 朴素贝叶斯算法——实现新闻分类(Sklearn实现)

    1.朴素贝叶斯实现新闻分类的步骤 (1)提供文本文件,即数据集下载 (2)准备数据 将数据集划分为训练集和测试集:使用jieba模块进行分词,词频统计,停用词过滤,文本特征提取,将文本数据向量化 停用 ...

  4. Python机器学习笔记:朴素贝叶斯算法

    朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法.对于大多数的分类算法,在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同.比如决策树,KNN,逻辑回归,支持向 ...

  5. [机器学习] 分类 --- Naive Bayes(朴素贝叶斯)

    Naive Bayes-朴素贝叶斯 Bayes' theorem(贝叶斯法则) 在概率论和统计学中,Bayes' theorem(贝叶斯法则)根据事件的先验知识描述事件的概率.贝叶斯法则表达式如下所示 ...

  6. 统计学习方法与Python实现(三)——朴素贝叶斯法

    统计学习方法与Python实现(三)——朴素贝叶斯法 iwehdio的博客园:https://www.cnblogs.com/iwehdio/ 1.定义 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设 ...

  7. scikit-learn 朴素贝叶斯类库使用小结

    之前在朴素贝叶斯算法原理小结这篇文章中,对朴素贝叶斯分类算法的原理做了一个总结.这里我们就从实战的角度来看朴素贝叶斯类库.重点讲述scikit-learn 朴素贝叶斯类库的使用要点和参数选择. 1. ...

  8. 机器学习Sklearn系列:(四)朴素贝叶斯

    3--朴素贝叶斯 原理 朴素贝叶斯本质上就是通过贝叶斯公式来对得到类别概率,但区别于通常的贝叶斯公式,朴素贝叶斯有一个默认条件,就是特征之间条件独立. 条件概率公式: \[P(B|A) = \frac ...

  9. Mahout朴素贝叶斯文本分类

    Mahout朴素贝叶斯文本分类算法 Mahout贝叶斯分类器按照官方的说法,是按照<Tackling the PoorAssumptions of Naive Bayes Text Classi ...

随机推荐

  1. 解决Jenkins忘记用户名,密码

    windows系统: 进入windows默认目录   C:\Users\Administrator\.jenkins\users  修改配置文件即可

  2. 零拷贝的原理及Java实现

    在谈论Kafka高性能时不得不提到零拷贝.Kafka通过采用零拷贝大大提供了应用性能,减少了内核和用户模式之间的上下文切换次数.那么什么是零拷贝,如何实现零拷贝呢? 什么是零拷贝 WIKI中对其有如下 ...

  3. CentOS7安装MySQL报错Failed to start mysqld.service: Unit not found解决办法

    1 ~]# systemctl start mysql.service 要启动MySQL数据库是却是这样的提示 1 ~]# Failed to start mysqld.service: Unit n ...

  4. 51 Nod 数字1的数量

    1009 数字1的数量  基准时间限制:1 秒 空间限制:131072 KB 分值: 5 难度:1级算法题  收藏  关注 给定一个十进制正整数N,写下从1开始,到N的所有正数,计算出其中出现所有1的 ...

  5. Tarjan求LCA胡乱写的板子 x

    首先Tarjan算法的基本思路: 1.任选一个点为根节点,从根节点开始. 2.遍历该点u所有子节点v,并标记这些子节点v已被访问过. 3.若是v还有子节点,继续搜索下去,否则下一步. 4.合并v到u上 ...

  6. unittest详解(四) 批量执行用例(discover)

    前面我们说了,对于不同文件用例,我们可以通过addTest()把用例加载到一个测试套件(TestSuite)来统一执行,对于少量的文件这样做没问题,但是如果有几十上百个用例文件,这样做就太浪费时间了. ...

  7. Java 工程师成神之路

    基础篇 → 什么是面向对象 面向对象.面向过程 是一种新兴的程序设计方法,或者是一种新的程序设计规范(paradigm),其基本思想是使用对象.类.继承.封装.多态等基本概念来进行程序设计.从现实世界 ...

  8. javascript插件制作学习-制作步骤

    原生JavaScript插件开发学习 自己制作的demo大家可以看下https://www.cnblogs.com/zimengxiyu/p/9814889.html 插件制作步骤: (一)构造函数 ...

  9. 2018-2019-2 网络对抗技术 20165232 Exp7 网络欺诈防范

    2018-2019-2 网络对抗技术 20165232 Exp7 网络欺诈防范 原理与实践说明 1.实践目标 理解常用网络欺诈背后的原理,以提高防范意识,并提出具体防范方法. 2.实践内容概述 简单应 ...

  10. JS基础_Null和Undefind

    1.Null Null类型的值只有一个值,就是null null专门用来表示一个为空的对象 var a=null; console.log(a);//nulltypeof a //object 2.U ...