手写朴素贝叶斯（naive_bayes）分类算法

朴素贝叶斯假设各属性间相互独立，直接从已有样本中计算各种概率，以贝叶斯方程推导出预测样本的分类。

为了处理预测时样本的（类别，属性值）对未在训练样本出现，从而导致概率为0的情况，使用拉普拉斯修正（假设属性值与类别均匀分布）。

代码及注释如下：

一、离散值

1，朴素贝叶斯算法计算相关参数并返回，预测使用这些参数即可

# 手写拉普拉斯修正的朴素贝叶斯

import numpy as np

import pandas as pd

def naive_bayes(data):

    '''data:pandas.DataFrame'''

#     列名

    attrs=data.columns

#     类别

    labels=data[attrs[-1]].unique()

#     类别数

    N=labels.size

#     样本总数

    D=data.index.size

#     c类样本概率

    pc=np.empty(shape=(N,1))

#     c类中，第i个属性取值为xi的概率，这里计算了所有，而非只针对测试样本，保存后predict时直接从里面取值即可

    p_xc=[]

#     包含每个属性的可取值

    features=[data[i].unique() for i in attrs[:-1]]

    for i in range(N):

        df=data[data[attrs[-1]]==labels[i]]

        Dc=df[attrs[0]].count()

        pc[i]=np.array([(Dc+1)/(D+N)])

        p_c=[]

        for j in range(len(features)):

            values=features[j]

            Ni=values.size

            c_attr=[]

            for value in values:

                Dc_xi=df[df[attrs[j]]==value].index.size

                c_attr.append((Dc_xi+1)/(Dc+Ni))

            p_c.append(c_attr)

        p_xc.append(p_c)

    return p_xc,pc,N,features,labels

# 预测一个样本

def predict(x,p_xc,pc,num_class,features,labels):

    result=[]

    for i in range(num_class):

        res=1.

        c=p_xc[i]

        for j in range(len(c)):

            feature_j=c[j]

            for k in range(len(feature_j)):

                if x[j]==features[j][k]:

                    res*=feature_j[k]

        result.append(pc[i][0]*res)

    max_c=0

    max_index=-1

    for i in range(len(result)):

        if result[i]>max_c:

            max_c=result[i]

            max_index=i

    return result,labels[max_index]

# 预测多个样本

def predicts(x,p_xc,pc,num_class,features,labels):

    result=[]

    for data in x:

        _,clazz=predict(data,p_xc,pc,num_class,features,labels)

        result.append(clazz)

    return result

2，使用西瓜集2.0训练及测试

def createDataSet():

    dataSet = [

        #

        ['青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', '好瓜'],

        #

        ['乌黑', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', '好瓜'],

        #

        ['乌黑', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', '好瓜'],

        #

        ['青绿', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', '好瓜'],

        #

        ['浅白', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', '好瓜'],

        #

        ['青绿', '稍蜷', '浊响', '清晰', '稍凹', '软粘', '好瓜'],

        #

        ['乌黑', '稍蜷', '浊响', '稍糊', '稍凹', '软粘', '好瓜'],

        #

        ['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '硬滑', '好瓜'],

        # ----------------------------------------------------

        #

        ['乌黑', '稍蜷', '沉闷', '稍糊', '稍凹', '硬滑', '坏瓜'],

        #

        ['青绿', '硬挺', '清脆', '清晰', '平坦', '软粘', '坏瓜'],

        #

        ['浅白', '硬挺', '清脆', '模糊', '平坦', '硬滑', '坏瓜'],

        #

        ['浅白', '蜷缩', '浊响', '模糊', '平坦', '软粘', '坏瓜'],

        #

        ['青绿', '稍蜷', '浊响', '稍糊', '凹陷', '硬滑', '坏瓜'],

        #

        ['浅白', '稍蜷', '沉闷', '稍糊', '凹陷', '硬滑', '坏瓜'],

        #

        ['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '软粘', '坏瓜'],

        #

        ['浅白', '蜷缩', '浊响', '模糊', '平坦', '硬滑', '坏瓜'],

        #

        ['青绿', '蜷缩', '沉闷', '稍糊', '稍凹', '硬滑', '坏瓜']

    ]

    # 特征值列表

    labels = ['色泽', '根蒂', '敲击', '纹理', '脐部', '触感','好坏']

    dataset=pd.DataFrame(data=dataSet,columns=labels)

    return dataset

3，训练及预测

这里预测使用训练数据，可以看到精度却不咋样，个人认为这跟样本太小、使用了修正（修正在大样本下的影响较小）及属性并非相互独立有关

dataset=createDataSet()

p_xc,pc,num_class,features,labels=naive_bayes(dataset)

value=dataset[dataset.columns[:-1]].values

result=predicts(value,p_xc,pc,num_class,features,labels)

real=dataset[dataset.columns[-1]].values

df=pd.DataFrame([[result[i]==real[i] for i in range(len(result))]])

# 精度 0.8235294117647058

df.iloc[0].sum()/df.iloc[0].count()

二、连续值

1，贝叶斯方法

def normal_distribution(mean,var,x):

    return np.power(np.e,-(x-mean)*(x-mean)/(2*var))/np.sqrt(2*np.pi*var)

# 连续值处理，假设数据服从正态分布，如上函数所示

def naive_bayes_2(X_train,y_train):

    '''data:pandas.DataFrame'''

    labels=list(set(y_train))

#     类别数

    num_class=len(labels)

    data=pd.DataFrame(X_train,columns=['l1','l2','l3','l4'])

    data['label']=y_train

    N=len(y_train)

#     均值和方差

    means=[]

    vals=[]

    #     c类样本概率

    pc=np.empty(shape=(num_class,1))

#     对每一类求均值和方差

    for i in range(num_class):

        df=data[data['label']==labels[i]]

        l=df.index.size

        pc[i]=l/N

        mean=[]

        val=[]

#         各属性的均值和方差

        for col in df.columns[:-1]:

            mean.append(df[col].mean())

            val.append(df[col].var())

        means.append(mean)

        vals.append(val)

    return means,vals,pc,labels

# 预测多个样本

def predict_2(x_test,means,vals,pc,labels):

    num_class=len(labels)

    results=[]

    for x in x_test:

        result=[]

        for i in range(num_class):

            res=1.

            res*=pc[i][0]

            j=0

            for mean,val in zip(means[i],vals[i]):

                res*=normal_distribution(mean,val,x[j])

                j+=1

            result.append(res)

        results.append(labels[result.index(max(result))])

    return results

2，使用sklearn中iris数据集

from sklearn.datasets import load_iris

data = load_iris()

x=data['data']

y=data['target']

cols=data['target_names']

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test=train_test_split(x,y,test_size=0.2,random_state=10)

3，训练及测试

means,vals,pc,labels=naive_bayes_2(X_train,y_train)

results=predict_2(X_test,means,vals,pc,labels)

from sklearn.metrics import accuracy_score

# 精度100%

accuracy_score(results,y_test)

三、总结

例举了2个例子，离散值的样本少，使用了修正，精度不咋样，连续值的精度100%，取得不错的效果，也说明各个类别下的各个特征基本符合正态分布。

手写朴素贝叶斯（naive_bayes）分类算法的更多相关文章

3.朴素贝叶斯和KNN算法的推导和python实现
前面一个博客我们用Scikit-Learn实现了中文文本分类的全过程,这篇博客,着重分析项目最核心的部分分类算法:朴素贝叶斯算法以及KNN算法的基本原理和简单python实现. 3.1 贝叶斯公式的推 ...
机器学习集成算法--- 朴素贝叶斯,k-近邻算法,决策树,支持向量机(SVM),Logistic回归
朴素贝叶斯: 是使用概率论来分类的算法.其中朴素:各特征条件独立:贝叶斯:根据贝叶斯定理.这里,只要分别估计出,特征 Χi 在每一类的条件概率就可以了.类别 y 的先验概率可以通过训练集算出 k-近邻 ...
朴素贝叶斯算法——实现新闻分类（Sklearn实现）
1.朴素贝叶斯实现新闻分类的步骤 (1)提供文本文件,即数据集下载 (2)准备数据将数据集划分为训练集和测试集:使用jieba模块进行分词,词频统计,停用词过滤,文本特征提取,将文本数据向量化停用 ...
Python机器学习笔记：朴素贝叶斯算法
朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法.对于大多数的分类算法,在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同.比如决策树,KNN,逻辑回归,支持向 ...
[机器学习] 分类 --- Naive Bayes（朴素贝叶斯）
Naive Bayes-朴素贝叶斯 Bayes' theorem(贝叶斯法则) 在概率论和统计学中,Bayes' theorem(贝叶斯法则)根据事件的先验知识描述事件的概率.贝叶斯法则表达式如下所示 ...
统计学习方法与Python实现（三）——朴素贝叶斯法
统计学习方法与Python实现(三)——朴素贝叶斯法 iwehdio的博客园:https://www.cnblogs.com/iwehdio/ 1.定义朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设 ...
scikit-learn 朴素贝叶斯类库使用小结
之前在朴素贝叶斯算法原理小结这篇文章中,对朴素贝叶斯分类算法的原理做了一个总结.这里我们就从实战的角度来看朴素贝叶斯类库.重点讲述scikit-learn 朴素贝叶斯类库的使用要点和参数选择. 1. ...
机器学习Sklearn系列：（四）朴素贝叶斯
3--朴素贝叶斯原理朴素贝叶斯本质上就是通过贝叶斯公式来对得到类别概率,但区别于通常的贝叶斯公式,朴素贝叶斯有一个默认条件,就是特征之间条件独立. 条件概率公式: \[P(B|A) = \frac ...
Mahout朴素贝叶斯文本分类
Mahout朴素贝叶斯文本分类算法 Mahout贝叶斯分类器按照官方的说法,是按照<Tackling the PoorAssumptions of Naive Bayes Text Classi ...

随机推荐

P1081 [NOIP2012]开车旅行[倍增]
P1081 开车旅行题面较为啰嗦.大概概括:一个数列,只能从一个点向后走,两种方案:A.走到和自己差的绝对值次小的点B.走到和自己差的绝对值最小点:花费为此差绝对值:若干询问从规定点向后最多花 ...
网络编程简介（OSI七层协议，TCP协议原理，三次握手与四次挥手）
目录网络编程软件开发架构 C/S架构 B/S架构网络编程的发展史互联网协议 1.物理连接层 2.数据链路层 3.网络层 4.传输层 5.应用层三次握手四次挥手三次握手建链接数据传输四次 ...
【leetcode】1257. Smallest Common Region
题目如下: You are given some lists of regions where the first region of each list includes all other reg ...
css之页面透明
能使元素变的透明的方法有: 1.Opacity 2.RGBA opacity会使后代元素都透明,而RGBA不会!
codevs 5960 信使x
题目描述 Description •战争时期,前线有n个哨所,每个哨所可能会与其他若干个哨所之间有通信联系.信使负责在哨所之间传递信息,当然,这是要花费一定时间的(以天为单位).指挥部设在第一个哨所. ...
【清华集训2016】Alice和Bob又在玩游戏
不难的题目.因为SG性质,所以只需要对一棵树求出. 然后如果发现从上往下DP不太行,所以从下往上DP. 考虑一个点对子树的合并,考虑下一个删的点在哪一个子树,那么剩下的状态实际上就是把一个子树所有能达 ...
axios多并发请求
场景: 点击导出Excel按钮实现,姓名列表中前五个的所有的文章数据发送给后端,姓名列表中点击过的数据会被存放到localStorage中: 思路: 点击导出按钮,把前五个数据逐个和localStor ...
hdu 4763 看毛片(单纯next数组的应用--纯正O(n))
因为需要负责队内的字符串题,开始刷,做到这道,开始想不出来,上网找题解, 然后就惊了,为什么你们这么暴力都可以过的啊,1e6啊,后来又想了下会做了贴下代码 #include <iostream ...
[洛谷P1501] [国家集训队]Tree II（LCT模板）
传送门这是一道LCT的板子题,说白了就是在LCT上支持线段树2的操作. 所以我只是来存一个板子,并不会讲什么(再说我也不会,只能误人子弟2333). 不过代码里的注释可以参考一下. Code #in ...
[CSP-S模拟测试]:笨小猴（随机化）
题目传送门(内部题118) 输入格式输入第一行是一个整数$n$,意义如以上所示. 接下来有$2n+1$行,每行为两个正整数,第$i$行的两个正整数分别代表$A_i$和$B_i$. 输出格式如果无法 ...

手写朴素贝叶斯（naive_bayes）分类算法

手写朴素贝叶斯（naive_bayes）分类算法的更多相关文章

随机推荐

热门专题