一、离散的、标签化的数据

原文没有使用pandas，我使用pandas重新实现了朴素贝叶斯算法，看起来非常简洁、清爽。

import pandas as pd

'''

导入数据集

{a1 = 0, a2 = 0, C = 0} {a1 = 0, a2 = 0, C = 1}

{a1 = 0, a2 = 0, C = 0} {a1 = 0, a2 = 0, C = 1}

{a1 = 0, a2 = 0, C = 0} {a1 = 0, a2 = 0, C = 1}

{a1 = 1, a2 = 0, C = 0} {a1 = 0, a2 = 0, C = 1}

{a1 = 1, a2 = 0, C = 0} {a1 = 0, a2 = 0, C = 1}

{a1 = 1, a2 = 0, C = 0} {a1 = 1, a2 = 0, C = 1}

{a1 = 1, a2 = 1, C = 0} {a1 = 1, a2 = 0, C = 1}

{a1 = 1, a2 = 1, C = 0} {a1 = 1, a2 = 1, C = 1}

{a1 = 1, a2 = 1, C = 0} {a1 = 1, a2 = 1, C = 1}

{a1 = 1, a2 = 1, C = 0} {a1 = 1, a2 = 1, C = 1}

'''

#导入数据集

data = [[0, 0, 0],

[0, 0, 0],

[0, 0, 0],

[1, 0, 0],

[1, 0, 0],

[1, 0, 0],

[1, 1, 0],

[1, 1, 0],

[1, 1, 0],

[1, 1, 0],

[0, 0, 1],

[0, 0, 1],

[0, 0, 1],

[0, 0, 1],

[0, 0, 1],

[1, 0, 1],

[1, 0, 1],

[1, 1, 1],

[1, 1, 1],

[1, 1, 1]]

df = pd.DataFrame(data, columns=['a1', 'a2', 'c'])

'''

#计算类别的先验概率

#P(C = 0) = 0.5

#P(C = 1) = 0.5

'''

#计算类别的先验概率

pc = df['c'].value_counts()/df['c'].size

'''

计算每个特征属性条件概率：

P(a1 = 0 | C = 0) = 0.3

P(a1 = 1 | C = 0) = 0.7

P(a2 = 0 | C = 0) = 0.4

P(a2 = 1 | C = 0) = 0.6

P(a1 = 0 | C = 1) = 0.5

P(a1 = 1 | C = 1) = 0.5

P(a2 = 0 | C = 1) = 0.7

P(a2 = 1 | C = 1) = 0.3

'''

# 计算每个特征属性条件概率：

pa1 = pd.crosstab(df['c'], df['a1'], margins=True).apply(lambda x:x/x[-1], axis=1)

pa2 = pd.crosstab(df['c'], df['a2'], margins=True).apply(lambda x:x/x[-1], axis=1)

'''

测试样本：

x = { a1 = 1, a2 = 1}

p(x | C = 0) = p(a1 = 1 | C = 0) * p( a2 = 1 | C = 0) = 0.3 * 0.6 = 0.18

p(x | C = 1) = p(a1 = 1 | C = 1) * p (a2 = 1 | C = 1) = 0.5 * 0.3 = 0.15

'''

# 给出测试样本：

x = pd.Series([1,1], index=['a1', 'a2'])

px = pa1.ix[:,x[0]].mul(pa2.ix[:,x[1]])[:-1]

'''

计算P(C | x):

P(C = 0) * p(x | C = 1) = 0.5 * 0.18 = 0.09

P(C = 1) * p(x | C = 1) = 0.5 * 0.15 = 0.075

所以认为测试样本属于类型C1

'''

# 计算P(C | x)

res = pc.mul(px).argmax()

print(res)

同样的方法，7行代码解决这里的问题：

import pandas as pd

data = [['打喷嚏','护士','感冒'],

        ['打喷嚏','农夫','过敏'],

        ['头痛','建筑工人','脑震荡'],

        ['头痛','建筑工人','感冒'],

        ['打喷嚏','教师','感冒'],

        ['头痛','教师','脑震荡']]

df = pd.DataFrame(data, columns=['症状','职业','疾病'])

#计算类别的先验概率

pr = df['疾病'].value_counts()/df['疾病'].size

# 计算每个特征属性条件概率：

pzz = pd.crosstab(df['疾病'], df['症状'], margins=True).apply(lambda x:x/x[-1], axis=1)

pzy = pd.crosstab(df['疾病'], df['职业'], margins=True).apply(lambda x:x/x[-1], axis=1)

# 给出测试样本：

x = pd.Series(['打喷嚏','建筑工人'], index=['症状','职业'])

px = pzz.ix[:,x[0]].mul(pzy.ix[:,x[1]])[:-1]

# 计算P(C | x)

res = pr.mul(px).argmax()

print(res)

二、连续的、非标签化的数据

1.连续变量，样本足够大。使用区间，标签化

这里的第二个例子：

**

# 检测SNS社区中不真实账号

# 运维人员人工检测过的1万个账号作为训练样本

# 原始数据格式：

# ['日志数量','好友数量','注册天数','是否使用真实头像','账号类别']

'''可惜，没有真实数据！！！！'''

data = [

    [3,0,120,1,1],

    [3,0,120,1,1],

    [3,0,120,1,1],

    [3,0,120,1,1],

    [3,0,120,1,1],

    [3,0,120,1,1],

    [3,0,120,1,1],

    #...

    [3,0,120,1,1]]

df = pd.DataFrame(data, columns=['日志数量','好友数量','注册天数','是否使用真实头像','账号类别'])

# 计算训练样本中每个类别的频率(当做 类别的先验概率)

'''

P(C=0) = 8900/10000 = 0.89

P(C=1) = 1100/10000 = 0.11

'''

pr = df['账号类别'].value_counts()/df['账号类别'].size

#================================================================

#----------------------------------------------------------------

# 构建两个特征

# ['日志数量/注册天数','好友数量/注册天数']

df['日志数量/注册天数'] = df['日志数量'].div(df['注册天数'])

df['好友数量/注册天数'] = df['好友数量'].div(df['注册天数'])

# 把'日志数量/注册天数'分解成[0, 0.05]、(0.05, 0.2)、[0.2, +∞)三个区间

# 把'好友数量/注册天数'分解成[0, 0.1]、(0.1, 0.8)、[0.8, +∞)三个区间

# 打标签函数（根据 x 值所在的区间）

def depart(x, low, high):

    if x <= low:

        return 0

    elif x >= high:

        return 2

    else:

        return 1

# 打标签

df['特征1'] = df['日志数量/注册天数'].apply(depart, args=(0.05, 0.2))

df['特征2'] = df['好友数量/注册天数'].apply(depart, args=(0.1, 0.8))

df['特征3'] = df['是否使用真实头像']

#----------------------------------------------------------------

#================================================================

# 计算每个特征属性条件概率：

ptz1 = pd.crosstab(df['账号类别'], df['特征1'], margins=True).apply(lambda x:x/x[-1], axis=1)

ptz2 = pd.crosstab(df['账号类别'], df['特征2'], margins=True).apply(lambda x:x/x[-1], axis=1)

ptz3 = pd.crosstab(df['账号类别'], df['特征3'], margins=True).apply(lambda x:x/x[-1], axis=1)

# 给出测试样本：

x_ = pd.Series([0.1, 0.2, 0], index=['日志数量/注册天数', '好友数量/注册天数', '是否使用真实头像'])

#================================================================

#----------------------------------------------------------------

# 打标签

x = pd.Series([depart(x_[0], 0.05, 0.2), depart(x_[1], 0.1, 0.8), x_[2]], index=['特征1','特征2','特征3'])

#----------------------------------------------------------------

#================================================================

px = ptz1.ix[:,x[0]].mul(ptz2.ix[:,x[1]]).mul(ptz3.ix[:,x[2]])[:-1]

# 计算P(C | x)

res = pr.mul(px).argmax()

print(res)

2.连续变量，样本太小，无法划分区间。

假设符合正态分布，先求出按类的均值，方差，再代入密度函数

这里的第三个例子：

**

import pandas as pd

# 关于处理连续变量的另一种方法

# 下面是一组人类身体特征的统计资料

data = [['男', 6, 180, 12],

        ['男', 5.92, 190, 11],

        ['男', 5.58, 170, 12],

        ['男', 5.92, 165, 10],

        ['女', 5, 100, 6],

        ['女', 5.5, 150, 8],

        ['女', 5.42, 130, 7],

        ['女', 5.75, 150, 9]]

df = pd.DataFrame(data, columns=['性别','身高（英尺）','体重（磅）','脚掌（英寸）'])

# 已知某人身高6英尺、体重130磅，脚掌8英寸，请问该人是男是女？

x = pd.Series([6,130,8], index=['身高（英尺）','体重（磅）','脚掌（英寸）'])

# 这里的困难在于，

# 1.连续变量

# 2.样本太少（无法分成区间）

# 解决：

# 假设男性和女性的身高、体重、脚掌都是正态分布，

# 通过样本计算出均值和方差，也就是得到正态分布的密度函数。

# 有了密度函数，就可以把值代入，算出某一点的密度函数的值。

mean_male = df[df['性别']=='男'].mean()

var_male = df[df['性别']=='男'].var()

mean_formale = df[df['性别']=='女'].mean()

var_formale = df[df['性别']=='女'].var()

df2 = pd.concat((x, mean_male, var_male, mean_formale, var_formale), axis=1, keys=['x', 'mean_male', 'var_male', 'mean_formale', 'var_formale'])

# 正态分布密度函数：

# f(x|male) = exp(-(x-mean)**2/(2*var))/sqrt(2*pi*var)

from math import pi

def f(x, mean, var):

    return exp(-(x-mean)**2/(2*var))/sqrt(2*pi*var) # 密度函数

# 求对应的密度函数值

df2['px_male'] = df2['x', 'mean_male', 'var_male'].apply(lambda x:f(x[0],x[1],x[2])) ###################报错！容后再改！！

df2['px_formale'] = df2['x', 'mean_formale', 'var_formale'].apply(lambda x:f(x[0],x[1],x[2]))

# 类别的先验概率

pr = df['性别'].value_counts()/df['性别'].size

# 预测结果

res = pd.Series([df2['p_male'].cumprod()[-1]*pr['男'], df2['p_formale'].cumprod()[-1]]*pr['女'], index=['男','女']).argmax()

print(res)

使用pandas，7行代码实现朴素贝叶斯的更多相关文章

朴素贝叶斯python代码实现（西瓜书）
朴素贝叶斯python代码实现(西瓜书) 摘要: 朴素贝叶斯也是机器学习中一种非常常见的分类方法,对于二分类问题,并且数据集特征为离散型属性的时候, 使用起来非常的方便.原理简单,训练效率高,拟合效果 ...
利用朴素贝叶斯算法进行分类-Java代码实现
http://www.crocro.cn/post/286.html 利用朴素贝叶斯算法进行分类-Java代码实现鳄鱼 3个月前 (12-14) 分类:机器学习阅读(44) 评论(0) ...
朴素贝叶斯算法简介及python代码实现分析
概念: 贝叶斯定理:贝叶斯理论是以18世纪的一位神学家托马斯.贝叶斯(Thomas Bayes)命名.通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A(发生)的条件下的概率是不一样的:然而 ...
朴素贝叶斯算法源码分析及代码实战【python sklearn/spark ML】
一.简介贝叶斯定理是关于随机事件A和事件B的条件概率的一个定理.通常在事件A发生的前提下事件B发生的概率,与在事件B发生的前提下事件A发生的概率是不一致的.然而,这两者之间有确定的关系,贝叶斯定理就 ...
【sklearn朴素贝叶斯算法】高斯分布/多项式/伯努利贝叶斯算法以及代码实例
朴素贝叶斯朴素贝叶斯方法是一组基于贝叶斯定理的监督学习算法,其"朴素"假设是:给定类别变量的每一对特征之间条件独立.贝叶斯定理描述了如下关系: 给定类别变量$y$以及属性值向 ...
机器学习---用python实现朴素贝叶斯算法（Machine Learning Naive Bayes Algorithm Application）
在<机器学习---朴素贝叶斯分类器(Machine Learning Naive Bayes Classifier)>一文中,我们介绍了朴素贝叶斯分类器的原理.现在,让我们来实践一下. 在 ...
朴素贝叶斯算法下的情感分析——C#编程实现
这篇文章做了什么朴素贝叶斯算法是机器学习中非常重要的分类算法,用途十分广泛,如垃圾邮件处理等.而情感分析(Sentiment Analysis)是自然语言处理(Natural Language Pr ...
C#编程实现朴素贝叶斯算法下的情感分析
C#编程实现这篇文章做了什么朴素贝叶斯算法是机器学习中非常重要的分类算法,用途十分广泛,如垃圾邮件处理等.而情感分析(Sentiment Analysis)是自然语言处理(Natural Lang ...
【Machine Learning in Action --4】朴素贝叶斯从个人广告中获取区域倾向
背景:广告商往往想知道关于一个人的一些特定人口统计信息,以便能更好地定向推销广告. 我们将分别从美国的两个城市中选取一些人,通过分析这些人发布的信息,来比较这两个城市的人们在广告用词上是否不同.如果结 ...

随机推荐

AndroidKiller报.smali文件丢失问题解决(关闭Android Studio的Instant Run)
第一节编写一个Android程序里我们生成了一个验证激活码的apk,当我们输入的激活码正确时才能注册成功,输入错误时注册失败. 现在我们想输入错误的激活码也能注册.我们用Android反编译工具进行反 ...
Hive lateral view explode
select 'hello', x from dual lateral view explode(array(1,2,3,4,5)) vt as x 结果是: hello 1 hello 2 ...
[经典bug]弹框关闭按钮点击后程序闪退
问题背景: 业务上遇到一个很诡异的问题:弹框界面上有一个关闭按钮,切换后台再返回后,点击关闭按钮,部分机型上会直接崩溃.点击手机返回键关闭界面则正常. 问题原因: 点击关闭按钮的操作属于UI线程,直接 ...
Don't Dismiss Georgia Tech's $6,600 Online Master's Degree
https://www.pcmag.com/commentary/343924/dont-dismiss-georgia-techs-6-600-online-masters-degree Don't ...
【存在问题，待修改】SSH 远程登陆
0. 前提设置 hosts 参考链接 Linux 配置 hosts SSH公钥登录原理 1. SSH 是什么 SSH ( Secure Shell ) 是一种协议标准,其目的是实现安全远程登录以及其 ...
关于mybatis反向生成为什么有时候实体类会变成两个
一般来说,将TEXT字段,从一张操作频繁的表中拆分出去,成为一个Key-Value结构的独立表是好处颇多的. 其有利之处主要体现在下面三个方面: PS:以下的讨论对象均基于Innodb引擎 1. 便 ...
关于使用python的open函数时报No Such File or DIr的错误
我写的代码如下: def createFileWithFileName(localPathParam,fileName): totalPath=local_url+'\\'+fileName if n ...
一个U盘黑掉你：TEENSY实战(test)
挖掘过程一: 自从上一次投稿,已经好久好久没写文章了.今天就着吃饭的时间,写篇文章,记录下自己学习xss这么久的心得.在我看来.Xss就是javascript注入,你可以在js语法规定的范畴内做任何事 ...
Java BAT大型公司面试必考技能视频-1.HashMap源码分析与实现
视频通过以下四个方面介绍了HASHMAP的内容一. 什么是HashMap Hash散列将一个任意的长度通过某种算法(Hash函数算法)转换成一个固定的值. MAP:地图 x,y 存储总结:通过HA ...
python爬虫（三）
webdriver Selenium是ThroughtWorks公司开发的一套Web自动化测试工具.它分为三个组件:Selenium IDE,Selenium RC (Remote Control), ...

使用pandas，7行代码实现朴素贝叶斯

一、离散的、标签化的数据

二、连续的、非标签化的数据

1.连续变量，样本足够大。使用区间，标签化

2.连续变量，样本太小，无法划分区间。

使用pandas，7行代码实现朴素贝叶斯的更多相关文章

随机推荐

热门专题