版权声明:<—— 用心写好你的每一篇文章,转载请注明出处@http://blog.csdn.net/gamer_gyt <——

 

目录(?)[+]

 
======================================================================

本系列博客主要参考 Scikit-Learn 官方网站上的每一个算法进行,并进行部分翻译,如有错误,请大家指正

转载请注明出处,谢谢

======================================================================

另外在《机器学习实战》中的 朴素贝叶斯分类算法比较深刻的解读了朴素贝叶斯分类算法的原理,基于朴素贝叶斯分类算法构建文本分类器的Python实现主要用Python实现贝叶斯分类,并构建了一个简单的文本分类器模型,接下来将着重解读scikit-learn中关于贝叶斯算法的一些说明

1:朴素贝叶斯算法说明

2:高斯朴素贝叶斯(Gaussian Naive Bayes)

3:多项式朴素贝叶斯(Multinomial Naive Bayes)

4:伯努利朴素贝叶斯( Bernoulli Naive Bayes)

一:朴素贝叶斯算法说明

朴素贝叶斯算法是建立在每一个特征值之间时独立的基础上的监督学习分类算法,而这也是称他为 “朴素”贝叶斯的缘由,在现实环境中,很难达到两个特征值之间绝对的相互独立。在给定一个类变量Y和依赖的特征向量x_1通过x_n,贝叶斯定理的状态下面的关系:

假设两个特征值之间时相互独立的                

对于所有的 i 值,这种关系被简化为             

由于P(x_1,....  ,x_n)是恒定的给定的输入,我们可以使用以下的分类规则(前者正比于后者):

我们可以使用最大后验概率(MAP)来估计p(y)和p(xi|y),p(y)是在训练集中y发生的概率

不同朴素贝叶斯分类算法是因为他们对P(Xi|y)做出了不同的假设

尽管朴素贝叶斯的假设过于简单,但在已有的应用中,如文档分类和垃圾邮件分类,他都表现出了相当好的效果(至于理论上的原因,为什么朴素贝叶斯的效果很好,并且他适合处理的数据类型,请继续往下阅读)

和其他更先进的方法相比,朴素贝叶斯算法学习和分类的过程效率更高,每个类条件特征的独立分布意味着每个类分布可以独立的估计为一维分布,这反过来有助于缓解数据降维所带来的麻烦

另一方面,尽管朴素贝叶斯分类被归纳为一个高效的分类器,但是他有一个坏的估计,因为对于他的输出预测并不能被认真看待

上边提到了不同的贝叶斯分类算法是因为他们对P(Xi|y)做出了不同的假设,下面我们就来看集中常见的P(Xi|y)的假设以及scikit-learn中的实现方法

二:高斯朴素贝叶斯

GaussianNB 继承高斯朴素贝叶斯,特征可能性被假设为高斯:

代码示例如下:

  1. #高斯朴素贝叶斯
  2. import numpy as np
  3. X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
  4. Y = np.array([1, 1, 1, 2, 2, 2])
  5. from sklearn.naive_bayes import GaussianNB
  6. clf = GaussianNB().fit(X, Y)
  7. print clf.predict([[-0.8,-1]])
  8. '''''
  9. partial_fit说明:增量的训练一批样本
  10. 这种方法被称为连续几次在不同的数据集,从而实现核心和在线学习,这是特别有用的,当数据集很大的时候,不适合在内存中运算
  11. 该方法具有一定的性能和数值稳定性的开销,因此最好是作用在尽可能大的数据块(只要符合内存的预算开销)
  12. '''
  13. clf_pf = GaussianNB().partial_fit(X, Y, np.unique(Y))
  14. print clf_pf.predict([[-0.8,-1]])

输出结果为:


更多关于高斯贝叶斯分布的请参考:点击阅读

三:多项式分布

MultinomialNB实现multinomially分布数据的贝叶斯算法,是一个经典的朴素贝叶斯文本分类中使用的变种(其中的数据是通常表示为词向量的数量,虽然TF-IDF向量在实际项目中表现得很好),对于每一个y来说,分布通过向量参数化,n是类别的数目(在文本分类中,表示词汇量的长度) 表示标签i出现的样本属于类别y的概率

该参数   是一个平滑的最大似然估计,即相对频率计数:

  表示标签i在样本集T中属于类别y的 数目

 表示在所有标签中类别y出现的数目

平滑先验 a >=0表示学习样本中不存在的特征并防止在计算中概率为0,设置alpha = 1被称为拉普拉斯平滑,当α<1称为Lidstone平滑

代码示例如下:

  1. #多项式分布
  2. import numpy as np
  3. X = np.random.randint(5, size=(6, 100))
  4. y = np.array([1, 2, 3, 4, 5, 6])
  5. from sklearn.naive_bayes import MultinomialNB
  6. clf = MultinomialNB().fit(X, y)
  7. print clf.predict(X[2:3])

输出为   [3]

更多关于多项式分布请参考:点击阅读

四:伯努利朴素贝叶斯

BernoulliNB实现了朴素贝叶斯训练和分类算法是根据多元伯努利分布的分布数据;例如,可能会有多个特征,但每一个被假定为一个二进制值(伯努利、布尔)变量。因此,这类要求的样品被表示为二进制值的特征向量;如果交给其他任何类型的数据,一个bernoullinb实例可以进行输入(取决于二值化参数)

伯努利朴素贝叶斯决策规则的基础上

在文本分类的情况下,词的出现向量(而不是字计数向量)可以用来训练和使用该分类。bernoullinb可能会执行一些数据集上的更好,尤其是那些短的文件。如果时间允许的话,建议对两种模型进行评估。

示例代码如下:

  1. #伯努利分布
  2. import numpy as np
  3. X = np.random.randint(2, size=(6, 100))
  4. Y = np.array([1, 2, 3, 4, 4, 5])
  5. from sklearn.naive_bayes import BernoulliNB
  6. clf = BernoulliNB()
  7. clf.fit(X, Y)
  8. BernoulliNB(alpha=1.0, binarize=0.0, class_prior=None, fit_prior=True)
  9. print(clf.predict(X[2:3]))

输出结果为  [3]

更多关于伯努利朴素贝叶斯请参考:点击阅读

scikit-learn学习之贝叶斯分类算法的更多相关文章

  1. 机器学习-scikit learn学习笔记

    scikit-learn官网:http://scikit-learn.org/stable/ 通常情况下,一个学习问题会包含一组学习样本数据,计算机通过对样本数据的学习,尝试对未知数据进行预测. 学习 ...

  2. 从决策树学习谈到贝叶斯分类算法、EM、HMM --别人的,拷来看看

    从决策树学习谈到贝叶斯分类算法.EM.HMM     引言 最近在面试中,除了基础 &  算法 & 项目之外,经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然,这完全 ...

  3. 从决策树学习谈到贝叶斯分类算法、EM、HMM

    从决策树学习谈到贝叶斯分类算法.EM.HMM                (Machine Learning & Recommend Search交流新群:172114338) 引言 log ...

  4. Scikit Learn: 在python中机器学习

    转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...

  5. (原创)(四)机器学习笔记之Scikit Learn的Logistic回归初探

    目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优 一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...

  6. TensorFlow入门学习(让机器/算法帮助我们作出选择)

    catalogue . 个人理解 . 基本使用 . MNIST(multiclass classification)入门 . 深入MNIST . 卷积神经网络:CIFAR- 数据集分类 . 单词的向量 ...

  7. scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类 (python代码)

    scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...

  8. (原创)(三)机器学习笔记之Scikit Learn的线性回归模型初探

    一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价 模型训练好后,度量模型拟合效果的 ...

  9. 在Object-C中学习数据结构与算法之排序算法

    笔者在学习数据结构与算法时,尝试着将排序算法以动画的形式呈现出来更加方便理解记忆,本文配合Demo 在Object-C中学习数据结构与算法之排序算法阅读更佳. 目录 选择排序 冒泡排序 插入排序 快速 ...

随机推荐

  1. I/O事件处理模型之Reactor和Proactor 【转】

    http://blog.ddup.us/?p=280 这篇博客说的很清楚,赞一个: 在编写服务端软件的时候,如何处理各种I/O事件是其中很重要的一部分.在Unix Network Programmin ...

  2. arping 帮助——翻译

    [root@localhost ~]# arping --helparping: invalid option -- '-'Usage: arping [-fqbDUAV] [-c count] [- ...

  3. 题外话:我想立刻辞职,然后闭关学习编程语言,我给自己3个月时间学习C语言!这样行的通吗

    以下文章虽然是编程,但是对于IT行业都通用 文章背景,回答提问:我想立刻辞职,然后闭关学习编程语言,我给自己3个月时间学习C语言!这样行的通吗? 我的建议是这样:1. 不要辞职.首先说,你对整个开发没 ...

  4. Redis学习之路(008)- Redis C语言客户端库hiredis文档翻译

    Hiredis是Redis数据库一个轻量的C语言客户端库. 之所以轻量是由于它只是简单的提供了对redis操作语句支持的接口,并没有实现具体的操作语句的功能.但正是由于这种设计使我们只要熟悉了通用的r ...

  5. Ubuntu菜鸟入门(十二)—— 主题美化

    一.unity-tweak-tool 1.软件介绍 调整 Unity 桌面环境,还是推荐使用Unity Tweak Tool,这是一个非常好用的 Unity 图形化管理工具,可以修改工作区数量.热区等 ...

  6. golang学习笔记 ---命令行参数

    os 包以跨平台的方式,提供了一些与操作系统交互的函数和变量.程序的命令行参数可从os包的Args变量获取:os包外部使用os.Args访问该变量. os.Args变量是一个字符串(string)的切 ...

  7. 在CentOS上编译安装MySQL 5.7.13步骤详解

    MySQL 5.7主要特性 更好的性能 对于多核CPU.固态硬盘.锁有着更好的优化,每秒100W QPS已不再是MySQL的追求,下个版本能否上200W QPS才是用户更关心的. 更好的InnoDB存 ...

  8. PHP与MYSQL中UTF8 中文排序例子

    1. 需要在php数组中用中文排序,但是一般使用utf8格式的文件,直接用asort排序不行.用gbk和gb2312可以.这跟几种格式的编码有关系.gbk和gb2312本身的编码就是用拼音排序的. 代 ...

  9. GIT 简单版

    Git规范 by 程序亦非猿 2016.4.6 这又是一篇我在公司分享的,想制定一下Git的规范,有兴趣的可以看看~ 上一篇在这里 分支模型 每个项目必须要有master.develop分支. 每个开 ...

  10. flowable学习笔记-简单流程概念介绍

    1 Flowable process engine允许我们创建ProcessEngine 对象和使用 Flowable 的API ProcessEngine是线程安全的,他是通过 ProcessEng ...