朴素贝叶斯-对数似然Python实现-Numpy

《Machine Learning in Action》

为防止连续乘法时每个乘数过小，而导致的下溢出（太多很小的数相乘结果为0，或者不能正确分类）

训练：

def trainNB0(trainMatrix,trainCategory):

    numTrainDocs = len(trainMatrix)

    numWords = len(trainMatrix[0])

    pAbusive = sum(trainCategory)/float(numTrainDocs)

    p0Num = ones(numWords);p1Num = ones(numWords)#计算频数初始化为1

    p0Denom = 2.0;p1Denom = 2.0                  #即拉普拉斯平滑

    for i in range(numTrainDocs):

        if trainCategory[i]==1:

            p1Num += trainMatrix[i]

            p1Denom += sum(trainMatrix[i])

        else:

            p0Num += trainMatrix[i]

            p0Denom += sum(trainMatrix[i])

    p1Vect = log(p1Num/p1Denom)#注意

    p0Vect = log(p0Num/p0Denom)#注意

    return p0Vect,p1Vect,pAbusive#返回各类对应特征的条件概率向量

                                 #和各类的先验概率

分类：

def classifyNB(vec2Classify,p0Vec,p1Vec,pClass1):

    p1 = sum(vec2Classify * p1Vec) + log(pClass1)#注意

    p0 = sum(vec2Classify * p0Vec) + log(1-pClass1)#注意

    if p1 > p0:

        return 1

    else:

        return 0

def testingNB():#流程展示

    listOPosts,listClasses = loadDataSet()#加载数据

    myVocabList = createVocabList(listOPosts)#建立词汇表

    trainMat = []

    for postinDoc in listOPosts:

        trainMat.append(bagOfWord2VecMN(myVocabList,postinDoc))

    p0V,p1V,pAb = trainNB0(trainMat,listClasses)#训练

    #测试

    testEntry = ['love','my','dalmation']

    thisDoc = bagOfWord2VecMN(myVocabList,testEntry)

    print testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb)

注意：上述代码中标有注意的地方，是公式中概率连乘变成了对数概率相加。此举可以在数学上证明不会影响分类结果，且在实际计算中，避免了因概率因子远小于1而连乘造成的下溢出。　　

朴素贝叶斯-对数似然Python实现-Numpy的更多相关文章

朴素贝叶斯算法的python实现方法
朴素贝叶斯算法的python实现方法本文实例讲述了朴素贝叶斯算法的python实现方法.分享给大家供大家参考.具体实现方法如下: 朴素贝叶斯算法优缺点优点:在数据较少的情况下依然有效,可以处理多类 ...
朴素贝叶斯算法的python实现
朴素贝叶斯算法优缺点优点:在数据较少的情况下依然有效,可以处理多类别问题缺点:对输入数据的准备方式敏感适用数据类型:标称型数据算法思想: 朴素贝叶斯比如我们想判断一个邮件是不是垃圾邮件,那么 ...
朴素贝叶斯算法的python实现-乾颐堂
算法优缺点优点:在数据较少的情况下依然有效,可以处理多类别问题缺点:对输入数据的准备方式敏感适用数据类型:标称型数据算法思想: 朴素贝叶斯比如我们想判断一个邮件是不是垃圾邮件,那么我们知道的 ...
朴素贝叶斯算法的python实现 -- 机器学习实战
import numpy as np import re #词表到向量的转换函数 def loadDataSet(): postingList = [['my', 'dog', 'has', 'fle ...
【机器学习实战笔记(3-2)】朴素贝叶斯法及应用的python实现
文章目录 1.朴素贝叶斯法的Python实现 1.1 准备数据:从文本中构建词向量 1.2 训练算法:从词向量计算概率 1.3 测试算法:根据现实情况修改分类器 1.4 准备数据:文档词袋模型 2.示 ...
【Spark机器学习速成宝典】模型篇04朴素贝叶斯【Naive Bayes】（Python版）
目录朴素贝叶斯原理朴素贝叶斯代码(Spark Python) 朴素贝叶斯原理详见博文:http://www.cnblogs.com/itmorn/p/7905975.html 返回目录朴素贝叶 ...
统计学习方法与Python实现（三）——朴素贝叶斯法
统计学习方法与Python实现(三)——朴素贝叶斯法 iwehdio的博客园:https://www.cnblogs.com/iwehdio/ 1.定义朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设 ...
吴裕雄--天生自然python机器学习：朴素贝叶斯算法
分类器有时会产生错误结果,这时可以要求分类器给出一个最优的类别猜测结果,同时给出这个猜测的概率估计值. 概率论是许多机器学习算法的基础在计算特征值取某个值的概率时涉及了一些概率知识,在那里我们先 ...
Python实现nb(朴素贝叶斯)
Python实现nb(朴素贝叶斯) 运行环境 Pyhton3 numpy科学计算模块计算过程 st=>start: 开始 op1=>operation: 读入数据 op2=>ope ...

随机推荐

git add && git add -u && git add -A
git add将当前工作目录中更改或者新增的文件加入到Git的索引中,加入到Git的索引中就表示记入了版本历史中,这也是提交之前所需要执行的一步.可以递归添加,即如果后面跟的是一个目录作为参数,则会递 ...
react 学习日记
1.本地配置代理服务: create-react-app 创建的react项目 package.jsoin 中加入: "proxy": "http://localh ...
oo面向对象--规格化设计
oo面向对象--规格化设计规格化设计与抽象要了解规格化设计首先要了解抽象化的程序设计,两者是密不可分的. 抽象化(Abstraction) 抽象化是将数据与程序,用语义呈现他们的外观,但是隐藏起它 ...
U盘安装电脑系统教程
[怎么使用u盘安装系统.U盘装系统.如何用U盘安装系统.U盘制作系统.U盘引导.U盘启动.U盘量产.安装系统.如何设置U盘启动] 在电脑系统的日常使用中,经常会遇到系统崩溃或重新安装系统的情况,没有光 ...
C# [ModelName]标记模型，类名称重复。
前几天遇到一个不算bug的bug 记录分享一下出错情况 webapi 程序会自带一个模板如图点某一个接口进去后出错原因 model实体中出现了名称一样的(并不会影响程 ...
带CookieContainer进行post
1.获取CookieContainer ——用户登录 CookieContainer cookie = new CookieContainer(); UserLoginPost("post地 ...
centos7下安装momgodb3
简介 MongoDB 是一个基于分布式文件存储的NoSQL数据库由C++语言编写,运行稳定,性能高旨在为 WEB 应用提供可扩展的高性能数据存储解决方案查看官方网站 MongoDB特点模式自 ...
Array.prototype.slice.call(arguments)探究
Array.prototype.slice.call(arguments)能将具有length属性的对象转成数组首先,slice有两个用法,一个是String.slice,一个是Array.slic ...
.gitignore忽略git版本库中的文件(夹)
# 忽略*.o和*.a文件 *.[oa] # 忽略*.b和*.B文件,my.b除外 *.[bB] !my.b # 忽略dbg文件和dbg目录 dbg # 只忽略dbg目录,不忽略dbg文件 dbg/ ...
【转】每天一个linux命令（59）：rcp命令
原文网址:http://www.cnblogs.com/peida/archive/2013/03/14/2958685.html rcp代表“remote file copy”(远程文件拷贝).该命 ...

朴素贝叶斯-对数似然Python实现-Numpy

朴素贝叶斯-对数似然Python实现-Numpy的更多相关文章

随机推荐

热门专题