利用朴素贝叶斯（Navie Bayes）进行垃圾邮件分类

贝叶斯公式描写叙述的是一组条件概率之间相互转化的关系。

在机器学习中。贝叶斯公式能够应用在分类问题上。

这篇文章是基于自己的学习所整理。并利用一个垃圾邮件分类的样例来加深对于理论的理解。

这里我们来解释一下朴素这个词的含义：

1）各个特征是相互独立的，各个特征出现与其出现的顺序无关；

2）各个特征地位同等重要；

以上都是比較强的如果

以下是朴素贝叶斯分类的流程：

这样我们就分别求出了这些特征各个类别下的条件概率，非常直观的，对于各个特征的联合概率分布就是各个条件概率进行相乘。如上式。可是这样会出现下面几个问题：

1）若某一个词未出如今字典中，那么其条件概率就会为0。那么总体的联合概率也就为0。为了避免这样的情况的

出现，这里会引入 Laplace smoothing的操作:假定输入样本中各个特征出现的次数至少为1，这样在求一个特征出

现的概率时对于分母。要加上其总的类别m；能够表述为例如以下公式，

p(w|h)=(实际出现的次数+1)/(总的特征出现次数+m)

2)还有一个问题是，若一个样本中特征个数非常多，那么可能会出现这种情况，单个特征出现的概率非常少，那么联合

概率相乘时。终于的值会很小。在计算机中可能出现下溢。为了避免这样的情况出现，能够对联合概率取对数

log(a*b)=log(a)+log(b)

上式能够转换为：

以上都是训练过程中会常常遇到的问题。

经过训练后，就能够得到非常多组这种公式。那么对于一封新的邮件过来了

怎么去判定其是否为垃圾邮件呢？

这里就会涉及到怎么样将单词这种特征转化成计算机能够方便处理的数字，非常直观的就是建立一个已知垃圾邮件中常常出现的单词的字典（向量）。对于新邮件。就能够将其转换到一个与字典相同大小的向量，出现的单词在对应的索引处标为‘1’，否则标 ‘0’。

下一步就是将得到的这个向量分别与训练得到的对数概率进行相乘了。

以下是python代码，来自机器学习实战这本书。

from numpy import *

def loadDataSet():

    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],

                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],

                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],

                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],

                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],

                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]

    classVec = [0,1,0,1,0,1]    #1 is abusive, 0 not

    return postingList,classVec

def createVocabList(dataSet):

    vocabSet = set([])  #create empty set

    for document in dataSet:

        vocabSet = vocabSet | set(document) #union of the two sets

    return list(vocabSet)

def setOfWords2Vec(vocabList, inputSet):

    returnVec = [0]*len(vocabList)

    for word in inputSet:

        if word in vocabList:

            returnVec[vocabList.index(word)] = 1

        else: print "the word: %s is not in my Vocabulary!" % word

    return returnVec

def trainNB0(trainMatrix,trainCategory):

    numTrainDocs = len(trainMatrix)

    numWords = len(trainMatrix[0])

    pAbusive = sum(trainCategory)/float(numTrainDocs)

    p0Num = ones(numWords); p1Num = ones(numWords)      #change to ones()

    p0Denom = 2.0; p1Denom = 2.0                        #change to 2.0

    for i in range(numTrainDocs):

        if trainCategory[i] == 1:

            p1Num += trainMatrix[i]

            p1Denom += sum(trainMatrix[i])

        else:

            p0Num += trainMatrix[i]

            p0Denom += sum(trainMatrix[i])

    p1Vect = log(p1Num/p1Denom)          #change to log()

    p0Vect = log(p0Num/p0Denom)          #change to log()

    return p0Vect,p1Vect,pAbusive

def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):

    p1 = sum(vec2Classify * p1Vec) + log(pClass1)    #element-wise mult

    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)

    if p1 > p0:

        return 1

    else:

        return 0

很多其它内容能够參考下面博客：

朴素贝叶斯分类器的应用：

贝叶斯判断及基互联网应用：过滤垃圾邮件

利用朴素贝叶斯（Navie Bayes）进行垃圾邮件分类的更多相关文章

利用朴素贝叶斯算法进行分类-Java代码实现
http://www.crocro.cn/post/286.html 利用朴素贝叶斯算法进行分类-Java代码实现鳄鱼 3个月前 (12-14) 分类:机器学习阅读(44) 评论(0) ...
朴素贝叶斯 Naive Bayes
2017-12-15 19:08:50 朴素贝叶斯分类器是一种典型的监督学习的算法,其英文是Naive Bayes.所谓Naive,就是天真的意思,当然这里翻译为朴素显得更学术化. 其核心思想就是利用 ...
机器学习算法实践：朴素贝叶斯 (Naive Bayes)（转载）
前言上一篇<机器学习算法实践:决策树 (Decision Tree)>总结了决策树的实现,本文中我将一步步实现一个朴素贝叶斯分类器,并采用SMS垃圾短信语料库中的数据进行模型训练,对垃圾 ...
Python实现利用朴素贝叶斯模型（NBC）进行问句意图分类
目录朴素贝叶斯分类(NBC) 程序简介分类流程字典(dict)构造:用于jieba分词和槽值替换数据集构建代码分析另外:点击右下角魔法阵上的[显示目录],可以导航~~ 朴素贝叶斯分类(NB ...
R 基于朴素贝叶斯模型实现手机垃圾短信过滤
# 读取数数据, 查看数据结构 df_raw <- read.csv("sms_spam.csv", stringsAsFactors=F) str(df_raw) leng ...
机器学习Matlab打击垃圾邮件的分类————朴素贝叶斯模型
该系列来自于我<人工智能>课程回顾总结,以及实验的一部分进行了总结学习机垃圾分类是有监督的学习分类最经典的案例,本文首先回顾了概率论的基本知识.则以及朴素贝叶斯模型的思想.最后给出了垃圾 ...
PGM：贝叶斯网表示之朴素贝叶斯模型naive Bayes
http://blog.csdn.net/pipisorry/article/details/52469064 独立性质的利用条件参数化和条件独立性假设被结合在一起,目的是对高维概率分布产生非常紧凑 ...
【机器学习速成宝典】模型篇05朴素贝叶斯【Naive Bayes】（Python版）
目录先验概率与后验概率条件概率公式.全概率公式.贝叶斯公式什么是朴素贝叶斯(Naive Bayes) 拉普拉斯平滑(Laplace Smoothing) 应用:遇到连续变量怎么办?(多项式分布, ...
[Machine Learning & Algorithm] 朴素贝叶斯算法（Naive Bayes）
生活中很多场合需要用到分类,比如新闻分类.病人分类等等. 本文介绍朴素贝叶斯分类器(Naive Bayes classifier),它是一种简单有效的常用分类算法. 一.病人分类的例子让我从一个例子 ...

随机推荐

SQL Server 函数的使用 Function
create table student ( id varchar2(5) primary key, name varchar2(20) not null, sex char(2) check(sex ...
Boolean operations between triangle meshes
Boolean operations between triangle meshes eryar@163.com Abstract. Boolean operations is one of basi ...
USACO milk
/* ID:kevin_s1 PROG:milk LANG:C++ */ #include <iostream> #include <string> #include < ...
css3.0+html绘制六边形
<section class="ass_desc"> <section class="ass_descLeft posRe"> < ...
Mysql学习总结（16）——Mysql之数据库设计规范
一.三大范式 1.第一范式:消除一个字段包含多个数据库值,消除一个记录包含重复的组(单独的一列包含多个项目),即可满足1NF. 2.第二范式:消除部分依赖性即可转化为2NF.部分依赖性表示一个记录中包 ...
JNDI学习总结（4）——Tomcat下使用Druid配置JNDI数据源
com.alibaba.druid.pool.DruidDataSourceFactory实现了javax.naming.spi.ObjectFactory,可以作为JNDI数据源来配置. 一.下载D ...
HTML中行内元素与块级元素有哪些及区别
二.行内元素与块级元素有什么不同? 块级元素和行内元素的区别是,块级元素会占一行显示,而行内元素可以在一行并排显示. 通过样式控制,它们可以相互转换. 1.尺寸-块级元素和行内元素之间的一个重要的不同 ...
Apache-DBUtils包对数据库的操作
•commons-dbutils 是 Apache 组织提供的一个开源 JDBC工具类库,它是对JDBC的简单封装.学习成本极低.而且使用dbutils能极大简化jdbc编码的工作量,同一时候也不会影 ...
从 QSplitter 中移除 QWidget（使用隐藏与显示，切换十分方便，不要真正销毁）
Splitter 的函数中有addWidget,但是却没有removeWidget, 或者delete之类的功能,所以如果想删去或者暂时不显示其中的某些widget就要自己手动完成这个效果.方法一:取 ...
2.5 Legacy APIs官网剖析（博主推荐）
不多说,直接上干货! 一切来源于官网 http://kafka.apache.org/documentation/ 2.5 Legacy APIs A more limited legacy prod ...

利用朴素贝叶斯（Navie Bayes）进行垃圾邮件分类

利用朴素贝叶斯（Navie Bayes）进行垃圾邮件分类的更多相关文章

随机推荐

热门专题