朴素贝叶斯python小样本实例

朴素贝叶斯
优点：在数据较少的情况下仍然有效，可以处理多类别问题
缺点：对于输入数据的准备方式较为敏感
适用数据类型：标称型数据
朴素贝叶斯决策理论的核心思想：选择具有最高概率的决策
朴素贝叶斯的一般过程
（1）收集数据：可以使用任何方法。
（2）准备数据：需要数值型或者布尔型数据。
（3）分析数据：有大量特征时，回值特征作用不大，此时使用直方图效果更好
（4）训练算法：计算不同的独立特征的条件概率
（5）测试算法：计算错误率
（6）使用算法：一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器，不一定是文本

 from numpy import *

 #创建一些实验样本。该函数返回的第一个变量是进行词条切分后的文档集合，

 #该函数返回的第二个变量是一个类别标签的集合

 def loadDataSet():

     postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],

                  ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],

                  ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],

                  ['stop', 'posting', 'stupid', 'worthless', 'garbage'],

                  ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],

                  ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]

     classVec = [0,1,0,1,0,1]    #1 is abusive, 0 not

     return postingList,classVec

 #创建一个包含所有文档中出现的不重复词的列表

 def createVocabList(dataSet):

     #创建一个空集

     vocabSet = set([])  #create empty set

     for document in dataSet:

         #创建两个集合的并集

         vocabSet = vocabSet | set(document) #union of the two sets

     return list(vocabSet)

 #该函数的输入参数为词汇表及其某个文档，输出的是文档向量，向量的每一元素为1或0，

 # 分别表示词汇表中的单词在输入文档中是否出现。

 #函数首先创建一个和词汇表等长的向量，并将其元素都设置为0.接着，遍历文档中的所有单词，

 # 如果出现了词汇表中的单词，则将输出的文档向量中对应值设为1.一切顺利的话，就不需要

 # 检查某个词是否还在vocabList中，后边可能会用到这一操作

 def setOfWords2Vec(vocabList, inputSet):

     #创建一个维度都为0的向量

     returnVec = [0]*len(vocabList)

     for word in inputSet:

         if word in vocabList:

             returnVec[vocabList.index(word)] = 1

         else: print ("the word: %s is not in my Vocabulary!" % word)

     return returnVec

 '''

 该函数的伪代码如下：

 计算每个类别中的文档数目

 对每篇训练文档：

     对每个类别：

         如果词条出现文档中则增加该词条的计数值

         增加所有词条的计数值

     对每个类别：

         对每个词条：

             将该词条的数目除以总词条数目得到条件概率

     返回每个类别的条件概率

 '''

 #

 def trainNB0(trainMatrix,trainCategory):

     numTrainDocs = len(trainMatrix)

     numWords = len(trainMatrix[0])

     #初始化概率

     pAbusive = sum(trainCategory)/float(numTrainDocs)

     p0Num = ones(numWords); p1Num = ones(numWords)      #change to ones()

     p0Denom = 2.0; p1Denom = 2.0                        #change to 2.0

     for i in range(numTrainDocs):

         #向量相加

         if trainCategory[i] == 1:

             p1Num += trainMatrix[i]

             p1Denom += sum(trainMatrix[i])

         else:

             p0Num += trainMatrix[i]

             p0Denom += sum(trainMatrix[i])

             #对每个元素做除法

     p1Vect = log(p1Num/p1Denom)          #change to log()

     p0Vect = log(p0Num/p0Denom)          #change to log()

     return p0Vect,p1Vect,pAbusive

 def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):

     p1 = sum(vec2Classify * p1Vec) + log(pClass1)    #element-wise mult

     p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)

     if p1 > p0:

         return 1

     else:

         return 0

 def bagOfWords2VecMN(vocabList, inputSet):

     returnVec = [0]*len(vocabList)

     for word in inputSet:

         if word in vocabList:

             returnVec[vocabList.index(word)] += 1

     return returnVec

 def testingNB():

     listOPosts,listClasses = loadDataSet()

     myVocabList = createVocabList(listOPosts)

     trainMat=[]

     for postinDoc in listOPosts:

         trainMat.append(setOfWords2Vec(myVocabList, postinDoc))

     p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses))

     testEntry = ['love', 'my', 'dalmation']

     thisDoc = array(setOfWords2Vec(myVocabList, testEntry))

     print(testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb))

     testEntry = ['stupid', 'garbage']

     thisDoc = array(setOfWords2Vec(myVocabList, testEntry))

     print (testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb))

 #如果一个词在文档中出现不止依次，这可能意味着包含该词是否出现的文档所不能表达的某种信息，

 # 这种方法被称为词袋模型。

 # #

 mySent='This book is the best book on Python or M.L. I have ever laid eyes upon.'

 A=mySent.split()

 print(A)

小结：

对于分类而言，使用概率有时要比使用硬规则更为有效。贝叶斯概率及贝叶斯准则提供了一种利用已知值来估计未知概率的有效方法。

可以通过特征之间的条件独立性假设，降低对数据量的需求。独立性假设是指一个词的出现概率并不依赖于文档中的其他词。当然我们也知道这个假设过于简单，这就是之所以称之为朴素贝叶斯的原因。尽管条件独立性假设并不正确，但是朴素贝叶斯仍然是一种有效的分类器。

朴素贝叶斯python小样本实例的更多相关文章

朴素贝叶斯python代码实现（西瓜书）
朴素贝叶斯python代码实现(西瓜书) 摘要: 朴素贝叶斯也是机器学习中一种非常常见的分类方法,对于二分类问题,并且数据集特征为离散型属性的时候, 使用起来非常的方便.原理简单,训练效率高,拟合效果 ...
朴素贝叶斯原理、实例与Python实现
初步理解一下:对于一组输入,根据这个输入,输出有多种可能性,需要计算每一种输出的可能性,以可能性最大的那个输出作为这个输入对应的输出. 那么,如何来解决这个问题呢? 贝叶斯给出了另一个思路.根据历史记 ...
朴素贝叶斯算法 & 应用实例
转载请注明出处:http://www.cnblogs.com/marc01in/p/4775440.html 引和师弟师妹聊天时经常提及,若有志于从事数据挖掘.机器学习方面的工作,在大学阶段就要把基 ...
机器学习：朴素贝叶斯--python
今天介绍机器学习中一种基于概率的常见的分类方法,朴素贝叶斯,之前介绍的KNN, decision tree 等方法是一种 hard decision,因为这些分类器的输出只有0 或者 1,朴素贝叶斯方 ...
朴素贝叶斯python实现
概率论是非常多机器学习算法基础,朴素贝叶斯分类器之所以称为朴素,是由于整个形式化过程中仅仅做最原始.简单的如果. (这个如果:问题中有非常多特征,我们简单如果一个个特征是独立的.该如果称做条件独立性, ...
统计学习方法（李航）朴素贝叶斯python实现
朴素贝叶斯法首先训练朴素贝叶斯模型,对应算法4.1(1),分别计算先验概率及条件概率,分别存在字典priorP和condP中(初始化函数中定义).其中,计算一个向量各元素频率的操作反复出现,定义为c ...
机器学习理论基础学习3.5--- Linear classification 线性分类之朴素贝叶斯
一.什么是朴素贝叶斯? (1)思想:朴素贝叶斯假设条件独立性假设:假设在给定label y的条件下,特征之间是独立的最简单的概率图模型解释: (2)重点注意:朴素贝叶斯拉普拉斯平滑 ...
朴素贝叶斯算法原理及Spark MLlib实例(Scala/Java/Python)
朴素贝叶斯算法介绍: 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法. 朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,在没有其它可用信息下,我 ...
统计学习方法与Python实现（三）——朴素贝叶斯法
统计学习方法与Python实现(三)——朴素贝叶斯法 iwehdio的博客园:https://www.cnblogs.com/iwehdio/ 1.定义朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设 ...

随机推荐

eclipse调试（转）
step into : 单步执行,遇到子函数就进入并且继续单步执行(F5) step over: 在单步执行时,在函数内遇到子函数时不会进入子函数内单步执行,而是将子函数整个执行完在停止,也就是把子函 ...
es6-异步应用
异步编程对 JavaScript 语言太重要.Javascript 语言的执行环境是“单线程”的,如果没有异步编程,根本没法用,非卡死不可.本章主要介绍 Generator 函数如何完成异步操作. 传 ...
linux nginx 404错误页面设置
配置nginx 实现404错误返回一个页面 1.配置nginx.conf 在http代码块添加 fastcgi_intercept_errors on; 2.在网站的sever代码块添加 err ...
draggable与overflow同时存在,无法拖拽出父元素问题解决
在使用jquery-ui的拖拽功能对列表内的选项拖拽时,发现无法将选项拖拽出列表的范围,一出范围就自动隐藏在列表下,查找到最后的原因是css中的overflow的原因,overflow存在则不能将选项 ...
hadoop2.4 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
在Ubuntu上安装完hadoop2.4以后,使用以下命令: hadoop fs -ls // :: WARN util.NativeCodeLoader: Unable to load native ...
python基础一 day17 初识递归
#递归函数 # 了解什么是递归 : 在函数中调用自身函数 # 最大递归深度默认是997/998 —— 是python从内存角度出发做得限制 # 能看懂递归 # 能知道递归的应用场景 # 初识递归 —— ...
CentOS创建不需要输入密码的sudo用户
linux 怎么让普通用户使用sudo权限不需要输入密码. 在网上看到很多资料,都只说到了在/etc/sudoers添加下列行即可: username ALL=(ALL) ...
Bootstrap 折叠(collapse)插件面板
折叠插件(collapse)可以很容易地让页面区域折叠起来, 无论您是用它来创建折叠导航还是内容面板,它都允许很多内容选项. 您可以使用折叠插件 1.创建可折叠的分组或折叠的面板 <!DOCTY ...
C#进阶之全面解析Lambda表达式
引言在实际的项目中遇到一个问题,我们经常在网上搜索复制粘贴,其中有些代码看着非常的简洁,比如Lambda表达式,但是一直没有去深入了解它的由来,以及具体的使用方法,所以在使用的时候比较模糊,其次,编 ...
SQL SERVER 2012数据库自动备份的方法
SQL SERVER 2012数据库自动备份的方法为了防止数据丢失,这里给大家介绍SQL SERVER2012数据自动备份的方法: 一.打开SQL SERVER 2012,如图所示: 服务器类型:数 ...

朴素贝叶斯python小样本实例

朴素贝叶斯python小样本实例的更多相关文章

随机推荐

热门专题