python实现朴素贝叶斯

参考：《机器学习实战》- Machine Learning in Action

一、基本思想

简单的说，用概率的高低来决定数据属于哪一类别，这就是贝叶斯决策理论的核心思想，即选择具有最高概率的决策。朴素贝叶斯，则是在贝叶斯基础上做了一些最原始、最简单的假设。在朴素贝叶斯中，假设特征之间是相互独立的，比如假设a这个单词出现在am后的概率和出现在am前的概率是一样的。另外的一个假设是，每个特征同等重要。

二、代码

背景：对文档进行贝叶斯分类，判断其是否属于侮辱性文档。

#-*- coding:utf8 -*-

from numpy import *

#原始数据，训练样本

def loadDataSet():

	postingList = [

		['my', 'dog', 'has', 'flea', 'problem', 'help', 'Please'],

		['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],

		['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],

		['stop', 'posting', 'stupid', 'worthless', 'garbage'],

		['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],

		['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']

	]

	classVec = [0,1,0,1,0,1]

	return postingList, classVec

#得到所有词的列表

def createVocabList(dataSet):

	vocabSet = set([])

	for document in dataSet:

		vocabSet = vocabSet | set(document)

	return list(vocabSet)

#某个文档的向量

def setOfWords2Vec(vocabList, inputSet):

	returnVec = [0]*len(vocabList)

	for word in inputSet:

		if word in vocabList:

			returnVec[vocabList.index(word)] = 1

		else:

			print "the word: %s is not in my Vocabulary!" % word

	return returnVec

#训练函数0

def trainNB0(trainMatrix, trainCategory):

	numTrainDocs = len(trainMatrix)

	numWords = len(trainMatrix[0])

	pAbusive = sum(trainCategory)/float(numTrainDocs)

	p0Num = zeros(numWords)

	p1Num = zeros(numWords)

	p0Denom = 0.0

	p1Denom = 0.0

	for i in range(numTrainDocs):

		if trainCategory[i] == 1:

			plNum += trainMatrix[i]

			plDenom += sum(trainMatrix)

		else:

			p0Num += trainMatrix[i]

			p0Denom += sum(trainMatrix)

	p0Vect = p0Num/p0Denom

	p1Vect = p1Num/p1Denom

	return p0Vect, p1Vect, pAbusive

python实现朴素贝叶斯的更多相关文章

机器学习---用python实现朴素贝叶斯算法（Machine Learning Naive Bayes Algorithm Application）
在<机器学习---朴素贝叶斯分类器(Machine Learning Naive Bayes Classifier)>一文中,我们介绍了朴素贝叶斯分类器的原理.现在,让我们来实践一下. 在 ...
Python实现nb(朴素贝叶斯)
Python实现nb(朴素贝叶斯) 运行环境 Pyhton3 numpy科学计算模块计算过程 st=>start: 开始 op1=>operation: 读入数据 op2=>ope ...
python实现随机森林、逻辑回归和朴素贝叶斯的新闻文本分类
实现本文的文本数据可以在THUCTC下载也可以自己手动爬虫生成, 本文主要参考:https://blog.csdn.net/hao5335156/article/details/82716923 nb ...
朴素贝叶斯算法简介及python代码实现分析
概念: 贝叶斯定理:贝叶斯理论是以18世纪的一位神学家托马斯.贝叶斯(Thomas Bayes)命名.通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A(发生)的条件下的概率是不一样的:然而 ...
朴素贝叶斯算法--python实现
朴素贝叶斯算法要理解一下基础: [朴素:特征条件独立贝叶斯:基于贝叶斯定理] 1朴素贝叶斯的概念[联合概率分布.先验概率.条件概率**.全概率公式][条件独立性假设.] 极大似然估计 ...
朴素贝叶斯算法原理及Spark MLlib实例(Scala/Java/Python)
朴素贝叶斯算法介绍: 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法. 朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,在没有其它可用信息下,我 ...
朴素贝叶斯python小样本实例
朴素贝叶斯优点:在数据较少的情况下仍然有效,可以处理多类别问题缺点:对于输入数据的准备方式较为敏感适用数据类型:标称型数据朴素贝叶斯决策理论的核心思想:选择具有最高概率的决策朴素贝叶斯的一般过程(1) ...
机器学习：朴素贝叶斯--python
今天介绍机器学习中一种基于概率的常见的分类方法,朴素贝叶斯,之前介绍的KNN, decision tree 等方法是一种 hard decision,因为这些分类器的输出只有0 或者 1,朴素贝叶斯方 ...
3.朴素贝叶斯和KNN算法的推导和python实现
前面一个博客我们用Scikit-Learn实现了中文文本分类的全过程,这篇博客,着重分析项目最核心的部分分类算法:朴素贝叶斯算法以及KNN算法的基本原理和简单python实现. 3.1 贝叶斯公式的推 ...

随机推荐

Linux之安全应用
一.关于iptables 定义:常见于linux系统下的应用层防火墙工具二.Iptables规则原理和组成 1) Netfilter Netfilter是Linux操作系统核心层内部的一个数据包处理 ...
如何使用jQuery-ContextMenu实现右击菜单
最近在做项目中,遇到一个棘手的问题,页面上有很多功能需要实现,每个功能需要绑定一个按钮.如果一个功能绑定一个按钮,那么将会占用页面很大的空间,而且可能会使页面变得不美观.思前想后,决定将所有按钮做成右 ...
StringBuilder的实现与技巧（转）
1.Length 0.说明在上一篇进一步了解String 中,发现了string的不便之处,而string的替代解决方案就是StringBuilder的使用它的使用也很简单 System.Te ...
【BZOJ2820】YY的GCD（莫比乌斯反演）
[BZOJ2820]YY的GCD(莫比乌斯反演) 题面讨厌权限题!!!提供洛谷题面题解单次询问\(O(n)\)是做过的一模一样的题目但是现在很显然不行了, 于是继续推 \[ans=\sum_{ ...
【BZOJ4003】【JLOI2015】城池攻占（左偏树）
题面题目描述小铭铭最近获得了一副新的桌游,游戏中需要用 m 个骑士攻占 n 个城池.这 n 个城池用 1 到 n 的整数表示.除 1 号城池外,城池 i 会受到另一座城池 fi 的管辖,其中 fi ...
Micropython Turnipbit 换挡风扇旋转按钮控制直流电机转速
学过物理学的我们都知道换挡风扇的原理,一般按钮控制电感分压或者电容分压,以达到控制电流的目的.那么我们可不可以使用Turnipbit模拟这个系统呢?其实是很简单的.类似于之前用Tpyboard做的智能 ...
JavaScript的作用域
JavaScript的作用域主要是指函数的作用域,在进行结果判断的时候十分重要,如果不清楚作用域,便很有可能导致拿不到预期的结果,也就无法顺利的进行程序的编写,在经历了一系列的学习和了解之后,对相关知 ...
python 检测nginx状态，若无法访问发邮件通知
应用场景:用来检测网站可用性,访问失败,则发邮件通知 #!/usr/bin/env python import urllib2,time,smtplib,string,logging from con ...
403 forbidden 错误解决方案
在本机启动程序,访问手机移动端(wap)的程序时,返回404无法访问,控制台报错403 forbidden,网上找问题所在: [ 以下引用百度知道:https://zhidao.baidu.com/q ...
WordPress缓存插件WP Super Cache的使用及常见问题解决
WP Super Cache是一款很好的WordPress优化插件,是我用过最好的一款缓存插件.打开WordPress后台搜索插件页面,第一个就是这个插件,可想而知他的地位有多厉害了. 什么是WP S ...

python实现朴素贝叶斯

一、 基本思想

二、 代码

python实现朴素贝叶斯的更多相关文章

随机推荐

热门专题

一、基本思想

二、代码