# -*- coding: utf-8 -*-
"""
Created on Tue Jan 16 20:11:07 2018 @author: markli
"""
import numpy as np;
import pandas as pd; """
贝叶斯分类
训练数据格式
X = [x1,x2,...xm]; m*n
xi = [xi1,xi2,...xin].T
Y = [y1,y2,...ym];1*m
""" class Bayes:
def __init__(self,lamda,region):
"""
lamda 贝叶斯修正参数
region 特征属性取值域,类标签取值域
例如两个特征取值范围分别为,A1=[1,2,3],A2=['S','M','L']
类标签取值:C=[1,-1],region=[A1,A2,C]
"""
self.lamda = lamda;
#存放类标签域
self.Y = region[-1];
#存放特征取值域
self.X = region[:-1]; #存放先验概率 P(Y = Ck)
self.PrioPro = np.zeros((1,len(region[-1]))); #存放条件概率 P(Xj = ajl | Y = Ck)
self.ConditionalPro = [];
for i in range(len(region)-1):
cp = np.zeros((len(region[-1]),len(region[i])));
self.ConditionalPro.append(cp); def fit(self,TrainData):
"""
计算先验概率和条件概率,建立模型
TrainData 为二维数组
TrainData 列的顺序与region中特征属性顺序一致
TrainData 最后一列为类别
"""
N = len(TrainData);
K = len(self.Y);
TrainData = TrainData.astype(np.str); NumofCk = pd.value_counts(TrainData[:,-1], sort=True); #Series 类型
CountOfCk = [NumofCk[ck] for ck in self.Y]; #list类型
self.PrioPro = [(ck+self.lamda) / (N + K * self.lamda) for ck in CountOfCk]; j=0;
for ck in self.Y:
#选出类别为Ck的数据
DataofCk = TrainData[np.where(TrainData[:,-1]==ck)];
n = len(DataofCk);
#选出第i个特征的数据
for i in range(len(self.X)):
DataofCkandXi = DataofCk[:,i];
Numofaj = pd.value_counts(DataofCkandXi,sort=True); #为第i个特征的每个特征值计数
Countofaj = [Numofaj[aj] for aj in self.X[i]];
S = len(self.X[i]);
self.ConditionalPro[i][j] = [(aj+self.lamda) / (n+S * self.lamda) for aj in Countofaj];
j = j+1; def predict(self,TestData):
"""
预测实例,为其分类
测试数据没有类别列,其余数据格式与训练数据格式一致
"""
predictY = [];
for i in range(len(TestData)):
x = TestData[i];
y = self.GetLable(x);
predictY.append(y);
return predictY; def GetLable(self,x):
"""
输入一个测试实例x ,输出使其后验概率最大的类别y
"""
pro = [];
n = len(x);
for j in range(len(self.Y)):
p = 1;
for i in range(n):
feature = self.ConditionalPro[i];
fi = self.X[i] #获得第i个特征的值域
index = fi.index(x[i]);
p = p * feature[j][index]; p = p * self.PrioPro[j];
pro.append(p); y = self.Y[np.argmax(pro)]; return y;

测试代码

 # -*- coding: utf-8 -*-
"""
Created on Wed Jan 17 15:29:14 2018 @author: markli
""" import numpy as np;
import pandas as pd;
from BayesClass import Bayes A1 = ['','',''];
A2 = ['S','M','L'];
C = ['','-1']; Data = np.array([[1,'S',-1],[1,'M',-1],[1,'M',1],[1,'S',1],[1,'S',-1],
[2,'S',-1],[2,'M',-1],[2,'M',1],[2,'L',1],[2,'L',1],
[3,'L',1],[3,'M',1],[3,'M',1],[3,'L',1],[3,'L',-1]]);
test = np.array([[2,'S']]);
B = Bayes(0,[A1,A2,C]);
B.fit(Data);
y = B.predict(test);
print(y);

Python3 贝叶斯分类的更多相关文章

  1. 利用朴素贝叶斯分类算法对搜狐新闻进行分类(python)

    数据来源  https://www.sogou.com/labs/resource/cs.php介绍:来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL ...

  2. 机器学习之路: python 朴素贝叶斯分类器 MultinomialNB 预测新闻类别

    使用python3 学习朴素贝叶斯分类api 设计到字符串提取特征向量 欢迎来到我的git下载源代码: https://github.com/linyi0604/MachineLearning fro ...

  3. python3  threading初体验

    python3中thread模块已被废弃,不能在使用thread模块,为了兼容性,python3将thread命名为_thread.python3中我们可以使用threading进行代替. threa ...

  4. Python3中的字符串函数学习总结

    这篇文章主要介绍了Python3中的字符串函数学习总结,本文讲解了格式化类方法.查找 & 替换类方法.拆分 & 组合类方法等内容,需要的朋友可以参考下. Sequence Types ...

  5. Mac-OSX的Python3.5虚拟环境下安装Opencv

    Mac-OSX的Python3.5虚拟环境下安装Opencv 1   关键词 关键词:Mac,OSX,Python3.5,Virtualenv,Opencv 2   概述 本文是一篇 环境搭建 的基础 ...

  6. Ubuntu部署python3.5的开发和运行环境

    Ubuntu部署python3.5的开发和运行环境 1 概述 由于最近项目全部由python2.x转向 python3.x(使用目前最新的 python3.5.1) ,之前的云主机的的默认python ...

  7. Python3 登陆网页并保持cookie

    网页登陆 网页登陆的原理都是,保持一个sessionid在cookie然后,根据sessionid在服务端找到cookie进行用户识别 python实现 由于python的简单以及丰富的类库是开发网络 ...

  8. 阿里云 SDK python3支持

    最近的一个项目需要操作阿里云的RDS,项目使用python3,让人惊讶的是官方的SDK竟然只支持python2 在阿里云现有SDK上改了改,文件的修改只涉及aliyun/api/base.py,详见h ...

  9. python3爬取1024图片

    这两年python特别火,火到博客园现在也是隔三差五的出现一些python的文章.各种开源软件.各种爬虫算法纷纷开路,作为互联网行业的IT狗自然看的我也是心痒痒,于是趁着这个雾霾横行的周末瞅了两眼,作 ...

随机推荐

  1. 洛谷P2469 星际竞速

    上下界费用流比较无脑,提供一种更巧妙的费用流,无需上下界. #include <cstdio> #include <algorithm> #include <queue& ...

  2. Spark记录-Scala语句(运算符-if-for-while-try-模式匹配)

    Scala条件运算符 Scala条件运算符在下表中列出. 运算符 操作 描述 && 与 运算符左侧和右侧的值为true.仅当左侧为真时,右侧才被计算. || 或 左侧或右侧的至少一个值 ...

  3. SQL中的全局变量和局部变量(@@/@)

    在SQL中,我们常常使用临时表来存储临时结果,对于结果是一个集合的情况,这种方法非常实用,但当结果仅仅是一个数据或者是几个数据时,还要去建一个表,显得就比较麻烦,另外,当一个SQL语句中的某些元素经常 ...

  4. vue-cli构建项目使用 less

    在vue-cli中构建的项目是可以使用less的,但是查看package.json可以发现,并没有less相关的插件,所以我们需要自行安装. 第一步:安装 npm install less less- ...

  5. Java SSM框架之MyBatis3(八)MyBatis之动态SQL

    前言: mybatis框架中最具特色的便是sql语句中的自定义,而动态sql的使用又使整个框架更加灵活. 创建User表 /*Table structure for table `user` */ D ...

  6. 第8月第22天 python scrapy

    1. cd /Users/temp/Downloads/LagouSpider-master ls ls ls lagou/settings.py cat lagou/settings.py ls p ...

  7. Django之模板语法

    Django框架之第三篇模板语法(重要!!!) 一.什么是模板? 只要是在html里面有模板语法就不是html文件了,这样的文件就叫做模板. 二.模板语法分类 一.模板语法之变量:语法为 {{ }}: ...

  8. ubuntu 开机自动挂载分区

    转载: http://blog.sina.com.cn/s/blog_142e95b170102vx2a.html 我的计算机是双硬盘,一个是windows系统,一个是Fedora和ubuntu系统. ...

  9. jenkins安装及环境搭建

    Jenkins 是基于Java开发的一种持续集成工具,所以,Jenkins需要Java环境. Jenkins版本是: JAVA版本是: Tomcat版本是: 或者 Jenkins版本是:2.10.2 ...

  10. js ES6 Set和Map数据结构详解

    这篇文章主要介绍了ES6学习笔记之Set和Map数据结构,结合实例形式详细分析了ECMAScript中基本数据结构Set和Map的常用属性与方法的功能.用法及相关注意事项,需要的朋友可以参考下   本 ...