简单的贝叶斯分类器的python实现

 # -*- coding: utf-8 -*-

 '''

 >>> c = Classy()

 >>> c.train(['cpu', 'RAM', 'ALU', 'io', 'bridge', 'disk'], 'architecture')

 True

 >>> c.train(['monitor', 'mouse', 'keyboard', 'microphone', 'headphones'], 'input_devices')

 True

 >>> c.train(['desk', 'chair', 'cabinet', 'lamp'], 'office furniture')

 True

 >>> my_office = ['cpu', 'monitor', 'mouse', 'chair']

 >>> c.classify(my_office)

 ('input_devices', -1.0986122886681098)

 ...

 >>> c = Classy()

 >>> c.train(['cpu', 'RAM', 'ALU', 'io', 'bridge', 'disk'], 'architecture')

 True

 >>> c.train(['monitor', 'mouse', 'keyboard', 'microphone', 'headphones'], 'input_devices')

 True

 >>> c.train(['desk', 'chair', 'cabinet', 'lamp'], 'office furniture')

 True

 >>> my_office = ['cpu', 'monitor', 'mouse', 'chair']

 >>> c.classify(my_office)

 ('input_devices', -1.0986122886681098)

 ...

 '''

 from collections import Counter

 import math

 class ClassifierNotTrainedException(Exception):

     def __str__(self):

         return "Classifier is not trained."

 class Classy(object):

     def __init__(self):

         self.term_count_store = {}

         self.data = {

             'class_term_count': {},

             'beta_priors': {},

             'class_doc_count': {},

         }

         self.total_term_count = 0

         self.total_doc_count = 0

     def train(self, document_source, class_id):

         '''

         Trains the classifier.

         '''

         count = Counter(document_source)

         try:

             self.term_count_store[class_id]

         except KeyError:

             self.term_count_store[class_id] = {}

         for term in count:

             try:

                 self.term_count_store[class_id][term] += count[term]

             except KeyError:

                 self.term_count_store[class_id][term] = count[term]

         try:

             self.data['class_term_count'][class_id] += document_source.__len__()

         except KeyError:

             self.data['class_term_count'][class_id] = document_source.__len__()

         try:

             self.data['class_doc_count'][class_id] += 1

         except KeyError:

             self.data['class_doc_count'][class_id] = 1

         self.total_term_count += document_source.__len__()

         self.total_doc_count += 1

         self.compute_beta_priors()

         return True

     def classify(self, document_input):

         if not self.total_doc_count: raise ClassifierNotTrainedException()

         term_freq_matrix = Counter(document_input)

         arg_max_matrix = []

         for class_id in self.data['class_doc_count']:

             summation = 0

             for term in document_input:

                 try:

                     conditional_probability = (self.term_count_store[class_id][term] + 1)

                     conditional_probability = conditional_probability / (self.data['class_term_count'][class_id] + self.total_doc_count)

                     summation += term_freq_matrix[term] * math.log(conditional_probability)

                 except KeyError:

                     break

             arg_max = summation + self.data['beta_priors'][class_id]

             arg_max_matrix.insert(0, (class_id, arg_max))

         arg_max_matrix.sort(key=lambda x:x[1])

         return (arg_max_matrix[-1][0], arg_max_matrix[-1][1])

     def compute_beta_priors(self):

         if not self.total_doc_count: raise ClassifierNotTrainedException()

         for class_id in self.data['class_doc_count']:

             tmp = self.data['class_doc_count'][class_id] / self.total_doc_count

             self.data['beta_priors'][class_id] = math.log(tmp)

简单的贝叶斯分类器的python实现的更多相关文章

朴素贝叶斯分类器及Python实现
贝叶斯定理贝叶斯定理是通过对观测值概率分布的主观判断(即先验概率)进行修正的定理,在概率论中具有重要地位. 先验概率分布(边缘概率)是指基于主观判断而非样本分布的概率分布,后验概率(条件概率)是根据 ...
（数据科学学习手札30）朴素贝叶斯分类器的原理详解&Python与R实现
一.简介要介绍朴素贝叶斯(naive bayes)分类器,就不得不先介绍贝叶斯决策论的相关理论: 贝叶斯决策论(bayesian decision theory)是概率框架下实施决策的基本方法.对分 ...
python使用tcp实现一个简单的下载器
上一篇中介绍了tcp的流程,本篇通过写一个简单的文件下载器程序来巩固之前学的知识. 文件下载器的流程如下: 客户端: 输入目标服务器的ip和port 输入要下载文件的名称从服务器下载文件保存到本地 ...
机器学习之路： python 朴素贝叶斯分类器 MultinomialNB 预测新闻类别
使用python3 学习朴素贝叶斯分类api 设计到字符串提取特征向量欢迎来到我的git下载源代码: https://github.com/linyi0604/MachineLearning fro ...
用scikit-learn实现朴素贝叶斯分类器转
原文:http://segmentfault.com/a/1190000002472791 朴素贝叶斯(Naive Bayes Classifier)是一种「天真」的算法(假定所有特征发生概率是独立的 ...
数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes
贝叶斯分类器贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类.眼下研究较多的贝叶斯分类器主要有四种, ...
十大经典数据挖掘算法(9) 朴素贝叶斯分类器 Naive Bayes
贝叶斯分类器贝叶斯分类分类原则是一个对象的通过先验概率.贝叶斯后验概率公式后计算,也就是说,该对象属于一类的概率.选择具有最大后验概率的类作为对象的类属.现在更多的研究贝叶斯分类器,有四个,每间:N ...
机器学习---朴素贝叶斯分类器（Machine Learning Naive Bayes Classifier）
朴素贝叶斯分类器是一组简单快速的分类算法.网上已经有很多文章介绍,比如这篇写得比较好:https://blog.csdn.net/sinat_36246371/article/details/6014 ...
朴素贝叶斯分类器（Naive Bayes）
1. 贝叶斯定理如果有两个事件,事件A和事件B.已知事件A发生的概率为p(A),事件B发生的概率为P(B),事件A发生的前提下.事件B发生的概率为p(B|A),事件B发生的前提下.事件A发生的概率为 ...

随机推荐

statsmodels中的summary解读(以linear regression模型为例)
https://datatofish.com/statsmodels-linear-regression/ https://blog.datarobot.com/ordinary-least-squa ...
干货：如何使用N点虚拟管理系统？
N点虚拟主机管理系统怎么用呢?最近有许多朋友问我关于这款虚拟主机管理系统如何使用?在讲如何使用N点虚拟主机管理系统之前,我们先来了解一下N点虚拟主机管理系统的介绍. N点虚拟主机管理系统 ...
Oracle使用order by排序关于null值处理
select * from dual order by age desc nulls last select * from test order by age asc nulls first sqls ...
MySQL:关于 unauthenticated user
一.现象在生产环境中我们偶尔会遇到show processlist:显示host为 unauthenticated user 这样的连接,同时伴有数据库服务器层面的load,sys cpu较高,或者 ...
iOS设计模式 - 模板
iOS设计模式 - 模板原理图说明定义一个操作中的算法的骨架,而将步骤延迟到子类中.模板方法使得子类可以不改变一个算法的结构即可重定义算法的某些特定步骤. 源码 https://github.c ...
zendstudio 默认网页打开your project的时候不显示本地主机localhost的解决方法
修改wamp配置文件c:\\wamp64\wampmanager.conf 修改为如下选项即可默认这个选项是off关闭的,打开即可. urlAddLocalhost = "on" ...
Python实例---CRM管理系统分析180331
注意:一个项目基本都设计增删改查,且第一个需要做的就是设计表结构思维导图: 组件使用: Django + bootStrap + Jquery 数据库表结构设计: 外键关联: 2种方式, ...
Ubuntu Linux 14.04 LTS 上安装php7+mysql+nginx
输入 $ sudo apt-get install -y language-pack-en-base$ sudo LC_ALL=en_US.UTF-8 add-apt-repository ppa:o ...
Nginx 泛解析配置请求映射到多端口实现二级域名访问
由于想实现一个域名放置多个应用运行的目的,而不想通过域名后加端口号方式处理,这种方式处理记起来太麻烦,偷懒党简直不能忍,故而考虑了使用二级域名来处理多个应用同时运行.Google了一番资料并进行了尝试 ...
zabbix3.4 修改监控范围
需求:一段时间内不监控主机的流量(不告警!!!)

简单的贝叶斯分类器的python实现

简单的贝叶斯分类器的python实现的更多相关文章

随机推荐

热门专题