Microsoft朴素贝叶斯是SSAS中最简单的算法,通常用作理解数据基本分组的起点。这类处理的一般特征就是分类。这个算法之所以称为“朴素”,是因为所有属性的重要性是一样的,没有谁比谁更高。贝叶斯之名则源于Thomas Bayes,他想出了一种运用算术(可能性)原则来理解数据的方法。对此算法的另一个理解就是:所有属性都是独立的,互不相关。从字面来看,该算法只是计算所有属性之间的关联。虽然该算法既可用于预测也可用于分组,但最常用于模型构建的早期阶段,更常用于分组而不是预测某个具体的值。通过要将所有属性标记为简单输入或者既是输入又是可预测的,因为这就可以算法在执行的时候考虑到所有属性。在标记属性时的工作量可能有些大。很常见的情况是,在输入中包含大量属性,然后处理模型再评估结果。如果结果看起来没什么意义,我们经常减少包含的属性数量,以便更好地理解关联最紧密的关系。
  如果拥有大量数据,而对数据的了解又很少,这时可以使用朴素贝叶斯算法。例如,公司可能由于兼并了一家竞争对手而获得了大量销售数据。在处理这类数据的时候,可以用朴素贝叶斯作为起点。
  应该了解的是,这个算法有一个明显的局限,只能处理离散(或离散化)的内容类型。如果选择的数据结构中包含有内容类型不是Discrete(如Continuous)的数据列,那么朴素贝叶斯建立的挖掘模型会忽略这些数据。
  朴素贝叶斯算法有4个可以配置的参数:MAXIMUM_INPUT_ATTRIBUTE、MAXIMUM_OUTPUT_ATTRIBUTE、MAXIMUM_STATUS、MINIMUM_DEPENDENCY_PROBABILITY。可以在“值”中输入新值来修改配置的(默认)值。这个信息在“算法参数”对话框的“说明”区中有说明。
  有人可能想知道是否经常需要调整算法参数的默认值。我们发现,随着对各个算法功能的逐渐了解,我们开始倾向于手动调节。因为朴素贝叶斯频繁地用于数据挖掘项目,尤其用于项目的早期,所以我们发现自己经常要调整它的相关参数。前3个参数的作用一目了然:调整配置的值为的是减少输入值、输出值或分组状态的最大数量。最后的依赖关系可能性的意义不太明显。在减小这个值的时候,实际是在要求减少模型生成的节点或分组的数量。
下面我们进入主题,同样我们继续利用上次的解决方案,依次步骤如下:



选择所需输入变量与预测变量,以及索引键。此例以序列为索引,身份为预测变量,选中统率、武力、智力、政治、魅力五个变量为输入变量,完成后点击“确定”按钮,这时会到原来的页面,点击“下一步”按钮,如图所示。

选择正确的数据属性,修正了变量的数据属性后点击“下一步”按钮。

更改挖掘结构名称,点击“完成”按钮。


挖掘模型查看器则是呈现此依赖关系网络,对于数据的分布进一步加以了解。

从“属性配置”文件可以了解每个变量的特性分布状况。


而从“属性特性”可以看出,不同群的基本特性概率。

而从“属性对比”中,主要可以比较不同群体的特性。

参考文献:
Microsoft Naive Bayes 算法
http://msdn.microsoft.com/zh-cn/library/ms174806(v=sql.105).aspx


Microsoft Naive Bayes 算法——三国人物身份划分的更多相关文章

  1. 《BI那点儿事》Microsoft 聚类分析算法——三国人物身份划分

    什么是聚类分析? 聚类分析属于探索性的数据分析方法.通常,我们利用聚类分析将看似无序的对象进行分组.归类,以达到更好地理解研究对象的目的.聚类结果要求组内对象相似性较高,组间对象相似性较低.在三国数据 ...

  2. (转载)微软数据挖掘算法:Microsoft Naive Bayes 算法(3)

    介绍: Microsoft Naive Bayes 算法是一种基于贝叶斯定理的分类算法,可用于探索性和预测性建模. Naïve Bayes 名称中的 Naïve 一词派生自这样一个事实:该算法使用贝叶 ...

  3. 基于Naive Bayes算法的文本分类

    理论 什么是朴素贝叶斯算法? 朴素贝叶斯分类器是一种基于贝叶斯定理的弱分类器,所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关.举个例子,如果一种水果其具有红,圆,直径大概3英寸等特征,该水果 ...

  4. (原创)大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 决策树分析算法)

    随着大数据时代的到来,数据挖掘的重要性就变得显而易见,几种作为最低层的简单的数据挖掘算法,现在利用微软数据案例库做一个简要总结. 应用场景介绍 其实数据挖掘应用的场景无处不在,很多的环境都会应用到数据 ...

  5. (转载)微软数据挖掘算法:Microsoft 关联规则分析算法(7)

    前言 本篇继续我们的微软挖掘算法系列总结,前几篇我们分别介绍了:微软数据挖掘算法:Microsoft 决策树分析算法(1).微软数据挖掘算法:Microsoft 聚类分析算法(2).微软数据挖掘算法: ...

  6. (转载)微软数据挖掘算法:Microsoft 决策树分析算法(1)

    微软数据挖掘算法:Microsoft 目录篇 介绍: Microsoft 决策树算法是分类和回归算法,用于对离散和连续属性进行预测性建模. 对于离散属性,该算法根据数据集中输入列之间的关系进行预测. ...

  7. MLLib实践Naive Bayes

    引言 本文基于Spark (1.5.0) ml库提供的pipeline完整地实践一次文本分类.pipeline将串联单词分割(tokenize).单词频数统计(TF),特征向量计算(TF-IDF),朴 ...

  8. [Machine Learning & Algorithm] 朴素贝叶斯算法(Naive Bayes)

    生活中很多场合需要用到分类,比如新闻分类.病人分类等等. 本文介绍朴素贝叶斯分类器(Naive Bayes classifier),它是一种简单有效的常用分类算法. 一.病人分类的例子 让我从一个例子 ...

  9. 数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes

    贝叶斯分类器 贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类.眼下研究较多的贝叶斯分类器主要有四种, ...

随机推荐

  1. Python开源框架

    info:更多Django信息url:https://www.oschina.net/p/djangodetail: Django 是 Python 编程语言驱动的一个开源模型-视图-控制器(MVC) ...

  2. C# final project

    Problem Statement You are tasked with developing a task manager. The task manager will allow people ...

  3. VIM使用(一) VIM插件管理利器-vundle

    有关VIM的文件网上一大堆,这里只是记录一下我新配置环境的步骤.以备查看参考. sudo apt-get install gitgit clone https://github.com/gmarik/ ...

  4. hdu 5945 Fxx and game

    青年理论计算机科学家Fxx给的学生设计了一款数字游戏. 一开始你将会得到一个数X,每次游戏将给定两个参数x,k,t, 任意时刻你可以对你的数执行下面两个步骤之一: .X=X−i(<=i<= ...

  5. C++ 非阻塞套接字的使用 (1)

    在维护代码的过程中,发现软件运行的CPU占用率居高不下,在4核的电脑上占用了25%的CPU.查阅资料的得知,这是可能是由于软件中出现了死循环. 经过对软件的一些测试,最终确定了死循环出现的位置——通讯 ...

  6. JAVA学习博客---2015-7

    @Updata 2015.7.17  开始熟悉API.WPS首字母自动大写,有的没有加#编号的,其实方法首字母不是大写例如Char charAt 实际上是char charAt.当然骆驼写法charA ...

  7. Android 各层调用的方式

    所有的android的app启动都有三种深入启动的方式: ①app——Runtime Service——Lib 这种启动方式是: Ⅰapp程序中启动application framework 层中Ru ...

  8. vs的dll引用机制

    vs2012编译的时候,遇到一个问题就是项目A中运行时缺失dll的问题,项目A引用类库B,类库B引用了x,y等dll,编译A项目的时候,出现x没拷贝到bin 目录. 通过跟踪编译输出发现,x没拷贝的原 ...

  9. asp.net core webapi之跨域(Cors)访问

    这里说的跨域是指通过js在不同的域之间进行数据传输或通信,比如用ajax向一个不同的域请求数据,或者通过js获取页面中不同域的框架中(iframe)的数据.只要协议.域名.端口有任何一个不同,都被当作 ...

  10. SQL Server Profiler使用教程,通俗易懂才是王道

    做开发,平时难免和数据库打交道,特别是写存储过程,对于我们这些不常写SQL的人来说是一件极其痛苦的事,每次写完运行总是有错,如果用的是本地数据库的话还好,可以在本机调试SQL,那如果在数据库在服务器上 ...