1.算法简介

朴素贝叶斯（Naive Bayes）是监督学习的一种常用算法，易于实现，没有迭代，并有坚实的数学理论（即贝叶斯定理）作为支撑。

本文以拼写检查作为例子，讲解Naive Bayes分类器是如何实现的。对于用户输入的一个单词（words），拼写检查试图推断出最有可能的那个正确单词（correct）。当然，输入的单词有可能本身就是正确的。比如，输入的单词thew，用户有可能是想输入the，也有可能是想输入thaw。为了解决这个问题，Naive Bayes分类器采用了后验概率P(c|w)来解决这个问题。P(c|w)表示在发生了w的情况下推断出c的概率。为了找出最有可能c，应找出有最大值的P(c|w)，即求解问题

argmax_c P(c|w)

根据贝叶斯定理，

P(c|w)=P(w|c) P(c) / P(w)

对于任意的c，P(w)均相等，问题等价与

argmax_c P(w|c) P(c)

P(w|c)表示的是用户输入w而是想输入c的概率。为了得到P(c)，我们可以从文本库中统计c出现的频率。但是，P(w|c)似乎计算起来不那么容易。Norvig [1]中给出了一个简化计算办法：

(1)如果w拼写正确并且出现在文本库中，返回w；

(2)如果(1)没发生，计算与w的编辑距离为1的所有候选c，选出文本库中出现频率最高者；

(3)如果(1)(2)均没发生，计算与w的编辑距离为2的所有候选c，选出文本库中出现频率最高者；

(4)如果(1)(2)(3)均没发生，返回w。

一个单词通过删除、交换、更改、插入四个操作中一种，变换成另一个单词，这两个单词之间的编辑距离为1。

import re, collections  

def words(text): return re.findall('[a-z]+', text.lower())   

def train(features):

    model=collections.defaultdict(lambda: 1)

    for f in features:

        model[f] += 1

    return model  

NWORDS = train(words(file('big.txt').read()))  

alphabet = 'abcdefghijklmnopqrstuvwxyz'  

def edits1(word):

    splits=[(word[:i], word[i:]) for i in range(len(word) + 1)]

    deletes=[a + b[1:] for a, b in splits if b]

    transposes=[a + b[1] + b[0] + b[2:] for a, b in splits if len(b)>1]

    replaces=[a + c + b[1:] for a, b in splits for c in alphabet if b]

    inserts=[a + c + b  for a, b in splits for c in alphabet]

    return set(deletes + transposes + replaces + inserts)  

def known_edits2(word):

    return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)  

def known(words): return set(w for w in words if w in NWORDS)  

def correct(word):

    candidates = known([word]) or known(edits1(word)) or known_edits2(word) or [word]

    return max(candidates, key=NWORDS.get)

2.Referrence

[1] Peter Norvig, How to Write a Spelling Corrector.

[2] 阮一峰, 贝叶斯推断及其互联网应用（三）：拼写检查.

【数据挖掘】分类之Naïve Bayes（转载）的更多相关文章

【十大经典数据挖掘算法】Naïve Bayes
[十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 朴素贝叶斯(Naïve Bayes) ...
《数据挖掘导论》实验课——实验四、数据挖掘之KNN,Naive Bayes
实验四.数据挖掘之KNN,Naive Bayes 一.实验目的 1. 掌握KNN的原理 2. 掌握Naive Bayes的原理 3. 学会利用KNN与Navie Bayes解决分类问题二.实验工具 ...
【数据挖掘】分类之kNN（转载）
[数据挖掘]分类之kNN 1.算法简介 kNN的思想很简单:计算待分类的数据点与训练集所有样本点,取距离最近的k个样本:统计这k个样本的类别数量:根据多数表决方案,取数量最多的那一类作为待测样本的类别 ...
数据挖掘分类算法之决策树（zz）
决策树(Decision tree) 决策树是以实例为基础的归纳学习算法. 它从一组无次序.无规则的元组中推理出决策树表示形式的分类规则.它采用自顶向下的递归方式,在决策树的内部结点进行属性值 ...
[数据挖掘课程笔记]Naïve Bayesian Classifier
朴素贝叶斯模型 1) X:一条未被标记的数据 2) H:一个假设,如H=X属于Ci类根据贝叶斯公式把X表示为(x1,x2,....xn) x1,x2,....xn表示X在各个特征上的值. 假设有c ...
Naïve Bayes Models
贝叶斯模型假设: 为防止概率为零的情况,做拉普拉斯平滑得: 下面介绍一下朴素贝叶斯模型与多变量伯努利模型的区别: 朴素贝叶斯: 多变量伯努利: 即: 多变量伯努利模型不考虑样本出现的次数,每个特征的取 ...
(转载)微软数据挖掘算法：Microsoft Naive Bayes 算法（3）
介绍: Microsoft Naive Bayes 算法是一种基于贝叶斯定理的分类算法,可用于探索性和预测性建模. Naïve Bayes 名称中的 Naïve 一词派生自这样一个事实:该算法使用贝叶 ...
Naive Bayes(朴素贝叶斯算法)[分类算法]
Naïve Bayes(朴素贝叶斯)分类算法的实现 (1) 简介: (2) 算法描述: (3) <?php /* *Naive Bayes朴素贝叶斯算法(分类算法的实现) */ /* *把. ...
用 WEKA 进行数据挖掘 ——第一章：简介
1.简介数据挖掘.机器学习这些字眼,在一些人看来,是门槛很高的东西.诚然,如果做算法实现甚至算法优化,确实需要很多背景知识.但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西.他们的精力,集中 ...

随机推荐

前端html第三方登录
首先推荐一下,这个博客主的文章:https://www.cnblogs.com/v-weiwang/p/5732423.html 很不错,基本靠他的博客. 我这里记一点自己调试过程中的报错等: 1,微 ...
UOJ 180【UR #12】实验室外的攻防战
http://uoj.ac/contest/25/problem/180 从前往后对比串A,B 当$A_i,B_i$不相同时找到$B_i$在A中的位置j 若$min{A_1,A_2,A_3...... ...
解魔方的机器人攻略14 – 安装Lejos（下）
由动力老男孩发表于 2009/12/27 17:16:11 第四步:安装Lejos 登陆 Lejos 主页点击 NXT 图片进入 Lejos 下载页面,点击 NXJ 的下载链接: 下载完成后将下载 ...
sqlserver日志文件缩小
原文:sqlserver日志文件缩小最近装了个500g的固态硬盘,导入我原来的数据库后发现有60多个G的内存不见了, 最后发现我的某个数据库有60多个G的日志文件(.ldf文件)文件, ...
【Linux】CentOS7 上使用yum安装和卸载软件【yum安装wine举例】
关于yum的相关解释,请 man yum 自行查看. 配置常用源:http://www.cnblogs.com/sxdcgaq8080/p/7516186.html yum的使用类似于在windows ...
IntelliJ全家桶修改terminal字体的方法
IntelliJ IDEA 设置Terminal 窗口字体大小我在Setting中查看了所有和Terminal字样有关的设置,都没有找到设置字体大小的方法,原来Terminal也只需要设置Conso ...
小白学react之网页获取微信用户信息
通过上一篇<小白学react之EJS模版实战>我们学习了怎样通过EJS模版生成我们高定制化的index.html文件. 本篇我们将会继续延续我们的alt-tutorial项目的实战计划.去 ...
POJ 2983-Is the Information Reliable?(差分约束系统)
题目地址:POJ 2983 题意:有N个车站.给出一些点的精确信息和模糊信息.精确信息给出两点的位置和距离.模糊信息给出两点的位置.但距离大于等于一.试确定是否全部的信息满足条件. 思路:事实上就是让 ...
asp.net原理笔记----页面控件类型，页面状况和asp.net编译过程
通过查看asp.net的整个生命周期之后了解到在aspx的页面生命周期中调用了BuildControlTree()方法生成页面控件树之后再调用Rend()方法根据控件树生成html返回 aspx ...
前端存储之indexedDB
在前一个阶段的工作中,项目组要开发一个平台,为了做出更好的用户体验,实现快速.高质量的交互,从而更快得到用户的反馈,要求在前端把数据存储起来,之后我去研究了下现在比较流行的前端存储数据库,找到了ind ...

【数据挖掘】分类之Naïve Bayes（转载）

1.算法简介

2.Referrence

【数据挖掘】分类之Naïve Bayes（转载）的更多相关文章

随机推荐

热门专题