[ML学习笔记] 朴素贝叶斯算法(Naive Bayesian)

## 贝叶斯公式

\[P(A\mid B) = \frac{P(B\mid A)P(A)}{P(B)}
\]

我们把P(A)称为"先验概率"(Prior probability),即在B事件发生之前,对A事件概率的一个判断。P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,对A事件概率的重新评估。P(B|A)/P(B)称为"可能性函数"(Likelyhood),这是一个调整因子,使得预估概率更接近真实概率。

所以,条件概率可以理解成式子:后验概率 = 先验概率 x 调整因子。这就是贝叶斯推断的含义。先预估一个"先验概率",然后加入实验结果,看这个实验到底是增强还是削弱了"先验概率",由此得到更接近事实的"后验概率"。

而分类问题的目标是,根据给定特征得出类别。代入到贝叶斯公式中就是:

\[P(类别\mid 特征) = \frac{P(特征\mid 类别)P(类别)}{P(特征)}
\]

##拼写纠正实例

需求:当用户输入一个不在字典中的单词,推测他想输入的单词

猜测用户想输入的单词为h,而实际输入的单词D,根据公式有:

\[P(h\mid D) = \frac{P(h)P(D\mid h)}{P(D)}
\]

对于不同的猜测词h1、h2、h3...,P(h)为词频,P(D|h)可用不同字母的个数 / 键盘上的字母键位距离等评估,P(D)为一常数,在比较时可忽略。

于是有 \(P(h\mid D) \propto{P(h)P(D\mid h)}\) ,比较多种猜测中哪个概率最大则可以判断纠正为这个正确的单词。

### 模型比较理论

  • 最大似然:最符合观测数据的(即P(D|h)最大的)最有优势
  • 奥卡姆剃刀:P(h)较大的模型有较大的优势(越常见的最好 如在拟合曲线中不会使用高阶函数去拟合因为出现概率少)

### 代码

import re, collections

def words(text):
return re.findall('[a-z]+', text.lower()) #findall(pattern, string, flags=0) 返回string中所有与pattern相匹配的全部子串 def train(features):
model = collections.defaultdict(lambda: 1) #py2.7中的常用集合模块collections
for f in features:
model[f] += 1
return model NWORDS = train(words(open('big.txt').read())) alphabet = 'abcdefghijklmnopqrstuvwxyz' #两个词之间的编辑距离定义为 使用了几次插入、删除、交换、替换 def edits1(word): #编辑距离为1
n = len(word)
return set([word[0:i]+word[i+1:] for i in range(n)] + #删除
[word[0:i]+word[i+1]+word[i]+word[i+2:] for i in range(n)] + #交换
[word[0:i]+c+word[i+1:] for i in range(n) for c in alphabet] + #替换
[word[0:i]+c+word[i:] for i in range(n) for c in alphabet] #插入
) def edits2(word): #编辑距离为2
return set(e2 for e1 in edits1(word) for e2 in edits1(e1)) #只返回正确的单词
def known(words):
return set(w for w in words if w in NWORDS) #如果known(set)非空 则不再计算后面的
def correct(word):
candidates = known([word]) or known(edits1(word)) or known(edits2(word)) or [word]
return max(candidates, key=lambda w: NWORDS[w]) #返回概率最大的值 # argmaxc P(c|w) -> argmaxc P(w|c)P(c)/P(w)
# P(c) c的词频 P(w|c) 在想键入c的情况下敲成w的概率

## 垃圾邮件过滤实例

这是一个典型的二分类问题。设邮件内容为D,h+表示垃圾邮件 h-表示正常邮件。

于是有

P(h+|D) = P(h+)P(D|h+)/P(D)

P(h-|D) = P(h-)P(D|h-)/P(D)

假设D里面含有N个单词d1,d2,d3...,

P(D|h+) = P(d1,d2,...,dn|h+) = P(d1|h+) * P(d2|d1,h+) * P(d3|d2,d1,h+) * ...

由于朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立,于是可化为 P(d1|h+) * P(d2|h+) * P(d3|h+) * ... 也即统计词频

[ML学习笔记] 朴素贝叶斯算法(Naive Bayesian)的更多相关文章

  1. Andrew Ng机器学习公开课笔记 -- 朴素贝叶斯算法

    网易公开课,第5,6课 notes,http://cs229.stanford.edu/notes/cs229-notes2.pdf 前面讨论了高斯判别分析,是一种生成学习算法,其中x是连续值 这里要 ...

  2. 朴素贝叶斯算法下的情感分析——C#编程实现

    这篇文章做了什么 朴素贝叶斯算法是机器学习中非常重要的分类算法,用途十分广泛,如垃圾邮件处理等.而情感分析(Sentiment Analysis)是自然语言处理(Natural Language Pr ...

  3. C#编程实现朴素贝叶斯算法下的情感分析

    C#编程实现 这篇文章做了什么 朴素贝叶斯算法是机器学习中非常重要的分类算法,用途十分广泛,如垃圾邮件处理等.而情感分析(Sentiment Analysis)是自然语言处理(Natural Lang ...

  4. 朴素贝叶斯算法(Naive Bayes)

    朴素贝叶斯算法(Naive Bayes) 阅读目录 一.病人分类的例子 二.朴素贝叶斯分类器的公式 三.账号分类的例子 四.性别分类的例子 生活中很多场合需要用到分类,比如新闻分类.病人分类等等. 本 ...

  5. 【十大算法实现之naive bayes】朴素贝叶斯算法之文本分类算法的理解与实现

    关于bayes的基础知识,请参考: 基于朴素贝叶斯分类器的文本聚类算法 (上) http://www.cnblogs.com/phinecos/archive/2008/10/21/1315948.h ...

  6. Python机器学习笔记:朴素贝叶斯算法

    朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法.对于大多数的分类算法,在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同.比如决策树,KNN,逻辑回归,支持向 ...

  7. Python机器学习算法 — 朴素贝叶斯算法(Naive Bayes)

    朴素贝叶斯算法 -- 简介 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法.最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Baye ...

  8. 机器学习---用python实现朴素贝叶斯算法(Machine Learning Naive Bayes Algorithm Application)

    在<机器学习---朴素贝叶斯分类器(Machine Learning Naive Bayes Classifier)>一文中,我们介绍了朴素贝叶斯分类器的原理.现在,让我们来实践一下. 在 ...

  9. Naive Bayes(朴素贝叶斯算法)[分类算法]

    Naïve Bayes(朴素贝叶斯)分类算法的实现 (1) 简介: (2)   算法描述: (3) <?php /* *Naive Bayes朴素贝叶斯算法(分类算法的实现) */ /* *把. ...

随机推荐

  1. js设计模式之发布/订阅模式模式

    一.前言 发布订阅模式,基于一个主题/事件通道,希望接收通知的对象(称为subscriber)通过自定义事件订阅主题,被激活事件的对象(称为publisher)通过发布主题事件的方式被通知. 就和用户 ...

  2. asp.net mvc 学习笔记 - 单一实例设计模式

    学习之前,先喊一下口号:每天进步一点,生活更好一点 首先声明一点,我也是新新新手一枚,崭新的新哦.如果文章有不合理的地方,也请各位博友多多指点,不要乱喷哦 我的文采很低调,低调到语文老师对我的期望是你 ...

  3. PHP初级程序员出路

    分销系统 微信公众号开发 分销系统 微信小程序

  4. Nodejs编写复制文件及文件夹命令

    github地址 use npm i fuzhi -g 复制文件 fuzhi a.js b.js 复制文件夹 fuzhi dirA dirB Wiki 创建一个node命令的两个关键点 1.在pack ...

  5. Git 入门详解

    Git git核心概念详解 什么是git git是一个分布式版本控制软件,最初由林纳斯·托瓦兹创作,于2005年以GPL发布.最初目的是为更好地管理Linux内核开发而设计.应注意的是,这与GNU I ...

  6. Java - "JUC线程池" Callable与Future

    Java多线程系列--“JUC线程池”06之 Callable和Future Callable 和 Future 简介 Callable 和 Future 是比较有趣的一对组合.当我们需要获取线程的执 ...

  7. requireJS基本概念及使用流程(2)

    上一篇我们一起研究了研究requireJS,这一篇我们来说一说requireJS具体的使用过程 其实很简单的,我总结了总结就是分为四步走 第一步:在页面中引入requireJS并且引入入口文件 第二步 ...

  8. 【代码笔记】iOS-将字符串中特定后的字变成红色

    一,效果图. 二,代码. ViewController.m - (void)viewDidLoad { [super viewDidLoad]; // Do any additional setup ...

  9. Nginx控制并发连接数

    ngx_http_limit_conn_module这个模块用于限制每个定义的key值的连接数,特别是单IP的连接数. 不是所有的连接数都会被计数.一个符合计数要求的连接是整个请求头已经被读取的连接. ...

  10. 并发容器(四)ConcurrentHashMap 深入解析(JDK1.6)

      这篇文章深入分析的是 JDK1.6的 ConcurrentHashMap 的实现原理,但在JDK1.8中又改进了 ConcurrentHashMap 的实现,废弃了 segments.虽然是已经被 ...