SciTech-Mathmatics-Probability+Statistics

Conditional Probability + Bayes Formula: Application:

Conditional Probability(条件概率)

Bayes Formula

\[\large \begin{array}{lll}\\
\bm{ P(A | B) } =\dfrac{ \bm{ P(B | A) } P(A) } { P(B) } =\dfrac{ \bm{ P(B | A) } P(A) } { \overset{n}{ \underset{k=1}{ \sum}} P( A_k \cap B) } =\dfrac{ \bm{ P(B | A) } P(A) } { \overset{n}{ \underset{k=1}{ \sum} } { P(A_k) P(B | A_k) } } \\
\\
\downarrow \bm{ existing\ a \ partition } \text{ of } A : if \ P(B|A_k) \text{ is available for each } k \\
\\
\bm{ P(A_i | B) } =\dfrac{ \bm{ P(B | A_i) } P(A_i) } { P(B) } =\dfrac{ \bm{ P(B | A_i) } P(A_i) } { \overset{n}{ \underset{k=1}{ \sum} } { P(A_k \cap B) } } =\dfrac{ \bm{ P(B | A_i) } P(A_i) } { \overset{n}{ \underset{k=1}{ \sum} } { P(A_k) P( B | A_k) } } \\
\end{array}\]

举例:

收到所有信件,出现“收入”词组的概率

Statistics of Samples

\[\large \begin{array}{lll}\\
\text {所有信件} \begin{cases} \\
\overset{ \bm { P(A_1) = \frac{3}{8} } }{ \bm{ 广告信件 } } & \begin{cases}
& \overset{ \bm{ P(K_1) } = \frac{2}{3} } { 出现\bm{广告}词组 } \ : \bm { P(K_1|A_1) } = \frac{2}{8} \\
& \overset{ \bm{ P(K_2) } = \frac{1}{3} } { 没有\bm{广告}词组 } \ : \bm { P(K_2|A_2) } = \frac{1}{8} \\
\end{cases} \\
\overset{ \bm { P(A_2) = \frac{5}{8} } }{ \bm{ 正常信件 } } & \begin{cases}
& \overset{ \bm{ P(K_1) } = \frac{1}{5} } { 出现\bm{广告}词组 } \ : \bm { P(K_1|A_2) } = \frac{1}{8} \\
& \overset{ \bm{ P(K_2) } = \frac{4}{5} } { 没有\bm{广告}词组 } \ : \bm { P(K_2|A_2) } = \frac{4}{8} \\
\end{cases} \\
\end{cases} \\
\end{array} \]

Statistical Inference based on above Statistics and its Samples

  • 现在,收到一份信件,并且有 $\large \bm{广告}词组 $ , 则此信是“广告信”的概率是?
\[\large \begin{array}{lll}\\
\text {有 $\large \bm{广告}词组 $} \begin{cases} \\
\bm{ 广告信 } : \bm { P(A_1 | K_1) } = \bm{ \frac{2}{3} } \leftarrow \dfrac{ \frac{2}{8} } { \frac{2}{8} + \frac{1}{8} } =\dfrac{ \bm{ P(K_1 | A_1) } P(A_1) } { \overset{n}{ \underset{i=1}{ \sum} } { P(A_1) P( K_i | A_1) } } \\
\bm{ 正常信 } : \bm { P(A_2 | K_1) } = \bm{ \frac{1}{3} } \leftarrow \dfrac{ \frac{1}{8} } { \frac{2}{8} + \frac{1}{8} } =\dfrac{ \bm{ P(K_1 | A_2) } P(A_2) } { \overset{n}{ \underset{i=1}{ \sum} } { P(A_2) P( K_i | A_2) } } \\
\end{cases} \\
\end{array} \]

可以看到信件有 $\large 出现\bm{广告}词组 $ 出现为前提,

是“广告信件”的概率由:

  • 先验的样本统计概率 $\large \bm { P(A_1) =P(K_1|A_1)+P(K_2|A_1) = \frac{3}{8} } $

上升到:

  • 后验的样本更新概率 $\large \bm { P(A_1 | K_1) = \frac{2}{3} } $

导致样本空间的概率分布变更的原因:

系统原因(需要更新统计量?或新验证模型?):

  • 前提条件的设置/完备”导致“归一化概率”的“样本空间改变”;
  • “正交概率分布”的“样本集”的“完全分布”变更导致;
  • 外部因素影响“正交概率分布”的“部分占比”变更导致;

随机因素(需要更大的样本空间以抵消误差因素?):

  • 因为一些随机因素引发的Error(误差).
  • 总之“Prior维度集合的Partition”与“Posterior维度集合的Partition”的“正交集合笛卡尔积”“条件概率分布”的“参数”或“配比”发生了变更;

  • 实例是:

    • 在“Posterior(后验)”时,能对event(事件的)设置/完备的“前提条件”越来越多,就需要 Revise 其对应的Probability. 以上例:判断信新收到的一份信,是“广告邮件”的概率,可以由信的“关键词向量”丰富程度来确定。
    • 总由$\large Population $ 或 $\large Samples $ 统计得到的“Prior维度”的所有“Statistics(统计量)”;

      而 $\large Population $ 或 $\large Samples $ 可能因为时间或发展变化而更新,因此统计得到的“Prio

      r维度”的所有“Statistics(统计量)”也会变更;

      以上面“广告信比例”为例:

      "样本空间" 越来越大(接收到的所有有效信件越来越多),"AI系统"周期性更新"样本空间"的"统计量",包括:

      • \(\large P(A1)\) : “全量样本空间”,统计出 $ \bm{ 广告信 } $ 的概率;
      • \(\large P(A2)\) : “全量样本空间”,统计出 $ \bm{ 正常信 } $ 的概率;
      • \(\large P(K1 | A1)\) : $ \bm{ 广告信 } $ 集合,出现 $\large \bm{广告}词组 $ 的概率;
      • \(\large P(K1 | A2)\) : $ \bm{ 正常信 } $ 集合,出现 $\large \bm{广告}词组 $ 的概率;
      • \(\large P(K2 | A1)\) : $ \bm{ 广告信 } $ 集合,没有 $\large \bm{广告}词组 $ 的概率;
      • \(\large P(K2 | A2)\) : $ \bm{ 正常信 } $ 集合,没有 $\large \bm{广告}词组 $ 的概率;

前提是“Prior维度集合的Partition”与“Posterior维度集合的Partition”有“正交集合笛卡尔积”“条件概率分布”

对上例:

  • Prior维度集合的Partition 是: $\large P(广告信) P(正常) $

的“正交集合积”“条件概率分布”即:

计算出“Posterior后验”后验

(由A的Partition $\large \bm { P(K_1 | A_1) } $ 和 $\large \bm { P(K_1 | A_2) } $ 可计算出两维度的“共现(交集)” 概率) $\large \bm { P(K_1 | A_1) } $ ) P(K_1|A_1)+P(K_2|A_1)

Revise the probability of \(\large P(K1 | A_i)\)

那么根据越多的“关键词”的“后验”概率,判断得出正确结果的概率就越大。

p垃圾邮件”收入,赚钱…成功?)



p收入”|“垃圾邮件”)p(赚钱”|垃圾邮件),p成功”|“垃圾邮件?)

pC正常邮件!收入“赚钱”…成功)



pC收入“正常邮件PT赚钱”|“正常邮件).pC成功”“正常邮件?

SciTech-Mathmatics-Probability+Statistics-Conditional Probability + Bayes Theorem+App.: 条件概率+Bayes原理及应用:广告邮件分类的更多相关文章

  1. 【概率论】2-1:条件概率(Conditional Probability)

    title: [概率论]2-1:条件概率(Conditional Probability) categories: Mathematic Probability keywords: Condition ...

  2. Bayes’s formula for Conditional Probability

    Conditional Probability Example:In a batch, there are 80% C programmers, and 40% are Java and C prog ...

  3. (main)贝叶斯统计 | 贝叶斯定理 | 贝叶斯推断 | 贝叶斯线性回归 | Bayes' Theorem

    2019年08月31日更新 看了一篇发在NM上的文章才又明白了贝叶斯方法的重要性和普适性,结合目前最火的DL,会有意想不到的结果. 目前一些最直觉性的理解: 概率的核心就是可能性空间一定,三体世界不会 ...

  4. Naive Bayes Theorem and Application - Theorem

    Naive Bayes Theorm And Application - Theorem Naive Bayes model: 1. Naive Bayes model 2. model: discr ...

  5. 【概率论】2-3:贝叶斯定理(Bayes' Theorem)

    title: [概率论]2-3:贝叶斯定理(Bayes' Theorem) categories: Mathematic Probability keywords: Bayes' Theorem 贝叶 ...

  6. 贝叶斯定理推导(Bayes' Theorem Induction)

    这里用Venn diagram来不严谨地推导一下贝叶斯定理. 假设A和B为两个不相互独立的事件. 交集(intersection):  上图红色部分即为事件A和事件B的交集. 并集(union):  ...

  7. 读Bayes' Theorem

    Bayes' Theorem定理的原理说明,三个简单的例子来说明用法及一些练习. Bayes' Theorem就是概率问题,论文相对比较好理解,也不必做什么笔记.

  8. [Bayes] Understanding Bayes: Visualization of the Bayes Factor

    From: https://alexanderetz.com/2015/08/09/understanding-bayes-visualization-of-bf/ Nearly被贝叶斯因子搞死,找篇 ...

  9. 条件概率和链式法则 conditional probability & chain rule

    顾名思义, 条件概率指的是某个事件在给定其他条件时发生的概率, 这个非常符合人的认知:我们通常就是在已知一定的信息(条件)情况下, 去估计某个事件可能发生的概率. 概率论中,用 | 表示条件, 条件概 ...

  10. Probability&Statistics 概率论与数理统计(1)

    基本概念 样本空间: 随机试验E的所有可能结果组成的集合, 为E的样本空间, 记为S 随机事件: E的样本空间S的子集为E的随机事件, 简称事件, 由一个样本点组成的单点集, 称为基本事件 对立事件/ ...

随机推荐

  1. 【工具】Typora中主题css修改|看了这篇,一劳永逸

    真正的指南 1. 查看当前的css shift+f12,与一般浏览器调试一样,先打开控制台,查找你需要修改的地方叫什么名字.(也可以点击"视图"-"开发者工具" ...

  2. MySQL中create_time 和 update_time实现自动更新时间

    也是最近在捣鼓前后端分离项目, 在写后端接口的时候便设计到数据库表建设, 这里规范显得很重要. 通常的建表规范, 必备三字段:id,create_time,update_time. id 必为主键,类 ...

  3. 网络编程:reactor反应堆_TCP字节流处理和HTTP协议实现

    buffer对象 buffer对象:顾名思义,就是一个缓冲区对象,缓存了从套接字接收来的数据以及需要发往套接字的数据. 如果是从套接字接受来的数据,事件处理回调函数在不断地往buffer对象增加数据, ...

  4. Friend Circles(dfs)——LeetCode进阶路

    原题链接https://leetcode.com/problems/friend-circles/ 题目描述 There are N students in a class. Some of them ...

  5. 基于Photon与Unreal Engine的VR协作平台开发实战教程

    引言 在数字化转型加速的今天,虚拟现实(VR)技术正在重塑远程协作模式.本教程将带领读者从零开始构建一个支持多人协同的VR办公平台,通过Unreal Engine 5的强大渲染能力与Photon引擎的 ...

  6. Qt图像处理技术一:对QImage图片美颜,使用双指数滤波

    一.效果图 二.demo源码地址(除了磨皮还有一些基本的滤镜) 如果你觉得有用的话,期待你的小星星 实战应用项目: github :https://github.com/dependon/simple ...

  7. Mysql高级操作(select嵌套,多表JOIN)

    .markdown-body { line-height: 1.75; font-weight: 400; font-size: 16px; overflow-x: hidden; color: rg ...

  8. 杂七杂八系列----C#代码如何影响CPU缓存速度?

    CPU与RAM的隔阂 CPU与RAM是两个独立的硬件,并非集成在一起.所以他们两个之间一定会存在一个连接的桥梁,这个桥梁的名字叫做内存总线. 内存总线由三部分组成: 地址总线(Address Bus) ...

  9. 爬虫(2)——requests以及xpath的使用

    一.requests requests.request(method,url,**kwargs) # 常见参数 # params/data/json 上传数据 # files 上传文件 # heade ...

  10. 垃圾PTA:7-2 统计数字字符和空格

    本题要求编写程序,输入一行字符,统计其中数字字符.空格和其他字符的个数.建议使用switch语句编写. 输入格式:输入在一行中给出若干字符,最后一个回车表示输入结束,不算在内. 输出格式:在一行内按照 ...