自然语言处理(NLP) - 数学基础(3) - 概率论基本概念与随机事件
好像所有讲概率论的文章\视频都离不开抛骰子或抛硬币这两个例子, 因为抛骰子的确是概率论产生的基础, 赌徒们为了赢钱就不在乎上帝了才导致概率论能突破宗教的绞杀, 所以我们这里也以抛骰子和抛硬币这两个例子.
我们先来过一遍基本概念:
- 随机试验. 在抛骰子的过程中,我们注意到,在相同条件下,我们每一次抛骰子的时候,我们无法得知骰子最后静止时,骰子的哪一面向上,但是我们通过不断的抛骰子的过程中发现,结果无非是1,2,3,4,5,6六个点之一。随机试验:
1. 试验可以在相同条件下重复地进行。
2. 试验的结果不止一个,且事先可以明确实验的所有可能结果,
3. 试验之前无法预知会出现哪一个结果。
- 样本空间. 已知一个随机事件,其所有可能结果组成的集合称为样本空间。在抛骰子这个例子中, 样本空间s={1,2,3,4,5,6}
- 样本点. 随机事件可能的结果称为样本点。在抛骰子这个例子中, 1,2,3,4,5,6六个点之中的每个点都称为样本点, 可见, 样本空间由样本点组成.
- 随机事件,样本空间中满足某些条件的子集,称为随机事件。比如"出现偶数"
- 基本事件. 一个样本点
- 不可能事件. 空集, 比如出现0点
- 随机事件发生. 所发生的随机事件在随机事件集合内
- 完备事件组.事件之间所包含元素互不相同,所有事件组加起来刚好构成样本空间全集
随机事件关系有如下几种(其实就是集合, 1933年,俄国数学家Andrei N. Kolmogorov建立了概率论的公理化体系,严格定义了概率论的语言。正如现代数学的其他学科一样,概率论的公理化体系同样基于集合论。公理化的概率论体系基于几条简单易懂的公理,衍生出整个概率论的体系。学习这个公理化的体系,可以消除直觉中的许多混淆。这一公理体系的核心是“概率测度”。):
- 包含关系:A⊂B 即事件B包含事件A, 事件A发生必然会导致事件B发生
- 相等关系:A=B A⊂B,B⊂A
- 和关系 :A∪B 事件A与事件B至少发生一个
- 积事件: A∩B 即A交B 事件A与事件B同时发生。所谓的事件同时发生,由于随机事件是样本空间的子集,也就是它由一系列的样本点组成。所以,两个事件的样本点有交集时,相同的样本点发生,即为事件A与事件B同时发生。
- 并集. D=A∪B
- 差事件:A−B B不发生而A发生。
- 逆事件或对立事件:
- 互斥事件. 空集Φ是一个不包含任何元素的集合。如果两个集合的交集为空集,即M∩N=Φ,那么这两个集合不相交。在概率论中,不相交的两个事件互斥。
事件的运算(其实就是集合的运算,和加法一样,集合的交并集运算同样有运算法则。):
- 交换律. A∪B=B∪A 和 A∩B=B∩A
- 结合律. (A∪B)∪C=A∪(B∪C)和(A∩B)∩C=A∩(B∩C)
- 分配律. (A∪B)∩C=(A∩C)∪(B∩C)和 (A∩B)∪C=(A∪C)∩(B∪C)
- 德摩根律.
接来下我们继续用python来进行讲解.
下面我们使用python实现集合的运算:
A = set([1, 2, 3, 4,5,6])
B = set([3, 4, 5, 6,7,8]) print(A & B) # 交集 intersection
print(A | B) # 并集 union
print(A - B) # 求差集(项在A中,但不在B中) difference, element in A, and not in B
print(A ^ B) # 对称差集(项在A或B中,但不会同时出现在二者中 symmetric difference, (A | B) - (A & B)
下面我们使用in来判断元素是否属于集合,以及用>, >=, <, <=来判断两个集合的归属关系,比如一个集合是另一个集合的子集。
A = set([1, 2,3,])
B = set([1, 2,3,4,5,6]) print(1 in A) # element
print(A < B) # subset
下面我们返回集合中元素总数,集合最大值,集合最小值, 增加和删除元素. 注意根据概率论, 集合中是不会有重复的元素的:
A = set([1, 2,3,4,5,6]) set_len = len(A)
print(set_len) A.add(6) # add an element
print(A) A.remove(2) # remove an element
print(A) A.add(1)
print(A) # a set has no repeated elements
当不方便用python时, 很遗憾微软数学app不支持集合操作, 这里是微软数学所支持的数学计算.
有用链接:
为了方便搜索资料, 现在列出本节所用到的英文术语名词:
- 集合 - set
- 随机试验 - Random experiment
- 样本空间 - sample space 一般用Ω表示
- 样本点 - 待确认
- 随机事件 - Random event
- 基本事件 - Elementary event
- 不可能事件 - Impossible event
- 随机事件发生 - 待确认
- 完备事件组 - 待确认
- A⊂B - 待确认
- A=B - 待确认
- A∪B - 待确认
- A∩B - 待确认
- 交换律. - 待确认
- 结合律. - 待确认
- 分配律 -待确认
- 德摩根律 - 待确认
自然语言处理(NLP) - 数学基础(3) - 概率论基本概念与随机事件的更多相关文章
- 自然语言处理(NLP) - 数学基础(1) - 排列组合
正如我在<自然语言处理(NLP) - 数学基础(1) - 总述>一文中所提到的NLP所关联的概率论(Probability Theory)知识点是如此的多, 饭只能一口一口地吃了, 我们先 ...
- 自然语言处理(NLP) - 数学基础(1) - 总述
正如我在<2019年总结>里说提到的, 我将开始一系列自然语言处理(NLP)的笔记. 很多人都说, AI并不难啊, 调现有库和云的API就可以啦. 然而实际上并不是这样的. 首先, AI这 ...
- 自然语言处理NLP学习笔记一:概念与模型初探
前言 先来看一些demo,来一些直观的了解. 自然语言处理: 可以做中文分词,词性分析,文本摘要等,为后面的知识图谱做准备. http://xiaosi.trs.cn/demo/rs/demo 知识图 ...
- 自然语言处理NLP快速入门
自然语言处理NLP快速入门 https://mp.weixin.qq.com/s/J-vndnycZgwVrSlDCefHZA [导读]自然语言处理已经成为人工智能领域一个重要的分支,它研究能实现人与 ...
- 自然语言处理(NLP)之个人小结
一 概述 1.1 自然语言处理四大任务 序列标注 分词 词性标注 命名实体识别 分类任务 文本分类 情感分析 判断句子关系 问答系统 对话系统 阅读理解 生成任务 机器翻译 自动文摘 图像描述生成 1 ...
- 国内外自然语言处理(NLP)研究组
国内外自然语言处理(NLP)研究组 *博客地址 http://blog.csdn.net/wangxinginnlp/article/details/44890553 *排名不分先后.收集不全,欢迎 ...
- 曼孚科技:AI自然语言处理(NLP)领域常用的16个术语
自然语言处理(NLP)是人工智能领域一个十分重要的研究方向.NLP研究的是实现人与计算机之间用自然语言进行有效沟通的各种理论与方法. 本文整理了NLP领域常用的16个术语,希望可以帮助大家更好地理解 ...
- 自然语言处理(NLP)——简介
自然语言处理(NLP Natural Language Processing)是一种专业分析人类语言的人工智能.就是在机器语⾔和⼈类语言之间沟通的桥梁,以实现人机交流的目的. 在人工智能出现之前,机器 ...
- 国内知名的自然语言处理(NLP)团队
工业界 腾讯人工智能实验室(Tencent AI Lab) 百度自然语言处理(Baidu NLP):对外提供了百度AI开放平台,王海峰(现任百度副总裁,AI技术平台体系AIG总负责人) 微软亚洲研究院 ...
随机推荐
- Python中字符的编码与解码
1 文本和字节序列 我们都知道字符串,就是由一些字符组成的序列构成串,那么字符又是什么呢?计算机只能识别二进制的东西,那么计算机又为什么会显示我们的汉字,或者是某个字母呢? 由于最早发明使用计算机是美 ...
- PHP常量以及基本数据类型
1.常量 1.1用define()函数定义常量 define(常量名,值,[是否区别大小写]) true表示不区分大小写,默认是false 常量名前没有$符 常量名推荐使用大写 1.2.定义 ...
- Javase之多线程(1)
多线程(1) 多线程的概述 了解多线程之前需要先了解线程,而线程依赖于进程而存在,所以先了解进程. 什么是进程 进程就是正在运行的程序.是系统进行资源分配和调用的独立单位.每一个进程都有它自己的内存空 ...
- centos7下编译安装python3.7,且与python2.7.5共存
环境:Centos7.6 x64 一.安装python3.7 下载python源码包: wget https://www.python.org/ftp/python/3.7.4/Python-3.7. ...
- Windows下的DNS命令用法
- ipconfig 查看DNS缓存内容: ipconfig /displaydns 将显示所有缓存的DNS解析结果. 清空DNS缓存内容: ipconfig /flushdns 将清空缓存的DNS解 ...
- Discuz! 全局变量说明
$_G 保存了 Discuz! 中所有的预处理数据 缓存能够很好的提高程序的性能,一些配置数据没必要每次都查询数据库,只要在修改了的时候更新下缓存即可. Discuz! 中所有的缓存保存在 $_G[c ...
- .net4.0使用Dapper操作MySql
准备使用Dapper操作MySql,由于电脑只有vs2010,所以需要Dapper和MySql组件支持.net 4.0.经过一番测试,终于弄出一个DEMO. 1.操作MySql需要用MySql.Dat ...
- mssql sqlserver 使用sql脚本获取字符串存在多少个网址(url地址)的方法分享
摘要:下文讲述获取一个字符串中存在多少个网址的方法,如下实验环境:sql server 2008 R2 实现思路: 1.新建一个自定义函数,可将单个字符串拆分为含单个网址的数据表 2.采用outer ...
- mac 下删除 python 2.7
删除 mac os 自带的 python 2.7, 以方便安装 python 3 的虚拟环境. 删除 Python 2.7 framework sudo rm -rf /Library/Frame ...
- [日常] git版本回退
还没有push到远程的时候,版本回退的测试如下 先克隆一个空的测试仓库,这是我自己在gitlab里创建的空仓库git clone http://192.168.1.114:8090/admintsh/ ...