04 统计语言模型(n元语言模型)
预训练
预先训练
我们有两个相似的任务 A 和 B,任务 A 已经完成了得到了一个模型 A
任务 B(数据量小)
用到了一个特性:CNN 浅层参数通用
任务 B 就可以使用模型 A 的浅层参数,后面的参数通过任务 B 训练--》1. 冻结(浅层参数不变)2. 微调(变)
任务 B(大数据)可以训练出模型 B(我还可以使用模型 A 的浅层参数,节省训练时间,节省成本)
统计语言模型
语言模型
语言(人说的话)+模型(表示某个东西,完成某个任务)
- P(“判断这个词的词性”),P(“判断这个词的磁性”)
- “判断这个词的
______”
统计语言模型
用统计的方法去解决上述两个问题
“判断这个词的词性” = “判断”,“这个”,“词”,“的”,“词性”
这句话是序列(有顺序的)
用了一个条件概率的链式法则(概率论)

通过这个法则,我们可以求出每一个词出现的概率,然后连乘,就是这句话出现的概率
解决第二个问题:
“判断这个词的__”
P(w_next | “判断”,“这个”,“词”,“的”) (1)
词库(词典)V--》新华字典,高处一个集合,把所有词装到集合 V 里
把集合里的每一个词,都进行上一步(1)的计算
词库 V = { “词性”, “火星”}
P(词性| “判断”,“这个”,“词”,“的”)
P(火星| “判断”,“这个”,“词”,“的”)
P(词性| “判断”,“这个”,“词”,“的”,……, “……”)

n 元统计语言模型
P(词性|“这个”,“词”,“的”)
P(火星| “这个”,“词”,“的”)
P(词性|“词”,“的”)
P(火星|“词”,“的”)
P(词性|“的”)
P(火星|“的”)
把 n 个词,取 2 个词(2 元),取 3 个词(3 元)
如何去计算
“词性是动词”
“判断单词的词性”
“磁性很强的磁铁”
“北京的词性是名词”
(词性|的) = \(\frac{cout(词性,的)}{count(的)}\) = \(\frac{2}{3}\)
平滑策略
P(策略|平滑) = \(\frac{0}{0}\)

统计语言模型
语言模型:计算一句话的概率,计算下一个词可能是什么
统计语言模型:统计的方法去解决语言模型的问题(条件概率)
a 元语言模型:只取 a 个词(马尔科夫链)
平滑策略:
下节课:神经网络语言模型
统计语言模型:神经网络的方法去解决语言模型的问题
04 统计语言模型(n元语言模型)的更多相关文章
- language model —— basic model 语言模型之基础模型
一.发展 起源:统计语言模型起源于 Ponte 和 Croft 在 1998年的 SIGIR上发表的论文 应用:语言模型的应用很多: corsslingual retrieval distribute ...
- N-gram统计语言模型(总结)
N-gram统计语言模型 1.统计语言模型 自然语言从它产生開始,逐渐演变成一种上下文相关的信息表达和传递的方式.因此让计算机处理自然语言.一个主要的问题就是为自然语言这样的上下文相关特性建立数学模型 ...
- NLP(三)_统计语言模型
概念 统计语言模型:是描述自然语言内在的规律的数学模型.广泛应用于各种自然语言处理问题,如语音识别.机器翻译.分词.词性标注,等等.简单地说,语言模型就是用来计算一个句子的概率的模型 即P(W1,W2 ...
- 语言模型(Language Modeling)与统计语言模型
1. n-grams 统计语言模型研究的是一个单词序列出现的概率分布(probability distribution).例如对于英语,全体英文单词构成整个状态空间(state space). 边缘概 ...
- [IR课程笔记]统计语言模型
Basic idea 1.一个文档(document)只有一个主题(topic) 2.主题指的是这个主题下文档中词语是如何出现的 3.在某一主题下文档中经常出现的词语,这个词语在这个主题中也是经常出现 ...
- Python并发编程04 /多线程、生产消费者模型、线程进程对比、线程的方法、线程join、守护线程、线程互斥锁
Python并发编程04 /多线程.生产消费者模型.线程进程对比.线程的方法.线程join.守护线程.线程互斥锁 目录 Python并发编程04 /多线程.生产消费者模型.线程进程对比.线程的方法.线 ...
- BLEU (Bilingual Evaluation Understudy)
什么是BLEU? BLEU (Bilingual Evaluation Understudy) is an algorithm for evaluating the quality of text w ...
- 机器翻译质量评测算法-BLEU
机器翻译领域常使用BLEU对翻译质量进行测试评测.我们可以先看wiki上对BLEU的定义. BLEU (Bilingual Evaluation Understudy) is an algorithm ...
- python: 模型的统计信息
/*! * * Twitter Bootstrap * */ /*! * Bootstrap v3.3.7 (http://getbootstrap.com) * Copyright 2011-201 ...
- [DeeplearningAI笔记]序列模型3.2有条件的语言模型与贪心搜索的不可行性
5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.2选择最可能的句子 Picking the most likely sentence condition lan ...
随机推荐
- 【Hadoop】3.3.1版本部署
硬件环境: 虚拟机环境配置 硬件:1CPU + [RAM]4G + [DISK]128G 系统:Centos7 x64 这里没有像尚硅谷一样做地址映射解析,直接取IP(我太懒) 192.168.242 ...
- 【DataBase】MySQL 31 游标
游标 Cursor 游标是用来存储查询的结果集的数据类型,也称为是光标 在存储过程和函数中可以使用光标对结果集进行循环的处理 光标的使用包括1.声明,2.开启,3.关闭,4.Fetch 游标仅用于存储 ...
- 【FastDFS】05 Java程序测试上传
创建普通Maven工程 导入所需依赖坐标: <dependencies> <!-- https://mvnrepository.com/artifact/net.oschina.zc ...
- NVIDA GPU-SXM和NVIDA GPU-PCIe 两种类型显卡到底哪个性能更高?
相关: 大模型时代该用什么样的显卡 -- 实验室新进两块A800显卡 浅析:NVIDA GPU卡SXM和PCIe之间的差异性 原来SXM类型的显卡比PCIex类型显卡性能要高.PCIE版本是通用接口, ...
- python语言:通过对100个常用网站进行网络连接操作来判断当前的网络情况(是否被断掉)
由于需要判断网络的通信情况,比如判断网络是否掉线,因此想到了一个笨方法,那就是对100个大型网站进行网络连接操作,通过是否连接成功来判断当前的网络是否被断掉. 这里的思路是只要大部分的网站可以连接通那 ...
- 【分享】java精品实战教程
1.背景 大家好,我是一名地地道道的码农,平时在工作喜欢写博客, 一方面可以梳理技术点提升自己的技术,在遇到同样的问题时可以快速解决; 另一方面也想贡献自己的微博力量帮助其他遇到同样问题的人 后来觉得 ...
- 重装win10
作者:最强近战SCV链接:https://www.zhihu.com/question/54059979/answer/618694754来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业 ...
- java_父类子类
private 只有自身能访问自身 自身 同包子 不同包子类 同包类 其他类 可以访问 不能继承 不能继承 不能访问 不能访问 package/friendly/default == 不写 自身 同包 ...
- ArcGIS创建渔网工具的使用方法
本文介绍在ArcMap软件中,通过"Create Fishnet"工具创建渔网,从而获得指定大小的矢量格网数据的方法. 首先,我们在创建渔网前,需要指定渔网覆盖的范围.这里 ...
- (Ljava/lang/String;)Ljava/util/List;
背景:原正常代码,更改类名后,重新运行 报错:(Ljava/lang/String;)Ljava/util/List; 解决:mvn clean 后 compile,再运行,正常