04 统计语言模型(n元语言模型)
预训练
预先训练
我们有两个相似的任务 A 和 B,任务 A 已经完成了得到了一个模型 A
任务 B(数据量小)
用到了一个特性:CNN 浅层参数通用
任务 B 就可以使用模型 A 的浅层参数,后面的参数通过任务 B 训练--》1. 冻结(浅层参数不变)2. 微调(变)
任务 B(大数据)可以训练出模型 B(我还可以使用模型 A 的浅层参数,节省训练时间,节省成本)
统计语言模型
语言模型
语言(人说的话)+模型(表示某个东西,完成某个任务)
- P(“判断这个词的词性”),P(“判断这个词的磁性”)
- “判断这个词的
______
”
统计语言模型
用统计的方法去解决上述两个问题
“判断这个词的词性” = “判断”,“这个”,“词”,“的”,“词性”
这句话是序列(有顺序的)
用了一个条件概率的链式法则(概率论)

通过这个法则,我们可以求出每一个词出现的概率,然后连乘,就是这句话出现的概率
解决第二个问题:
“判断这个词的__
”
P(w_next | “判断”,“这个”,“词”,“的”) (1)
词库(词典)V--》新华字典,高处一个集合,把所有词装到集合 V 里
把集合里的每一个词,都进行上一步(1)的计算
词库 V = { “词性”, “火星”}
P(词性| “判断”,“这个”,“词”,“的”)
P(火星| “判断”,“这个”,“词”,“的”)
P(词性| “判断”,“这个”,“词”,“的”,……, “……”)

n 元统计语言模型
P(词性|“这个”,“词”,“的”)
P(火星| “这个”,“词”,“的”)
P(词性|“词”,“的”)
P(火星|“词”,“的”)
P(词性|“的”)
P(火星|“的”)
把 n 个词,取 2 个词(2 元),取 3 个词(3 元)
如何去计算
“词性是动词”
“判断单词的词性”
“磁性很强的磁铁”
“北京的词性是名词”
(词性|的) = \(\frac{cout(词性,的)}{count(的)}\) = \(\frac{2}{3}\)
平滑策略
P(策略|平滑) = \(\frac{0}{0}\)

统计语言模型
语言模型:计算一句话的概率,计算下一个词可能是什么
统计语言模型:统计的方法去解决语言模型的问题(条件概率)
a 元语言模型:只取 a 个词(马尔科夫链)
平滑策略:
下节课:神经网络语言模型
统计语言模型:神经网络的方法去解决语言模型的问题
04 统计语言模型(n元语言模型)的更多相关文章
- language model —— basic model 语言模型之基础模型
一.发展 起源:统计语言模型起源于 Ponte 和 Croft 在 1998年的 SIGIR上发表的论文 应用:语言模型的应用很多: corsslingual retrieval distribute ...
- N-gram统计语言模型(总结)
N-gram统计语言模型 1.统计语言模型 自然语言从它产生開始,逐渐演变成一种上下文相关的信息表达和传递的方式.因此让计算机处理自然语言.一个主要的问题就是为自然语言这样的上下文相关特性建立数学模型 ...
- NLP(三)_统计语言模型
概念 统计语言模型:是描述自然语言内在的规律的数学模型.广泛应用于各种自然语言处理问题,如语音识别.机器翻译.分词.词性标注,等等.简单地说,语言模型就是用来计算一个句子的概率的模型 即P(W1,W2 ...
- 语言模型(Language Modeling)与统计语言模型
1. n-grams 统计语言模型研究的是一个单词序列出现的概率分布(probability distribution).例如对于英语,全体英文单词构成整个状态空间(state space). 边缘概 ...
- [IR课程笔记]统计语言模型
Basic idea 1.一个文档(document)只有一个主题(topic) 2.主题指的是这个主题下文档中词语是如何出现的 3.在某一主题下文档中经常出现的词语,这个词语在这个主题中也是经常出现 ...
- Python并发编程04 /多线程、生产消费者模型、线程进程对比、线程的方法、线程join、守护线程、线程互斥锁
Python并发编程04 /多线程.生产消费者模型.线程进程对比.线程的方法.线程join.守护线程.线程互斥锁 目录 Python并发编程04 /多线程.生产消费者模型.线程进程对比.线程的方法.线 ...
- BLEU (Bilingual Evaluation Understudy)
什么是BLEU? BLEU (Bilingual Evaluation Understudy) is an algorithm for evaluating the quality of text w ...
- 机器翻译质量评测算法-BLEU
机器翻译领域常使用BLEU对翻译质量进行测试评测.我们可以先看wiki上对BLEU的定义. BLEU (Bilingual Evaluation Understudy) is an algorithm ...
- python: 模型的统计信息
/*! * * Twitter Bootstrap * */ /*! * Bootstrap v3.3.7 (http://getbootstrap.com) * Copyright 2011-201 ...
- [DeeplearningAI笔记]序列模型3.2有条件的语言模型与贪心搜索的不可行性
5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.2选择最可能的句子 Picking the most likely sentence condition lan ...
随机推荐
- 【Windows】(USB热点连接)使用手机给主机提供热点连网
1.问题起源 昨天跟和几个哥们一起装机,发现安装好的系统, 直连网卡提示安装成功,但是网络设置显示未连接 找不到其他原因的办法下,我们看能不能使用手机对电脑进行连网 2.解决过程 我想到的是,先从手机 ...
- Ubuntu18.04环境下安装网络代理软件 proxychains
安装: 网络代理软件proxychains安装: sudo apt-get install proxychains 为保证使用 proxychains 时 sudo proxychains 时可以实现 ...
- 【转载】pip install 使用多个.local环境
原文地址: https://zhuanlan.zhihu.com/p/351468170 ================================ 我们都知道anaconda可以安装不同的py ...
- flex布局被内容被撑开及flex布局下定宽元素被压缩
实现效果使用flex进行左右布局,左边定宽200px,右边自适应,当右边内容过多,造成右边盒子被撑开,会造成两种问题 左边定宽盒子被压缩解决办法: flex-grow:0;//是否自动增长空间 fle ...
- list 中的Stream 累加操作
ublic class Test { public static void main(String[] args) { double sum = 860.10 + 1808.09; double su ...
- That's not my Neighbor 之 Chester 问题答案
Q: What is the meaning of life, the universe and everything else? A: 42 参见:生命.宇宙以及任何事情的终极答案 Q: What ...
- IDEA 忽然无法打开某个特定文件
背景:IDEA中双击打开一个.py文件时,弹出一个文件类型的弹窗(没注意是什么,估计是不小心按到了什么快捷键),当时随便选的Text,结果不知道为什么,这个文件无法在IDEA中打开(之前都正常) 由于 ...
- 【YashanDB知识库】设置归档日志上限,但归档日志没自动清理,导致磁盘空间满
问题现象 客户使用一主一备做性能压测,主备机上设置了归档日志清理上下限: ARCH_CLEAN_LOWER_THRESHOLD=12G ARCH_CLEAN_UPPER_THRESHOLD=16G 但 ...
- RocketMQ 下载安装及消息发送
消息队列前文目录链接参考: 消息队列初见:一起聊聊引入系统mq 之后的问题https://www.cnblogs.com/yizhiamumu/p/16573472.html 分布式事务实战方案汇总 ...
- Go runtime 调度器精讲(一):Go 程序初始化
原创文章,欢迎转载,转载请注明出处,谢谢. 0. 前言 本系列将介绍 Go runtime 调度器.要学好 Go 语言,runtime 运行时是绕不过去的,它相当于一层"操作系统" ...