04 统计语言模型(n元语言模型)
预训练
预先训练
我们有两个相似的任务 A 和 B,任务 A 已经完成了得到了一个模型 A
任务 B(数据量小)
用到了一个特性:CNN 浅层参数通用
任务 B 就可以使用模型 A 的浅层参数,后面的参数通过任务 B 训练--》1. 冻结(浅层参数不变)2. 微调(变)
任务 B(大数据)可以训练出模型 B(我还可以使用模型 A 的浅层参数,节省训练时间,节省成本)
统计语言模型
语言模型
语言(人说的话)+模型(表示某个东西,完成某个任务)
- P(“判断这个词的词性”),P(“判断这个词的磁性”)
- “判断这个词的
______”
统计语言模型
用统计的方法去解决上述两个问题
“判断这个词的词性” = “判断”,“这个”,“词”,“的”,“词性”
这句话是序列(有顺序的)
用了一个条件概率的链式法则(概率论)

通过这个法则,我们可以求出每一个词出现的概率,然后连乘,就是这句话出现的概率
解决第二个问题:
“判断这个词的__”
P(w_next | “判断”,“这个”,“词”,“的”) (1)
词库(词典)V--》新华字典,高处一个集合,把所有词装到集合 V 里
把集合里的每一个词,都进行上一步(1)的计算
词库 V = { “词性”, “火星”}
P(词性| “判断”,“这个”,“词”,“的”)
P(火星| “判断”,“这个”,“词”,“的”)
P(词性| “判断”,“这个”,“词”,“的”,……, “……”)

n 元统计语言模型
P(词性|“这个”,“词”,“的”)
P(火星| “这个”,“词”,“的”)
P(词性|“词”,“的”)
P(火星|“词”,“的”)
P(词性|“的”)
P(火星|“的”)
把 n 个词,取 2 个词(2 元),取 3 个词(3 元)
如何去计算
“词性是动词”
“判断单词的词性”
“磁性很强的磁铁”
“北京的词性是名词”
(词性|的) = \(\frac{cout(词性,的)}{count(的)}\) = \(\frac{2}{3}\)
平滑策略
P(策略|平滑) = \(\frac{0}{0}\)

统计语言模型
语言模型:计算一句话的概率,计算下一个词可能是什么
统计语言模型:统计的方法去解决语言模型的问题(条件概率)
a 元语言模型:只取 a 个词(马尔科夫链)
平滑策略:
下节课:神经网络语言模型
统计语言模型:神经网络的方法去解决语言模型的问题
04 统计语言模型(n元语言模型)的更多相关文章
- language model —— basic model 语言模型之基础模型
一.发展 起源:统计语言模型起源于 Ponte 和 Croft 在 1998年的 SIGIR上发表的论文 应用:语言模型的应用很多: corsslingual retrieval distribute ...
- N-gram统计语言模型(总结)
N-gram统计语言模型 1.统计语言模型 自然语言从它产生開始,逐渐演变成一种上下文相关的信息表达和传递的方式.因此让计算机处理自然语言.一个主要的问题就是为自然语言这样的上下文相关特性建立数学模型 ...
- NLP(三)_统计语言模型
概念 统计语言模型:是描述自然语言内在的规律的数学模型.广泛应用于各种自然语言处理问题,如语音识别.机器翻译.分词.词性标注,等等.简单地说,语言模型就是用来计算一个句子的概率的模型 即P(W1,W2 ...
- 语言模型(Language Modeling)与统计语言模型
1. n-grams 统计语言模型研究的是一个单词序列出现的概率分布(probability distribution).例如对于英语,全体英文单词构成整个状态空间(state space). 边缘概 ...
- [IR课程笔记]统计语言模型
Basic idea 1.一个文档(document)只有一个主题(topic) 2.主题指的是这个主题下文档中词语是如何出现的 3.在某一主题下文档中经常出现的词语,这个词语在这个主题中也是经常出现 ...
- Python并发编程04 /多线程、生产消费者模型、线程进程对比、线程的方法、线程join、守护线程、线程互斥锁
Python并发编程04 /多线程.生产消费者模型.线程进程对比.线程的方法.线程join.守护线程.线程互斥锁 目录 Python并发编程04 /多线程.生产消费者模型.线程进程对比.线程的方法.线 ...
- BLEU (Bilingual Evaluation Understudy)
什么是BLEU? BLEU (Bilingual Evaluation Understudy) is an algorithm for evaluating the quality of text w ...
- 机器翻译质量评测算法-BLEU
机器翻译领域常使用BLEU对翻译质量进行测试评测.我们可以先看wiki上对BLEU的定义. BLEU (Bilingual Evaluation Understudy) is an algorithm ...
- python: 模型的统计信息
/*! * * Twitter Bootstrap * */ /*! * Bootstrap v3.3.7 (http://getbootstrap.com) * Copyright 2011-201 ...
- [DeeplearningAI笔记]序列模型3.2有条件的语言模型与贪心搜索的不可行性
5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.2选择最可能的句子 Picking the most likely sentence condition lan ...
随机推荐
- 【FTP】小米手机FTP传输
设置方法 打开[文件管理],右上角按钮选择[远程管理] 点击设置按钮 默认保持唤醒状态 设置FTP账户的用户名密码 Windows访问: 然后开启服务即可: 手机和电脑连接同一个网络内访问 每次接入网 ...
- 【Zookeeper】Win平台伪集群搭建
下载稳定版Zookeeper https://downloads.apache.org/zookeeper/stable/ GZ包: apache-zookeeper-3.6.3-bin.tar.gz ...
- 【DataBase】SQL优化案例:其一
原始SQL: 这里想做的事情就是查询一周的一个计算值 可以理解为报表的那种 主表 t_wechat_clue 生产库上200万数据量 然后需要联表一些限制条件 SELECT IFNULL(SUM((C ...
- PyCharm2024 专业版激活设置中文
PyCharm2024 专业版激活设置中文 官网下载最新版:https://www.jetbrains.com/zh-cn/pycharm/download 「hack-jet激活idea家族.zip ...
- baselines算法库baselines/common/input.py模块分析
baselines算法库baselines/common/input.py模块代码: import numpy as np import tensorflow as tf from gym.space ...
- 【转载】 tensorflow变量默认是如何进行初始化的?
版权声明:本文为CSDN博主「TahoeWang」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明.原文链接:https://blog.csdn.net/sinat_3 ...
- 这篇 DolphinScheduler on k8s 云原生部署实践,值得所有大数据人看!
在当前快速发展的技术格局中,企业寻求创新解决方案来简化运营并提高效率成为一种趋势. Apache DolphinScheduler作为一个强大的工具,允许跨分布式系统进行复杂的工作流任务调度.本文将深 ...
- 面试必问之redis
这里是我作为10年面试经验总结的面试中必问问题 问题一 简单介绍下redis redis是当前比较热门的NOSQL系统之一,它是一个开源的使用ANSI c语言编写的key-value存储系统(区别于M ...
- git 修改提交作者及提交日期
进入交互式 rebase 模式 git rebase -i <commit> 你要修改哪次提交的日期,就 rebase 到该提交的上一次提交. git 提示你新的分支要包含哪些提交,默认已 ...
- attention, transformers
这啥呀,慢慢啃 Attention 最初来源于 NLP 机器翻译的 Sequence to Sequence 模型,早先的encoder-decoder结构随着句子长度增加翻译性能会下降,因为模型记不 ...