5.2自然语言处理

觉得有用的话,欢迎一起讨论相互学习~Follow Me

2.1词汇表征 Word representation

原先都是使用词汇表来表示词汇，并且使用1-hot编码的方式来表示词汇表中的词汇。
- 这种表示方法最大的缺点是 它把每个词孤立起来，这样使得算法对相关词的泛化能力不强
例如：对于已知句子“I want a glass of orange ___ ” 很可能猜出下一个词是"juice".
如果模型已知读过了这个句子但是当看见句子"I want a glass of apple ___ ",算法也不能猜出下一个词汇是"juice"，因为算法本身并不知道“orange”和“apple”之间的关系。也许比起苹果，橙子与其他单词之间的距离更近。即算法并不能从“orange juice”是一个很常见的短语而推导出“apple juice”也是一个常见的短语。
这是因为任意两个用“one-hot”编码表示的单词的内积都是0。

特征表示：词嵌入 (Featurized representation: word embedding)

使用特征化的方法来表示每个词，假如使用性别来作为一个特征，用以表示这些词汇和性别之间的关系。

	Man	Woman	King	Queen	Apple	Orange
Gender	-1	1	-0.95	0.97	0.00	0.01

当然也可以使用这种方法表示这些词汇和高贵之间的关系。

	Man	Woman	King	Queen	Apple	Orange
Royal	0.01	0.02	0.93	0.95	-0.01	0.00

使用各种特征对词汇表中的单词进行表示

	Man	Woman	King	Queen	Apple	Orange
Gender	-1	1	-0.95	0.97	0.00	0.01
Royal	0.01	0.02	0.93	0.95	-0.01	0.00
Age	0.03	0.02	0.7	0.69	0.03	-0.02
Food	0.09	0.01	0.02	0.01	0.95	0.97

假设为了表示出词汇表中的单词，使用300个特征进行描述，则词汇表中的每个单词都被表示为一个300维的向量。此时使用e_NO.表示特定的单词，例如Man表示为\(e_{5391}\),Woman表示为\(e_{9853}\),King表示为\(e_{4914}\)
对于词嵌入的表示形式通过大量不同的特征来表示词汇，在填词处理时，会更容易通过Orange juice而联想到 Apple juice.

可视化词向量 (Visualizing word embedding)

Maaten L V D, Hinton G. Visualizing Data using t-SNE[J]. Journal of Machine Learning Research, 2008, 9(2605):2579-2605.

对于词向量的可视化，是将300维的特征映射到一个2维空间中--t-SNE算法

2.2使用词嵌入 Using word embeddings

继续使用实体命名识别(named entity recognition)的例子,示例："Sally Johnson is an orange farmer"Sally Johnson 是一个种橙子的农民。对于Sally Johnson,我们能很快识别出这是一个人名，这是因为看到了"orange farmer"这个词，告诉我们Sally Johnson是一个农民。
使用词嵌入的方式，很快能够识别出橙子和苹果是同类事物。在句子“Sally Johnson is an orange farmer”中识别出Sally Johnson是一个人名后，在句子“Robert Lin is an apple farmer”中也可以很容易的识别出Robert Lin是一个人名。
词嵌入文本识别的方法基于的是一个巨大的文本库，只有使用巨量的文本作为训练集的基础上，系统才会真正的有效。一个NLP系统中，使用的文本数量达到了1亿甚至是100亿。
- 在你的识别系统中，也许训练集只有100K的训练数据，但是可以使用迁移学习的方法，从大量无标签的文本中学习到大量语言知识。

将迁移学习运用到词嵌入 (Transfer learning and word embeddings)

先从一个非常大的文本集中学习词嵌入，或者从网上下载预训练好的词嵌入模型。
使用词嵌入模型，将其迁移到自己的新的只有少量标注的训练集的任务中。
优化模型:持续使用新的数据来微调自身的词嵌入模型。

词嵌入技术在自身的标注训练集相对较少时优势最为明显。在 实体命名识别(named entity recognition),文本摘要(text summarization),文本解析(co-reference resolution),指代消解(parsing)中应用最为广泛 在 语言模型(language modeling), 机器翻译(Machine translation)中应用较少 因为这些任务中，你有大量的数据而不一定需要使用到词嵌入技术。

词嵌入与人脸编码(word embeddings and face encoding)

Taigman Y, Yang M, Ranzato M, et al. DeepFace: Closing the Gap to Human-Level Performance in Face Verification[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2014:1701-1708.

词嵌入技术与人脸编码技术之间有奇妙的关系，在人脸编码任务中，通过卷积神经网路将两张人脸图片进行编码成为两个128维的数据向量，然后经过比较判断两张图片是否来自于同一张人脸。
- 对于人脸识别问题，无论这张图片原先是否认识过，经过卷积神经网络处理后，都会得到一个向量表征。
- 对于词嵌入问题，则是有一个固定的词汇表，对于词汇表中的每个单词学习一个固定的词嵌入表示方法。而对于没有出现在词汇表中的单词，视其为UNK(unknowed word)

[DeeplearningAI笔记]序列模型2.1-2.2词嵌入word embedding的更多相关文章

DeepLearning.ai学习笔记（五）序列模型 -- week2 自然语言处理与词嵌入
一.词汇表征首先回顾一下之前介绍的单词表示方法,即one hot表示法. 如下图示,"Man"这个单词可以用 \(O_{5391}\) 表示,其中O表示One_hot.其他单词同 ...
[DeeplearningAI笔记]序列模型2.3-2.5余弦相似度/嵌入矩阵/学习词嵌入
5.2自然语言处理觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.3词嵌入的特性 properties of word embedding Mikolov T, Yih W T, Zwe ...
[DeeplearningAI笔记]序列模型3.9-3.10语音辨识/CTC损失函数/触发字检测
5.3序列模型与注意力机制觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.9语音辨识 Speech recognition 问题描述对于音频片段(audio clip)x ,y生成文本 ...
[DeeplearningAI笔记]序列模型3.7-3.8注意力模型
5.3序列模型与注意力机制觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.7注意力模型直观理解Attention model intuition 长序列问题 The problem of ...
[DeeplearningAI笔记]序列模型3.6Bleu得分/机器翻译得分指标
5.3序列模型与注意力机制觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.6Bleu得分在机器翻译中往往对应有多种翻译,而且同样好,此时怎样评估一个机器翻译系统是一个难题. 常见的解决 ...
[DeeplearningAI笔记]序列模型3.3集束搜索
5.3序列模型与注意力机制觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.3 集束搜索Beam Search 对于机器翻译来说,给定输入的句子,会返回一个随机的英语翻译结果,但是你想要一 ...
[DeeplearningAI笔记]序列模型3.2有条件的语言模型与贪心搜索的不可行性
5.3序列模型与注意力机制觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.2选择最可能的句子 Picking the most likely sentence condition lan ...
[DeeplearningAI笔记]序列模型3.1基本的 Seq2Seq /image to Seq
5.3序列模型与注意力机制觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.1基础模型 [1] Sutskever I, Vinyals O, Le Q V. Sequence to Se ...
[DeeplearningAI笔记]序列模型1.10-1.12LSTM/BRNN/DeepRNN
5.1循环序列模型觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.10长短期记忆网络(Long short term memory)LSTM Hochreiter S, Schmidhu ...
[DeeplearningAI笔记]序列模型1.7-1.9RNN对新序列采样/GRU门控循环神经网络
5.1循环序列模型觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.7对新序列采样基于词汇进行采样模型在训练完一个模型之后你想要知道模型学到了什么,一种非正式的方法就是进行一次新序列采 ...

随机推荐

python基础知识-01-编码输入输出变量
python其他知识目录名词解释: 编辑器 ide 程序员操作系统 ASCAII码 unicode utf-8 浅谈CPU.内存.硬盘之间的关系操作系统及Python解释器工作原理讲解关于编译 ...
Python：内建函数zip
1.语法 zip([iterable,...]) [说明]:iterable——一个或多个迭代器 2.功能 zip()函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个的元组,然后返回由这 ...
C/C++学习计划
学习内容:C语言程序设计精髓/计算机程序设计(C++) 学习理由:基础比较薄弱,想先打好基础. 时间安排:每天学习两课时. mooc地址:http://www.icourse163.org/home. ...
关于String和StringBuffer的原理
public class Foo {2. public static void main (String [] args) {3. StringBuffer a = new Strin ...
jQuery之过滤选择器
在原有选择器匹配的元素中进一步进行过滤的选择器 * 基本 * 内容 * 可见性 * 属性需求 1. 选择第一个div 2. 选择最后一个class为box的元素 3. 选择所有class属性不为bo ...
Qt动态连接库/静态连接库创建与使用，QLibrary动态加载库
版权声明:若无来源注明,Techie亮博客文章均为原创. 转载请以链接形式标明本文标题和地址: 本文标题:Qt动态连接库/静态连接库创建与使用,QLibrary动态加载库本文地址:https ...
javascript之彻底理解闭包
闭包是函数和声明该函数的词法环境的组合. function init() { var name = "Mozilla"; // name 是一个被 init 创建的局部变量 fun ...
【Python】tuple and list 练习
Tuple: 1. __add__ a = (,,,,,,,,,) b = (,,,,,,,), c = (,,,,), result = a.__add__(b) print(resul ...
Infinity NaN undefined和null
Infinity属性用于存放表示正无穷大的数值. 负无穷大是表示负无穷大一个数字值. 该属性为Global对象的一个只读属性, 所有主流浏览器均支持该属性. Infinity属性的值为Number类型 ...
BZOJ1089 [SCOI2003]严格n元树【dp + 高精】
Description 如果一棵树的所有非叶节点都恰好有n个儿子,那么我们称它为严格n元树.如果该树中最底层的节点深度为d (根的深度为0),那么我们称它为一棵深度为d的严格n元树.例如,深度为2的严 ...

[DeeplearningAI笔记]序列模型2.1-2.2词嵌入word embedding

5.2自然语言处理

觉得有用的话,欢迎一起讨论相互学习~Follow Me

2.1词汇表征 Word representation

特征表示：词嵌入 (Featurized representation: word embedding)

可视化词向量 (Visualizing word embedding)

2.2使用词嵌入 Using word embeddings

将迁移学习运用到词嵌入 (Transfer learning and word embeddings)

词嵌入与人脸编码(word embeddings and face encoding)

[DeeplearningAI笔记]序列模型2.1-2.2词嵌入word embedding的更多相关文章

随机推荐

热门专题