【中英】【吴恩达课后测验】Course 5 -序列模型 - 第二周测验 - 自然语言处理与词嵌入
【中英】【吴恩达课后测验】Course 5 -序列模型 - 第二周测验 - 自然语言处理与词嵌入
上一篇:【课程5 - 第一周编程作业】※※※※※ 【回到目录】※※※※※下一篇:【课程5 -第二周编程作业】
假设你为10000个单词学习词嵌入,为了捕获全部范围的单词的变化以及意义,那么词嵌入向量应该是10000维的。
- 【 】 正确
- 【★】 错误
什么是t-SNE?
- 【★】 一种非线性降维算法。
- 【 】 一种能够解决词向量上的类比的线性变换。
- 【 】 一种用于学习词嵌入的监督学习算法。
- 【 】 一个开源序列模型库。
假设你下载了一个已经在一个很大的文本语料库上训练过的词嵌入的数据,然后你要用这个词嵌入来训练RNN并用于识别一段文字中的情感,判断这段文字的内容是否表达了“快乐”。
x(输入文本) | y (是否快乐) |
---|---|
我今天感觉很好! | 1 |
我觉得很沮丧,因为我的猫生病了。 | 0 |
真的很享受这个! | 1 |
那么即使“欣喜若狂”这个词没有出现在你的小训练集中,你的RNN也会认为“我欣喜若狂”应该被贴上$y = 1$的标签。
- 【★】 正确
- 【 】 错误
对于词嵌入而言,下面哪一个(些)方程是成立的?
- 【★】 \(e_{boy} - e_{girl} ≈ e_{brother} - e_{sister}\)
- 【 】 \(e_{boy} - e_{girl} ≈ e_{sister} - e_{brother}\)
- 【★】 $e_{boy} - e_{brother} ≈ e_{girl} - e_{sister} $
- 【 】 $e_{boy} - e_{brother} ≈ e_{sister} - e_{girl} $
设\(E\)为嵌入矩阵,\(e_{1234}\)对应的是词“1234”的独热向量,为了获得1234的词嵌入,为什么不直接在Python中使用代码\(E∗e_{1234}\)呢?
- 【★】 因为这个操作是在浪费计算资源。
- 【 】 因为正确的计算方式是\(E^T ∗ e_{1234}\)。
- 【 】 因为它没有办法处理未知的单词(<UNK>)。
- 【 】 以上全都不对,因为直接调用\(E∗e_{1234}\)是最好的方案。
在学习词嵌入时,我们创建了一个预测\(P(target \mid context)\)的任务,如果这个预测做的不是很好那也是没有关系的,因为这个任务更重要的是学习了一组有用的嵌入词。
- 【 】 正确
- 【★】 错误
在word2vec算法中,你要预测\(P(t \mid c)\),其中\(t\)是目标词(target word),\(c\)是语境词(context word)。你应当在训练集中怎样选择\(t\) 与 \(c\)呢?
- 【★】 \(c\) 与 \(t\) 应当在附近词中。
- 【 】 \(c\) 是在\(t\)前面的一个词。
- 【 】 \(c\) 是\(t\)之前句子中所有单词的序列。
- 【 】 \(c\) 是\(t\)之前句子中几个单词的序列。
假设你有1000个单词词汇,并且正在学习500维的词嵌入,word2vec模型使用下面的softmax函数:
\]
以下说法中哪一个(些)是正确的?
- 【★】 \(\theta_t\) 与 \(e_c\) 都是500维的向量。
- 【 】 \(\theta_t\) 与 \(e_c\) 都是10000维的向量。
- 【★】 \(\theta_t\) 与 \(e_c\) 都是通过Adam或梯度下降等优化算法进行训练的。
- 【 】 训练之后,\(\theta_t\)应该非常接近\(e_c\),因为\(t\)和\(c\)是一个词。
- 假设你有10000个单词词汇,并且正在学习500维的词嵌入,GloVe模型最小化了这个目标:
\]
以下说法中哪一个(些)是正确的?
- 【 】 \(\theta_i\) 与 \(e_j\) 应当初始化为0。
- 【★】 \(\theta_i\) 与 \(e_j\) 应当使用随机数进行初始化。
- 【★】 \(X_{ij}\) 是单词i在j中出现的次数。
- 【★】 加权函数 \(f(.)\) 必须满足 \(f(0)=0\)。
> The weighting function helps prevent learning only from extremely common word pairs. It is not necessary that it satisfies this function.
>
> 加权函数有助于防止仅从非常常见的单词对中学习,它不必满足这个函数。
- 你已经在文本数据集\(m_1\)上训练了词嵌入,现在准备将它用于一个语言任务中,对于这个任务,你有一个单独标记的数据集\(m_2\) ,请记住,使用词嵌入是一种迁移学习的形式,在这种情况下,你认为词嵌入会有帮助吗?
- 【★】 \(m_1 >> m_2\)
- 【 】 \(m_1 << m_2\)
Natural Language Processing & Word Embeddings
- Suppose you learn a word embedding for a vocabulary of 10000 words. Then the embedding vectors should be 10000 dimensional, so as to capture the full range of variation and meaning in those words.
- True
- False
What is t-SNE?
- A non-linear dimensionality reduction technique.
- A linear transformation that allows us to solve analogies on word vectors.
- A supervised learning algorithm for learning word embeddings.
- An open-source sequence modeling library.
- Suppose you download a pre-trained word embedding which has been trained on a huge corpus of text. You then use this word embedding to train an RNN for a language task of recognizing if someone is happy from a short snippet of text, using a small training set.
x(input text) | y (happy?) |
---|---|
I'm feeling wonderful today! | 1 |
I'm bummed my cat is ill. | 0 |
Really enjoying this! | 1 |
Then even if the word "ecstatic" does not appear in your small training set, your RNN might reasonably be expected to recognize "I’m ecstatic" as deserving a label $y = 1$. |
Then even if the word "ecstatic" does not appear in your small training set, your RNN might reasonably be expected to recognize "I’m ecstatic" as deserving a label \(y = 1\).
- [x] True
- [ ] False
Which of these equations do you think should hold for a good word embedding? (Check all that apply)
- \(e_{boy} - e_{girl} ≈ e_{brother} - e_{sister}\)
- \(e_{boy} - e_{girl} ≈ e_{sister} - e_{brother}\)
- $e_{boy} - e_{brother} ≈ e_{girl} - e_{sister} $
- $e_{boy} - e_{brother} ≈ e_{sister} - e_{girl} $
Let \(E\) be an embedding matrix, and let \(e_{1234}\) be a one-hot vector corresponding to word 1234. Then to get the embedding of word 1234, why don’t we call \(E∗e_{1234}\) in Python?
- It is computationally wasteful.
- The correct formula is \(E^T∗e_{1234}\).
- This doesn’t handle unknown words ().
- None of the above: Calling the Python snippet as described above is fine.
When learning word embeddings, we create an artificial task of estimating \(P(target \mid context)\). It is okay if we do poorly on this artificial prediction task; the more important by-product of this task is that we learn a useful set of word embeddings.
- True
- False
In the word2vec algorithm, you estimate \(P(t \mid c)\), where \(t\) is the target word and \(c\) is a context word. How are \(t\) and \(c\) chosen from the training set? Pick the best answer.
- \(c\) and \(t\) are chosen to be nearby words.
- \(c\) is the one word that comes immediately before \(t\).
- \(c\) is the sequence of all the words in the sentence before \(t\).
- \(c\) is a sequence of several words immediately before \(t\).
- Suppose you have a 10000 word vocabulary, and are learning 500-dimensional word embeddings. The word2vec model uses the following softmax function:
\(P(t \mid c)=\frac{e^{\theta_t^T e_c}}{\sum_{t′=1}^{10000} e^{\theta_{t'}^T e_c}}\)
Which of these statements are correct? Check all that apply.- \(\theta_t\) and \(e_c\) are both 500 dimensional vectors.
- \(\theta_t\) and \(e_c\) are both 10000 dimensional vectors.
- \(\theta_t\) and \(e_c\) are both trained with an optimization algorithm such as Adam or gradient descent.
- After training, we should expect \(\theta_t\) to be very close to \(e_c\) when \(t\) and \(c\) are the same word.
Suppose you have a 10000 word vocabulary, and are learning 500-dimensional word embeddings.The GloVe model minimizes this objective:
\(\min \sum^{10,000}_{i=1}\sum^{10,000}_{j=1}f(X_{ij})(\theta^T_ie_j+b_i+b′_j−logX_{ij})^2\)
Which of these statements are correct? Check all that apply.\(\theta_i\) and \(e_j\) hould be initialized to 0 at the beginning of training.
\(\theta_i\) and \(e_j\) hould be initialized randomly at the beginning of training.
\(X_{ij}\) is the number of times word i appears in the context of word j.
The weighting function \(f(.)\) must satisfy \(f(0)=0\).
The weighting function helps prevent learning only from extremely common word pairs. It is not necessary that it satisfies this function.
- You have trained word embeddings using a text dataset of \(m_1\) words. You are considering using these word embeddings for a language task, for which you have a separate labeled dataset of \(m_2\) words. Keeping in mind that using word embeddings is a form of transfer learning, under which of these circumstance would you expect the word embeddings to be helpful?
- \(m_1 >> m_2\)
- \(m_1 << m_2\)
【中英】【吴恩达课后测验】Course 5 -序列模型 - 第二周测验 - 自然语言处理与词嵌入的更多相关文章
- 【吴恩达课后测验】Course 1 - 神经网络和深度学习 - 第二周测验【中英】
[中英][吴恩达课后测验]Course 1 - 神经网络和深度学习 - 第二周测验 第2周测验 - 神经网络基础 神经元节点计算什么? [ ]神经元节点先计算激活函数,再计算线性函数(z = Wx + ...
- 【吴恩达课后测验】Course 1 - 神经网络和深度学习 - 第一周测验【中英】
[吴恩达课后测验]Course 1 - 神经网络和深度学习 - 第一周测验[中英] 第一周测验 - 深度学习简介 和“AI是新电力”相类似的说法是什么? [ ]AI为我们的家庭和办公室的个人设备供电 ...
- 【中文】【deplearning.ai】【吴恩达课后作业目录】
[目录][吴恩达课后作业目录] 吴恩达深度学习相关资源下载地址(蓝奏云) 课程 周数 名称 类型 语言 地址 课程1 - 神经网络和深度学习 第1周 深度学习简介 测验 中英 传送门 无编程作业 编程 ...
- 吴恩达课后作业学习1-week4-homework-two-hidden-layer -1
参考:https://blog.csdn.net/u013733326/article/details/79767169 希望大家直接到上面的网址去查看代码,下面是本人的笔记 两层神经网络,和吴恩达课 ...
- 吴恩达课后作业学习1-week4-homework-multi-hidden-layer -2
参考:https://blog.csdn.net/u013733326/article/details/79767169 希望大家直接到上面的网址去查看代码,下面是本人的笔记 实现多层神经网络 1.准 ...
- 吴恩达课后作业学习2-week1-1 初始化
参考:https://blog.csdn.net/u013733326/article/details/79847918 希望大家直接到上面的网址去查看代码,下面是本人的笔记 初始化.正则化.梯度校验 ...
- 吴恩达课后作业学习2-week1-2正则化
参考:https://blog.csdn.net/u013733326/article/details/79847918 希望大家直接到上面的网址去查看代码,下面是本人的笔记 4.正则化 1)加载数据 ...
- 吴恩达深度学习第2课第2周编程作业 的坑(Optimization Methods)
我python2.7, 做吴恩达深度学习第2课第2周编程作业 Optimization Methods 时有2个坑: 第一坑 需将辅助文件 opt_utils.py 的 nitialize_param ...
- 吴恩达老师机器学习课程chapter05——评估模型
吴恩达老师机器学习课程chapter05--评估模型 本文是非计算机专业新手的自学笔记,高手勿喷. 本文仅作速查备忘之用,对应吴恩达(AndrewNg)老师的机器学期课程第十章.第十一章. 目录 吴恩 ...
- 吴恩达深度学习第4课第3周编程作业 + PIL + Python3 + Anaconda环境 + Ubuntu + 导入PIL报错的解决
问题描述: 做吴恩达深度学习第4课第3周编程作业时导入PIL包报错. 我的环境: 已经安装了Tensorflow GPU 版本 Python3 Anaconda 解决办法: 安装pillow模块,而不 ...
随机推荐
- react使用插件配置px转换为vw
react配置px转换为vw 1.下载postcss-px-to-viewport插件 npm install postcss-px-to-viewport --save-dev 2.下载craco ...
- linux ubuntu mysql 默认密码
前言 linux ubuntu安装mysql Ubuntu 安装 MySQL 后,在 /etc/mysql 目录下有个 debian.cnf,这里存储着默认的密码. [client] host = l ...
- RabbitMQ集群部署(一)——单机模式部署
本文分享自天翼云开发者社区<RabbitMQ集群部署(一)--单机模式部署>,作者:芋泥麻薯 RabbitMQ是一种开源消息队列系统,是AMQP的标准实现,用erlang语言开发.Rabb ...
- 【Docker】本地镜像发布到阿里云
本地镜像发布到阿里云 本地镜像发布到阿里云流程 镜像的生成方法 1. 前面的DockerFile 2. 从容器创建一个新的镜像 docker commit [OPTIONS] 容器ID [REPOSI ...
- 【单片机】滑稽AT89C52表情实现
[单片机]滑稽AT89C52表情实现 零.原因 在群里看到了这样一个表情: 这是用51做的,刚好开发板上有8个小灯,想实现一下. 一.代码 新建工程,写入如下代码: #include<reg52 ...
- 使用傅里叶级数和Python表示方波
引言 在信号处理和数字通信中,方波是非常常见的一种波形.方波是一种周期性波形,信号在两个固定的幅度之间跳跃,通常是"高"与"低"的状态.你可能会问,如何通过数学 ...
- require、include、require_once和use的区别/命名空间的使用方法
1.require.include require.include都是文件包含,不同的是require语句会输出错误信息,并且立即终止脚本处理.而include语句在没有找到文件时则会输出警告,不会终 ...
- c#几种场景获取程序运行目录
控制台.app等桌面应用程序(兼容系统自启) 1 System.IO.Path.GetDirectoryName(Process.GetCurrentProcess().MainModule.File ...
- lighttools batchmode 批处理vb程序代码
完成后的图示,选择需要模拟的lighttools后,直接进行运行,点击开始模拟,即可逐个模拟完成 lighttools 连接代码: 1 Private m_ltServer As LTAPI 2 3 ...
- AspNetCore 请求产生 FreeSql 所有操作 SQL 日志输出到前端
第一步:定义注入类型 public class CurdAfterLog : IDisposable { public static AsyncLocal<CurdAfterLog> Cu ...