【面试QA-基本模型】LSTM】的更多相关文章

目录 为什么传统 CNN 适用于 CV 任务,RNN 适用于 NLP 任务 RNN 原理 LSTM 原理 GRU 原理 RNN BPTT LSTM 如何解决 RNN 的梯度消失问题 怎样增加 LSTM 的长距离特征提取能力 为什么传统 CNN 适用于 CV 任务,RNN 适用于 NLP 任务 从模型特点上来说: 对于 CNN 每一个卷积核都可以看作是一个滤波器,卷积运算的本质是互相关运算,每个卷积核仅对于具有特定特征具有较大的激活值,而且 CNN 有参数共享和局部连接的特点,能够提取图像上不同位…
第一部分:面试题 本篇文章我们将尝试回答以下问题: 描述一下jvm的内存结构 描述一下jvm的内存模型 谈一下你对常量池的理解 什么情况下会发生栈内存溢出?和内存溢出有什么不同? String str = new String("abc")创建了多少个实例? 第二部分:深入原理 ok,开始.怎们还是先讲原理,再说答案.如果时间不足,也可以直接跳到最后看答案. 本次分享我们主要围绕jvm内存结构展开,这也是java面试必考知识点之一.所以我们先来看看jvm内存结构到底是啥样子. 1. j…
面试是一对一 或者多对一的沟通,是和候选人 互相交换信息.平等的. 面试的目标是选择和雇佣最适合的人选.是为了完成组织目标.协助人力判断候选人是否合适空缺职位. 面试类型: (1)预判面试(查看简历后的电话面试) (2)结构化面试(所有人问同样的问题) (3)行为面试(简历有某年-某年  在xx就职...则针对提问) (4)情景化面试 (带到场景里提问) (5)发散性提问 (5)压力面试 面试步骤: (1)根据简历准备提问 (2)面试开始提问面试无关问题,减轻候选人紧张度 (3)看下简历和时间的…
目录 Sigmoid 函数的优缺点是什么 ReLU的优缺点 什么是交叉熵 为什么分类问题的损失函数为交叉熵而不能是 MSE? 多分类问题中,使用 sigmoid 和 softmax 作为最后一层激活函数的区别 为什么 LSTM 中的激活函数为 tanh 和 sigmoid 而不用 Relu softmax 的反向传播 Sigmoid 函数的优缺点是什么 优点: 输出范围优先,可以将任意范围的输出映射到 (0, 1) 范围内,在输出层可以用于表示二分类的输出概率 易于求导 缺点: Sigmoid…
02-CSS盒模型及BFC #题目:谈一谈你对CSS盒模型的认识 专业的面试,一定会问 CSS 盒模型.对于这个题目,我们要回答一下几个方面: (1)基本概念:content.padding.margin. (2)标准盒模型.IE盒模型的区别.不要漏说了IE盒模型,通过这个问题,可以筛选一部分人. (3)CSS如何设置这两种模型(即:如何设置某个盒子为其中一个模型)?如果回答了上面的第二条,还会继续追问这一条. (4)JS如何设置.获取盒模型对应的宽和高?这一步,已经有很多人答不上来了. (5)…
经常有人会有这么一个疑惑,难道 Java 开发就一定要懂得 JVM 的原理吗?我不懂 JVM ,但我照样可以开发.确实,但如果懂得了 JVM ,可以让你在技术的这条路上走的更远一些. JVM 的重要性 首先你应该知道,运行一个 Java 应用程序,我们必须要先安装 JDK 或者 JRE .这是因为 Java 应用在编译后会变成字节码,然后通过字节码运行在 JVM 中,而 JVM 是 JRE 的核心组成部分. 优点 JVM 不仅承担了 Java 字节码的分析(JIT compiler)和执行(Ru…
目录 Attention机制的原理 Attention机制的类别 双向注意力 Self-Attention 与 Soft-Attention 的区别 Transformer Multi-Head Attention 机制 Self-Attention机制 Position-wise Feed-Forward Layer 使用残差连接的部分 Transformer Decoder 与 Encoder 之间的区别 位置编码 Attention机制的原理 关键的三个变量 Query, Key, Val…
目录 自回归语言模型与自编码语言 Bert Bert 中的预训练任务 Masked Language Model Next Sentence Prediction Bert 的 Embedding BERT-wwm Roberta 与 Bert 的区别 ERNIE 与 Bert 的区别 XLNet 排列语言模型(Permutation Language Model,PLM) 双流注意力机制(Two-Stream Self-Attention) 部分预测(Partial Prediction) T…
目录 防止过拟合的方法 什么是梯度消失和梯度爆炸?如何解决? 在深度学习中,网络层数增多会伴随哪些问题,怎么解决? 关于模型参数 模型参数初始化的方法 模型参数初始化为 0.过大.过小会怎样? 为什么说模型参数越小,模型越简单 正则化 Regularization 正则化方法 正则化如何解决过拟合的 如何在代码中加入正则化 关于梯度下降 Batch/Mini-Batch/SGD梯度下降 增大 batch size 的影响 优化算法(Momentum/RMSProp/Adam) 归一化 Norma…
p.p1 { margin: 0; font: 15px Helvetica } 一.并发编程两个关键问题 线程之间如何通信.同步.java并发采用的是共享内存模型 二.JMM内存模型的抽象结构 描述的是一组规则或规范,通过这组规范定义了程序中各个变量(包括实例字段,静态字段和构成数组对象的元素)的访问方式. p.p1 { margin: 0; font: 15px Helvetica } JMM决定一个线程对共享变量的写入何时对另一个线程可见. JMM定义了线程和主内存之间的抽象关系:线程之间…