Sigmoid 函数的优缺点是什么

优点:

  • 输出范围优先,可以将任意范围的输出映射到 (0, 1) 范围内,在输出层可以用于表示二分类的输出概率
  • 易于求导

缺点:

  • Sigmoid 函数容易饱和,且梯度范围为 (0, 0.25] ,在反向传播中容易导致梯度消失问题。

ReLU的优缺点

优点

  • ReLU的非饱和性可以提供相对宽的激活边界。
  • 梯度只有 0, 1 两个变量,有效地解决梯度消失的问题。
  • ReLU的单侧抑制提供了网络的稀疏表达能力。

缺点

  • 训练过程中会导致神经元死亡的问题。在训练时,如果参数在一次不恰当的更新后,第一个隐藏层中的某个ReLU神经元在所有的训练数据上都不能被激活。那么,这个神经元自身参数的梯度永远都会是 0,在以后的训练过程中永远不能被更新。这种现象称为死亡 ReLU 问题 (Dying ReLU Problem)

什么是交叉熵

  • 交叉熵刻画的是两个概率分布之间的距离,描述了真实分布和预测分布之间的差异性
  • 交叉熵的公式:\(H(p, q) = -\sum_x p(x) log\ q(x)\),其中,x为一个样本中每一个类别的概率

为什么分类问题的损失函数为交叉熵而不能是 MSE?

从建模上来看:

  • MSE 是假设数据符合高斯分布时,概率分布的负条件对数似然。表示两个向量之间的欧几里得距离
  • CE是假设模型分布为多项式分布时,概率分布的负条件对数似然。表示真实分布和预测分布之间的差异性

从梯度上来看:

  • MSE 的梯度 \(\frac{\partial L}{\partial \hat y_i} = 2(\hat y_i - y_i)\)
  • CE 的梯度 \(\frac{\partial L}{\partial \hat y_i} = \frac{y_i}{\hat y_i}\)

MSE 在优化后期侧残差会趋于零,非常小,导致优化速度减慢。而 CE 在优化后期正确类别的分量是趋于 1 的,而非正确类别的分量恒为 0,优化速度更快。

直观上来看:

  • MSE 无差别得关注全部类别上预测概率和真实概率的差。
  • CE 关注的是正确类别的预测概率。

多分类问题中,使用 sigmoid 和 softmax 作为最后一层激活函数的区别

  • sigmoid 函数的每次输出是相互独立的,不能体现样本之间的相关性。
  • 而softmax 的归一化意味着一个输出增大必然伴随着其他输出的减小,这更符合概率规则,体现了样本互斥的关系。
  • 如果是一个样本隶属于多个样本,且各个样本是相互独立的分类问题,可以采用 sigmoid 作为每个输出的激活函数;而对于类别互斥的分类问题则应该采用 softmax 作为最后的激活函数。

为什么 LSTM 中的激活函数为 tanh 和 sigmoid 而不用 Relu

在 LSTM 中,sigmoid 作用为门函数的作用,取值范围为 (0, 1),是无法替代的

使用 Relu 的目的是为了解决梯度消失问题,而在 LSTM 中,由于时序上的残差机制,梯度消失问题已经大大减弱了。

另一方面,tanh 能够将模型输出映射在 (-1, 1) 范围内,更易于优化

softmax 的反向传播

对于多分类问题,输出层激活函数为softmax的单层神经网络分类器只考虑权重参数 \(W\),采用SGD的优化方法,输入样本为 \(x\),标注为 \(y\),样本特征维度为 \(m\),类别个数为 \(n\),其前向传播和反向传播公式:

  • 前向传播:

\[\begin{aligned}
&z = Wx \\
&p_i = softmax(z) = \frac{exp(z_i)}{\sum_{j=1}^{n} exp(z_j)} \\
&L(\hat{y}, y) = -\sum_{i=1}^ny_i\ log\ p_i
\end{aligned}\]

  • 反向传播:

\[\frac{\partial L}{\partial p_i} = -\sum_{i=1}^n\frac{y_i}{p_i}
\]

\[\begin{cases}
\frac{\partial p_i}{\partial z_j} = \frac{exp(z_j)\sum_{k=1}^{n} exp(z_k) - exp(z_j)^2}{(\sum_{k=1}^{n} exp(z_k))^2} = p_j(1-p_j) & , i = j\\
\frac{\partial p_i}{\partial z_j} = -\frac{exp(z_j)exp(z_i)}{(\sum_{k=1}^{n} exp(z_k))^2} = -p_ip_j & , i \ne j
\end{cases}
\]

\[\begin{aligned}
&\frac{\partial L}{\partial z_i} = \frac{\partial p_i}{\partial z_i} \frac{\partial p_i}{\partial z_i}\\
&= - \frac{y_i}{p_i}p_i(1-p_i) - \sum_{j\ne i}\frac{y_j}{p_j}(-p_ip_j) \\
&= -y_i + p_iy_i + p_i\sum_{j\ne i}y_j \\
&= -y_i + p_i \sum_{j=1}^ny_j \\
&= p_i - y_i
\end{aligned}\]

表示为矩阵为:\(\frac{\partial L}{\partial z} = p - y\)

【NLP面试QA】激活函数与损失函数的更多相关文章

  1. 【NLP面试QA】基本策略

    目录 防止过拟合的方法 什么是梯度消失和梯度爆炸?如何解决? 在深度学习中,网络层数增多会伴随哪些问题,怎么解决? 关于模型参数 模型参数初始化的方法 模型参数初始化为 0.过大.过小会怎样? 为什么 ...

  2. 【NLP面试QA】预训练模型

    目录 自回归语言模型与自编码语言 Bert Bert 中的预训练任务 Masked Language Model Next Sentence Prediction Bert 的 Embedding B ...

  3. AI-逻辑回归函数、激活函数、损失函数

    最近开始学习人工智能,先从基本的概念学起 逻辑回归函数(预测函数):z = dot(w,x) + b 解释:假设有三个特征,即x可以表示为(x1,x2,x3),w表示权重,对应每个特征的重要程度,b表 ...

  4. tensorflow中常用激活函数和损失函数

    激活函数 各激活函数曲线对比 常用激活函数: tf.sigmoid() tf.tanh() tf.nn.relu() tf.nn.softplus() tf.nn.softmax() tf.nn.dr ...

  5. 如何面试QA(面试官角度)

    面试是一对一 或者多对一的沟通,是和候选人 互相交换信息.平等的. 面试的目标是选择和雇佣最适合的人选.是为了完成组织目标.协助人力判断候选人是否合适空缺职位. 面试类型: (1)预判面试(查看简历后 ...

  6. 【面试QA】Attention

    目录 Attention机制的原理 Attention机制的类别 双向注意力 Self-Attention 与 Soft-Attention 的区别 Transformer Multi-Head At ...

  7. 一份从入门到精通NLP的完整指南 | NLPer

    该小博主介绍 本人:笔名zenRRan,方向自然语言处理,方法主要是深度学习. 未来的目标:人工智能之自然语言处理博士. 写公众号目的:将知识变成开源,让每个渴求知识而难以入门人工智能的小白以及想进阶 ...

  8. 干货 | 请收下这份2018学习清单:150个最好的机器学习,NLP和Python教程

    机器学习的发展可以追溯到1959年,有着丰富的历史.这个领域也正在以前所未有的速度进化.在之前的一篇文章中,我们讨论过为什么通用人工智能领域即将要爆发.有兴趣入坑ML的小伙伴不要拖延了,时不我待! 在 ...

  9. GitHub万星的ML算法面试大全

    项目地址:https://github.com/imhuay/Algorithm_Interview_Notes-Chinese 如下所示为整个项目的结构,其中从机器学习到数学主要提供的是笔记与面试知 ...

随机推荐

  1. Java工厂模式解耦 —— 理解Spring IOC

    Java工厂模式解耦 -- 理解Spring IOC 最近看到一个很好的思想来理解Spring IOC,故记录下来. 资源获取方式 主动式:(要什么资源都自己创建) 被动式:(资源的获取不是我们创建, ...

  2. vue路由传参页面刷新参数丢失问题解决方案

    最近项目中涉及到跨页面传参数和后台进行数据交互,看到需求之后第一反应就是用路由传参来解决:Vue中给我们提供了三种路由传参方式,下面我们一个一个的来看一下: 方法一:params传参: this.$r ...

  3. 正式学习MVC 01

    1.新建项目 点击创建新项目,选择ASP.NET web应用程序,对项目进行命名后点击创建. 截图如下: 取消勾选HTTPS配置 可选择空 + mvc 或直接选定MVC 2.目录结构分析 1) App ...

  4. Web前端经典面试试题(二)

    上次由于时间有限只分享了一部分的前端面试题,所以本篇继续分享前端经典面试试题 一. 栈和队列的区别? 栈的插入和删除操作都是在一端进行的,而队列的操作却是在两端进行的. 队列先进先出,栈先进后出. 栈 ...

  5. vue+element 表单封成组件(1)

    作为一名刚接触vue不到一个月的菜鸟,思想还没有从操作DOM转变为数据驱动,看vue的代码处处别扭.组里为了让我熟悉vue交给了我一个将element 表单封装成组件的练手任务.由于开发过程中遇到的表 ...

  6. Ubuntu系统下环境安装遇到依赖冲突问题

    问题场景:在ubuntu系统下使用docker拉了一个python3.6的镜像,要在该容器中安装vim结果总是报已安装某些依赖的版本不满足要求 解决方法: 1.安装aptitude apt-get i ...

  7. web前端问题整理

    1.常用那几种浏览器测试?有哪些内核(Layout Engine)? (Q1)浏览器:IE,Chrome,FireFox,Safari,Opera (Q2)内核:Trident,Gecko,Prest ...

  8. JAVA生成EXCEL模板

    JAVA生成excel模板,支持1.必填字段前加 红色 * 2.定义可选值下拉列表 valList3.定义名称并通过名称设置可选值 refName(名称在sheet2,sheet2自动隐藏)4.支持设 ...

  9. Asp.Net Core 2.0实现HttpResponse中繁切换

    随笔背景:因为项目中有个简单的功能是需要实现中文简体到繁体的切换,数据库中存储的源数据都是中文简体的,为了省事就想着通过HttpHeader的方式来控制Api返回对应的繁体数据. 实现方式:通过Asp ...

  10. 浅析js中的堆和栈

    这里先说两个概念:1.堆(heap)2.栈(stack)堆 是堆内存的简称.栈 是栈内存的简称.说到堆栈,我们讲的就是内存的使用和分配了,没有寄存器的事,也没有硬盘的事.各种语言在处理堆栈的原理上都大 ...