【每天学点AI】前向传播、损失函数、反向传播
在深度学习的领域中,前向传播、反向传播和损失函数是构建和训练神经网络模型的三个核心概念。今天,小编将通过一个简单的实例,解释这三个概念,并展示它们的作用。
前向传播:神经网络的“思考”过程
前向传播是神经网络计算的基础步骤,它涉及将输入数据逐层传递,通过神经网络的权重和激活函数,最终输出预测结果。这个过程包含“样本数据输入、算法模型、输出”这几个步骤。
我们来举个简单的例子,比如给一个小宝宝看一张图片,然后问他:“这上面画的是什么?”他就会用他的小脑袋瓜去“思考”这张图片,然后告诉你答案。前向传播就像是这个过程,只不过小宝宝换成了神经网络。
- 样本数据输入:这一步将图像、文字、语音等样本数据转换为我们电脑能识别的数字输入。就像小宝宝看到图片,神经网络也接收到一张图片,这张图片被转换成一串数字。
- 算法模型:简单来说,就是一些数学计算,主要包含线性层+规则化层+激活,线性层负责做线性函数的拟合;规则化层负责把我们的线性拟合规则化,方便后面的计算;激活层负责的是变成非线性化,因为我们的现实世界是非线性的。所以整个过程就是:我们输入的样本是非线性的,我们通过这样一堆数学公式,去拟合非线性的样本数据。
- 输出层:也是一些数学运算,比如Linear或者Conv,负责将模型的输出转换为预测结果输出。
这个过程可以用下面的数学公式表示:

损失函数:告诉神经网络它错了多少
损失函数是衡量模型预测结果与真实标签之间差距的依据,它的核心作用是告诉我们模型的预测结果“错”得有多离谱。通俗来说,损失函数就像是一个裁判,它给模型的预测结果打分,分数越低,说明模型的预测结果越接近真实情况,模型的性能就越好。损失函数是为了让我们反向传播起作用的。就像如果小宝宝猜错了,你会告诉他:“不对哦,这是数字8,不是3。”损失函数就像是这句话,它告诉神经网络:“嘿,你的答案有点偏差。”
下面是几种常用的损失函数:
L1 Loss(MAE):平均绝对误差,对异常值的容忍性更高,但当梯度下降恰好为0时无法继续进行。就像是你告诉小宝宝:“你的答案差了多远。”这个距离就是损失值。

L2 Loss(MSE):均方误差,连续光滑,方便求导,但易受到异常值的干扰。这就像是你告诉小宝宝:“你的答案差了多少个单位。”这个单位的平方和就是损失值。

Smooth L1 Loss:处理异常值更加稳健,同时避免了L2 Loss的梯度爆炸问题。就像是你告诉小宝宝:“你的答案差了多远,但我不会因为你猜得特别离谱就惩罚你。”这个损失函数对极端错误更宽容。

反向传播:神经网络的“自我修正”过程
反向传播是利用损失函数的梯度来更新网络参数的过程。它从输出层开始,逆向通过网络,利用链式法则计算每个参数对损失函数的梯度。包含这几个过程:
- 计算输出层误差梯度:首先计算输出层的误差梯度,这是损失函数对输出层权重的敏感度。
- 逐层反向传播:然后从输出层开始,逆向通过网络,逐层计算误差梯度。
- 更新权重和偏置:使用梯度下降算法,根据计算出的梯度更新网络中每一层的权重和偏置。
所以前向传播、反向传播、损失函数之间的关系是这样的:
他们都是深度学习训练过程中的核心。前向传播负责生成预测结果,损失函数负责量化预测结果与真实标签之间的差异,而反向传播则负责利用这些差异来更新模型参数,以减少损失函数的值。
通过三者的结合,我们可以构建、训练并优化深度学习模型,使其能够从数据中学习复杂的模式,并在各种任务如图像识别、自然语言处理和预测分析中做出准确的预测。
前向传播、反向传播、损失函数属于机器学习领域中的核心概念,在AI全体系课程中,是理解其他更复杂机器学习算法的基础,掌握这几个概念对于深入学习机器学习、理解更高级的算法以及在实际应用中设计和优化模型都具有重要的意义。通过理解前向传播、反向传播和损失函数,学习者能够更好地把握机器学习模型的工作原理,为进一步探索深度学习和其他高级机器学习技术打下坚实的基础。
【每天学点AI】前向传播、损失函数、反向传播的更多相关文章
- 小白学习之pytorch框架(6)-模型选择(K折交叉验证)、欠拟合、过拟合(权重衰减法(=L2范数正则化)、丢弃法)、正向传播、反向传播
下面要说的基本都是<动手学深度学习>这本花书上的内容,图也采用的书上的 首先说的是训练误差(模型在训练数据集上表现出的误差)和泛化误差(模型在任意一个测试数据集样本上表现出的误差的期望) ...
- 机器学习(ML)八之正向传播、反向传播和计算图,及数值稳定性和模型初始化
正向传播 正向传播的计算图 通常绘制计算图来可视化运算符和变量在计算中的依赖关系.下图绘制了本节中样例模型正向传播的计算图,其中左下角是输入,右上角是输出.可以看到,图中箭头方向大多是向右和向上,其中 ...
- caffe中 softmax 函数的前向传播和反向传播
1.前向传播: template <typename Dtype> void SoftmaxLayer<Dtype>::Forward_cpu(const vector< ...
- caffe中的前向传播和反向传播
caffe中的网络结构是一层连着一层的,在相邻的两层中,可以认为前一层的输出就是后一层的输入,可以等效成如下的模型 可以认为输出top中的每个元素都是输出bottom中所有元素的函数.如果两个神经元之 ...
- BP原理 - 前向计算与反向传播实例
Outline 前向计算 反向传播 很多事情不是需要聪明一点,而是需要耐心一点,踏下心来认真看真的很简单的. 假设有这样一个网络层: 第一层是输入层,包含两个神经元i1 i2和截距b1: 第二层是隐含 ...
- 反向传播算法(前向传播、反向传播、链式求导、引入delta)
参考链接: 一文搞懂反向传播算法
- 前向传播和反向传播实战(Tensor)
前面在mnist中使用了三个非线性层来增加模型复杂度,并通过最小化损失函数来更新参数,下面实用最底层的方式即张量进行前向传播(暂不采用层的概念). 主要注意点如下: · 进行梯度运算时,tensorf ...
- Tensorflow笔记——神经网络图像识别(一)前反向传播,神经网络八股
第一讲:人工智能概述 第三讲:Tensorflow框架 前向传播: 反向传播: 总的代码: #coding:utf-8 #1.导入模块,生成模拟数据集 import t ...
- 深度学习与CV教程(4) | 神经网络与反向传播
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/37 本文地址:http://www.showmeai.tech/article-det ...
- DNN网络(二)反向传播算法
本文摘自: https://www.cnblogs.com/pinard/p/6422831.html http://www.cnblogs.com/charlotte77/p/5629865.htm ...
随机推荐
- Android 存储概览
存储区 Android 一开始就将存储区分为内部存储和外部存储,对应手机自带的存储和可插拔的 sd 卡(可类比于 PC 的硬盘和 U盘). 内部存储容量有限,Google 建议 App 数据尽量存储 ...
- JVM学习第二篇思考:一个Java代码是怎么运行起来的-下篇
JVM学习第二篇思考:一个Java代码是怎么运行起来的-下篇 在上一篇<JVM学习第一篇思考:一个Java代码是怎么运行起来的-上篇>中咱们知道类一个Java类的生命周期需要经历以下七个阶 ...
- 手把手教你安装Jupyter Notebook(保姆级教程)
来源于:https://blog.csdn.net/weixin_43855159/article/details/137738714 1. 什么是Jupyter Notebook Jupyter N ...
- 神经网络之卷积篇:详解卷积神经网络示例(Convolutional neural network example)
详解卷积神经网络示例 假设,有一张大小为32×32×3的输入图片,这是一张RGB模式的图片,想做手写体数字识别.32×32×3的RGB图片中含有某个数字,比如7,想识别它是从0-9这10个数字中的哪一 ...
- AI构建新质生产力,合合信息Embedding模型助力专业知识应用
一.合合信息acge模型获MTEB中文榜单第一 现阶段,大语言模型的飞速发展吸引着社会各界的目光,背后支撑大型语言模型应用落地的Embedding模型也成为业内关注的焦点.近期,合合信息发布了文本 ...
- 选择:Qt Creator、Qt Designer、Qt Design Studio,三种开发工具,您选择哪一种?
前言 本文介绍了三种QT开发工具的特点,以及各自的优点和缺点. QT三种工具对比 QT提供的工具 Qt Creator: 扮演的是QT Widgets和QT QML的IDE的角色. 优点: 可以编写C ...
- 系统编程-进程-vfork使用、浅析
1. 先贴代码 #include <stdio.h> #include <stdlib.h> #include <unistd.h> int globvar = 6 ...
- 大语言模型(LLM)
大语言模型 LLM 人工智能 Artificial Intelligence 一门研究如何使计算机能够模拟和执行人类智能任务的科学和技术领域 是研究.开发用于模拟.延伸和扩展人的智能的理论.方法.技术 ...
- linux(centos7)中安装7z
linux(centos7)中安装7z 一. 先安装wget yum -y install wget 二. 下载7z的压缩包 wget https://sourceforge.net/projects ...
- USB分析仪USB3.2日志分析
1.简介 USB2.0总线采用轮询模式,即总线事务开始时,都要先发送IN或者OUT令牌包,以通知端点或者查询端点是否准备好.而USB3.2采用了异步通知模式,若端点没有准备好,则主机无需轮询,端点准备 ...