3-7softmax回归的简洁实现

import torch

from torch import nn

from d2l import torch as d2l

batch_size = 256

train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

1.初始化模型参数

代码功能总结

定义模型：
- 定义了一个简单的神经网络模型，包含一个展平层和一个全连接层。
- 展平层将输入的二维图像数据展平为一维张量。
- 全连接层将展平后的特征映射到 10 个输出类别。
定义权重初始化函数：
- 定义了一个自定义的权重初始化函数 init_weights，用于初始化 nn.Linear 层的权重。
- 使用正态分布初始化权重，标准差为 0.01。
应用权重初始化函数：
- 使用 net.apply(init_weights) 将自定义的权重初始化函数应用于模型的所有层。
- 递归地检查每一层，如果是 nn.Linear 类型，则初始化其权重。

使用场景

这段代码通常用于在训练神经网络之前对模型的权重进行初始化。合理的权重初始化可以加速模型的收敛速度，并提高模型的性能。

# PyTorch不会隐式地调整输入的形状。因此，

# 我们在线性层前定义了展平层（flatten），来调整网络输入的形状

# nn.Linear(784, 10) 是一个全连接层，将输入的 784 维特征映射到 10 个输出类别

net = nn.Sequential(nn.Flatten(), nn.Linear(784, 10))

def init_weights(m):

    if type(m) == nn.Linear:

        # nn.init_normal_(m.weight, std = 0.01)：使用正态分布初始化权重，均值为 0，标准差为 0.01。

        nn.init.normal_(m.weight, std = 0.01)

#net.apply(init_weights) 是 PyTorch 中用于对模型的所有层应用自定义函数的方法

# init_weights 函数会被递归地应用于 net 中的每一层

net.apply(init_weights)

Sequential(

  (0): Flatten(start_dim=1, end_dim=-1)

  (1): Linear(in_features=784, out_features=10, bias=True)

)

2.重新审视softmax的实现

在 PyTorch 中，nn.CrossEntropyLoss 是一个常用的损失函数，用于多分类问题。它结合了 nn.LogSoftmax 和 nn.NLLLoss（负对数似然损失）的功能，适用于分类任务中计算模型输出与真实标签之间的损失。

1. `nn.CrossEntropyLoss`

nn.CrossEntropyLoss 是 PyTorch 提供的交叉熵损失函数。
它适用于多分类问题，其中模型的输出是一个概率分布（通常是通过 softmax 函数得到的），而真实标签是一个类别索引。

2. `reduction='none'`

reduction 参数控制损失函数的输出形式。
默认情况下，reduction='mean'，表示对所有样本的损失值取平均。
设置 reduction='none' 表示不对损失值进行任何聚合，返回每个样本的损失值。

参数解释

reduction：
- 'none'：返回每个样本的损失值，形状与输入的 y 相同。
- 'mean'：返回所有样本的平均损失值。
- 'sum'：返回所有样本的损失值之和。

loss = nn.CrossEntropyLoss(reduction='none')

3.优化算法

在 PyTorch 中，torch.optim.SGD 是一个用于实现随机梯度下降（Stochastic Gradient Descent, SGD）优化算法的类。这段代码创建了一个 SGD 优化器实例，用于更新神经网络的参数。以下是对代码的详细解释：

代码解析

1. `torch.optim.SGD`

torch.optim.SGD 是 PyTorch 提供的随机梯度下降优化器。
它用于在训练过程中更新模型的参数，以最小化损失函数。

2. `net.parameters()`

net.parameters() 是一个生成器，返回模型 net 中所有可训练的参数（如权重和偏置）。
这些参数是优化器需要更新的对象。

3. `lr=0.1`

lr 是学习率（learning rate），控制参数更新的步长。
学习率是一个超参数，决定了每次参数更新的幅度。
在这里，学习率被设置为 0.1，表示每次参数更新的步长为 0.1。

优化器的作用

优化器的作用是在训练过程中根据梯度信息更新模型的参数。SGD 优化器的具体更新规则如下： θnew=θold−lr×∇L 其中：

θnew 是更新后的参数。
θold 是更新前的参数。
lr 是学习率。
∇L 是损失函数 L 对参数 θ 的梯度。

trainer = torch.optim.SGD(net.parameters(), lr=0.1)

4.训练

这段代码调用了 d2l.train_ch3 函数来训练一个神经网络模型。d2l.train_ch3 是一个封装好的训练函数，通常在 D2L（Dive into Deep Learning）库中定义，用于简化训练过程。以下是对代码的详细解释：

代码解析

1. 设置训练轮数

num_epochs 是一个整数，表示训练模型的总轮数（epoch）。
在这个例子中，模型将训练 10 轮。

2. 调用训练函数

d2l.train_ch3 是一个封装好的训练函数，用于训练神经网络模型。
它的参数包括：
- net：模型网络。
- train_iter：训练数据迭代器。
- test_iter：测试数据迭代器。
- loss：损失函数。
- num_epochs：训练的总轮数。
- trainer：优化器。

`d2l.train_ch3` 函数的内部逻辑

虽然我们没有看到 d2l.train_ch3 的具体实现，但根据其功能描述，它通常会执行以下步骤：

初始化动画对象：
- 用于动态绘制训练过程中的损失和准确率。
训练循环：
- 遍历每个训练轮数（num_epochs）。
- 在每个轮数中，对训练数据进行一次完整的训练，并计算训练损失和训练准确率。
- 在每个轮数中，对测试数据进行评估，计算测试准确率。
- 将训练损失、训练准确率和测试准确率添加到动画中，动态绘制训练过程。
断言检查：
- 检查训练损失是否小于某个阈值（如 0.5）。
- 检查训练准确率和测试准确率是否在合理范围内（如大于 0.7）。

num_epochs = 10  #训练的总轮数

d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)