博客地址：https://www.cnblogs.com/zylyehuo/

参考《动手学深度学习》第二版

代码总览

%matplotlib inline

import math

import torch

from torch import nn

from torch.nn import functional as F

from d2l import torch as d2l

batch_size, num_steps = 32, 35

train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)

# 独热编码

F.one_hot(torch.tensor([0, 2]), len(vocab))

# 小批量数据形状是二维张量： （批量大小，时间步数）

X = torch.arange(10).reshape((2, 5))

F.one_hot(X.T, 28).shape

# 初始化模型参数

def get_params(vocab_size, num_hiddens, device):

    num_inputs = num_outputs = vocab_size

    def normal(shape):

        return torch.randn(size=shape, device=device) * 0.01

    # 隐藏层参数

    W_xh = normal((num_inputs, num_hiddens))

    W_hh = normal((num_hiddens, num_hiddens))  # 这行若没有，就是一个单隐藏层的 MLP

    b_h = torch.zeros(num_hiddens, device=device)

    # 输出层参数

    W_hq = normal((num_hiddens, num_outputs))

    b_q = torch.zeros(num_outputs, device=device)

    # 附加梯度

    params = [W_xh, W_hh, b_h, W_hq, b_q]

    for param in params:

        param.requires_grad_(True)

    return params

# 一个 init_rnn_state 函数在初始化时返回隐状态

def init_rnn_state(batch_size, num_hiddens, device):

    return (torch.zeros((batch_size, num_hiddens), device=device), )

# 下面的rnn函数定义了如何在一个时间步内计算隐状态和输出

def rnn(inputs, state, params):

    # inputs的形状：(时间步数量，批量大小，词表大小)

    W_xh, W_hh, b_h, W_hq, b_q = params

    H, = state

    outputs = []

    # X的形状：(批量大小，词表大小)

    for X in inputs:

        H = torch.tanh(torch.mm(X, W_xh) + torch.mm(H, W_hh) + b_h)

        Y = torch.mm(H, W_hq) + b_q

        outputs.append(Y)

    return torch.cat(outputs, dim=0), (H,)

# 创建一个类来包装这些函数， 并存储从零开始实现的循环神经网络模型的参数

class RNNModelScratch:

    """从零开始实现的循环神经网络模型"""

    def __init__(self, vocab_size, num_hiddens, device,

                 get_params, init_state, forward_fn):

        self.vocab_size, self.num_hiddens = vocab_size, num_hiddens

        self.params = get_params(vocab_size, num_hiddens, device)

        self.init_state, self.forward_fn = init_state, forward_fn

    def __call__(self, X, state):

        X = F.one_hot(X.T, self.vocab_size).type(torch.float32)

        return self.forward_fn(X, state, self.params)

    def begin_state(self, batch_size, device):

        return self.init_state(batch_size, self.num_hiddens, device)

# 检查输出是否具有正确的形状

num_hiddens = 512

net = RNNModelScratch(len(vocab), num_hiddens, d2l.try_gpu(), get_params,

                      init_rnn_state, rnn)

state = net.begin_state(X.shape[0], d2l.try_gpu())

Y, new_state = net(X.to(d2l.try_gpu()), state)

Y.shape, len(new_state), new_state[0].shape

# 首先定义预测函数来生成prefix之后的新字符

def predict_ch8(prefix, num_preds, net, vocab, device):

    """在prefix后面生成新字符"""

    state = net.begin_state(batch_size=1, device=device)

    outputs = [vocab[prefix[0]]]

    get_input = lambda: torch.tensor([outputs[-1]], device=device).reshape((1, 1))

    for y in prefix[1:]:  # 预热期

        _, state = net(get_input(), state)

        outputs.append(vocab[y])

    for _ in range(num_preds):  # 预测num_preds步

        y, state = net(get_input(), state)

        outputs.append(int(y.argmax(dim=1).reshape(1)))

    return ''.join([vocab.idx_to_token[i] for i in outputs])

predict_ch8('time traveller ', 10, net, vocab, d2l.try_gpu())

# 梯度裁剪

def grad_clipping(net, theta):

    """裁剪梯度"""

    if isinstance(net, nn.Module):

        params = [p for p in net.parameters() if p.requires_grad]

    else:

        params = net.params

    norm = torch.sqrt(sum(torch.sum((p.grad ** 2)) for p in params))

    if norm > theta:

        for param in params:

            param.grad[:] *= theta / norm

# 定义一个函数在一个迭代周期内训练模型

def train_epoch_ch8(net, train_iter, loss, updater, device, use_random_iter):

    """训练网络一个迭代周期（定义见第8章）"""

    state, timer = None, d2l.Timer()

    metric = d2l.Accumulator(2)  # 训练损失之和,词元数量

    for X, Y in train_iter:

        if state is None or use_random_iter:

            # 在第一次迭代或使用随机抽样时初始化state

            state = net.begin_state(batch_size=X.shape[0], device=device)

        else:

            if isinstance(net, nn.Module) and not isinstance(state, tuple):

                # state对于nn.GRU是个张量

                state.detach_()

            else:

                # state对于nn.LSTM或对于我们从零开始实现的模型是个张量

                for s in state:

                    s.detach_()

        y = Y.T.reshape(-1)

        X, y = X.to(device), y.to(device)

        y_hat, state = net(X, state)

        l = loss(y_hat, y.long()).mean()

        if isinstance(updater, torch.optim.Optimizer):

            updater.zero_grad()

            l.backward()

            grad_clipping(net, 1)

            updater.step()

        else:

            l.backward()

            grad_clipping(net, 1)

            # 因为已经调用了mean函数

            updater(batch_size=1)

        metric.add(l * y.numel(), y.numel())

    return math.exp(metric[0] / metric[1]), metric[1] / timer.stop()

# 循环神经网络模型的训练函数既支持从零开始实现， 也可以使用高级API来实现

def train_ch8(net, train_iter, vocab, lr, num_epochs, device,

              use_random_iter=False):

    """训练模型（定义见第8章）"""

    loss = nn.CrossEntropyLoss()

    animator = d2l.Animator(xlabel='epoch', ylabel='perplexity',

                            legend=['train'], xlim=[10, num_epochs])

    # 初始化

    if isinstance(net, nn.Module):

        updater = torch.optim.SGD(net.parameters(), lr)

    else:

        updater = lambda batch_size: d2l.sgd(net.params, lr, batch_size)

    predict = lambda prefix: predict_ch8(prefix, 50, net, vocab, device)

    # 训练和预测

    for epoch in range(num_epochs):

        ppl, speed = train_epoch_ch8(

            net, train_iter, loss, updater, device, use_random_iter)

        if (epoch + 1) % 10 == 0:

            print(predict('time traveller'))

            animator.add(epoch + 1, [ppl])

    print(f'困惑度 {ppl:.1f}, {speed:.1f} 词元/秒 {str(device)}')

    print(predict('time traveller'))

    print(predict('traveller'))

# 现在，我们训练循环神经网络模型

num_epochs, lr = 500, 1

train_ch8(net, train_iter, vocab, lr, num_epochs, d2l.try_gpu())

# 最后，让我们检查一下使用随机抽样方法的结果

net = RNNModelScratch(len(vocab), num_hiddens, d2l.try_gpu(), get_params, init_rnn_state, rnn)

train_ch8(net, train_iter, vocab, lr, num_epochs, d2l.try_gpu(), use_random_iter=True)

代码解释

1. 初始设置与数据准备

%matplotlib inline

import math

import torch

from torch import nn

from torch.nn import functional as F

from d2l import torch as d2l

功能：
- %matplotlib inline: 在Jupyter Notebook中内嵌显示matplotlib图形
- import math: 导入数学计算模块
- import torch: 导入PyTorch深度学习框架
- from torch import nn: 导入PyTorch的神经网络模块
- from torch.nn import functional as F: 导入PyTorch的函数模块
- from d2l import torch as d2l: 导入《动手学深度学习》的配套工具库

batch_size, num_steps = 32, 35

train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)

功能：
- 设置批量大小为32，时间步数为35
- 加载时间机器数据集：
  - d2l.load_data_time_machine() 函数加载并预处理数据
  - 返回数据迭代器(train_iter)和词汇表(vocab)
  - 词汇表大小：28个字符（小写字母+空格+标点）

2. 数据预处理与表示

# 独热编码

F.one_hot(torch.tensor([0, 2]), len(vocab))

功能：
- 演示如何将整数索引转换为独热编码
- 输入：[0, 2]（两个字符的索引）
- 输出：形状为(2, 28)的张量，每行对应一个字符的独热编码
- 例如：索引0 → [1,0,0,...]，索引2 → [0,0,1,0,...]

# 小批量数据形状是二维张量： （批量大小，时间步数）

X = torch.arange(10).reshape((2, 5))

F.one_hot(X.T, 28).shape

功能：
- 创建示例数据：2个样本，每个样本5个时间步
- 转置数据：从(2,5)变为(5,2)
- 应用独热编码：得到形状(5, 2, 28)
- 这表示：5个时间步，2个样本，每个时间步是28维的独热向量

3. 模型参数初始化

# 初始化模型参数

def get_params(vocab_size, num_hiddens, device):

    num_inputs = num_outputs = vocab_size

    def normal(shape):

        return torch.randn(size=shape, device=device) * 0.01

    # 隐藏层参数

    W_xh = normal((num_inputs, num_hiddens))

    W_hh = normal((num_hiddens, num_hiddens))  # 这行若没有，就是一个单隐藏层的 MLP

    b_h = torch.zeros(num_hiddens, device=device)

    # 输出层参数

    W_hq = normal((num_hiddens, num_outputs))

    b_q = torch.zeros(num_outputs, device=device)

    # 附加梯度

    params = [W_xh, W_hh, b_h, W_hq, b_q]

    for param in params:

        param.requires_grad_(True)

    return params

功能：
- 初始化RNN的五个关键参数：
  - W_xh: 输入到隐藏层的权重 (28×512)
  - W_hh: 隐藏层到隐藏层的权重 (512×512) - RNN的关键！
  - b_h: 隐藏层偏置 (512,)
  - W_hq: 隐藏层到输出层的权重 (512×28)
  - b_q: 输出层偏置 (28,)
- 使用小随机数初始化权重(标准差0.01)
- 偏置初始化为0
- 所有参数设置为需要梯度计算

4. 隐藏状态初始化

# 一个 init_rnn_state 函数在初始化时返回隐状态

def init_rnn_state(batch_size, num_hiddens, device):

    return (torch.zeros((batch_size, num_hiddens), device=device), )

功能：
- 创建初始隐藏状态(H0)
- 形状：(batch_size, num_hiddens) = (32, 512)
- 全部初始化为0
- 返回元组格式(为了与LSTM等更复杂模型兼容)

5. RNN前向传播

# 下面的rnn函数定义了如何在一个时间步内计算隐状态和输出

def rnn(inputs, state, params):

    # inputs的形状：(时间步数量，批量大小，词表大小)

    W_xh, W_hh, b_h, W_hq, b_q = params

    H, = state

    outputs = []

    # X的形状：(批量大小，词表大小)

    for X in inputs:

        H = torch.tanh(torch.mm(X, W_xh) + torch.mm(H, W_hh) + b_h)

        Y = torch.mm(H, W_hq) + b_q

        outputs.append(Y)

    return torch.cat(outputs, dim=0), (H,)

功能：
- RNN核心计算逻辑
- 遍历每个时间步：
  - 计算新隐藏状态：H = tanh(X·W_xh + H·W_hh + b_h)
  - 计算当前输出：Y = H·W_hq + b_q
- 拼接所有时间步的输出
- 返回输出序列和最终隐藏状态

6. RNN模型封装

# 创建一个类来包装这些函数， 并存储从零开始实现的循环神经网络模型的参数

class RNNModelScratch:

    """从零开始实现的循环神经网络模型"""

    def __init__(self, vocab_size, num_hiddens, device,

                 get_params, init_state, forward_fn):

        self.vocab_size, self.num_hiddens = vocab_size, num_hiddens

        self.params = get_params(vocab_size, num_hiddens, device)

        self.init_state, self.forward_fn = init_state, forward_fn

    def __call__(self, X, state):

        X = F.one_hot(X.T, self.vocab_size).type(torch.float32)

        return self.forward_fn(X, state, self.params)

    def begin_state(self, batch_size, device):

        return self.init_state(batch_size, self.num_hiddens, device)

功能：
- 封装RNN模型为可调用类
- __init__: 初始化参数和前向函数
- __call__:
  - 将输入转换为独热编码
  - 调用前向传播函数
- begin_state: 创建初始隐藏状态

7. 模型验证与文本生成

# 检查输出是否具有正确的形状

num_hiddens = 512

net = RNNModelScratch(len(vocab), num_hiddens, d2l.try_gpu(), get_params,

                      init_rnn_state, rnn)

state = net.begin_state(X.shape[0], d2l.try_gpu())

功能：
- 实例化RNN模型
- 创建初始隐藏状态

Y, new_state = net(X.to(d2l.try_gpu()), state)

Y.shape, len(new_state), new_state[0].shape

功能：
- 执行前向传播
- 验证输出形状：(时间步×批量大小, 词汇表大小) = (10, 28)
- 验证隐藏状态形状：(批量大小, 隐藏单元数) = (2, 512)

# 首先定义预测函数来生成prefix之后的新字符

def predict_ch8(prefix, num_preds, net, vocab, device):

    """在prefix后面生成新字符"""

    state = net.begin_state(batch_size=1, device=device)

    outputs = [vocab[prefix[0]]]

    get_input = lambda: torch.tensor([outputs[-1]], device=device).reshape((1, 1))

    for y in prefix[1:]:  # 预热期

        _, state = net(get_input(), state)

        outputs.append(vocab[y])

    for _ in range(num_preds):  # 预测num_preds步

        y, state = net(get_input(), state)

        outputs.append(int(y.argmax(dim=1).reshape(1))

    return ''.join([vocab.idx_to_token[i] for i in outputs])

功能：
- 初始化隐藏状态
- 预热期：用前缀字符初始化状态
- 预测期：用模型预测下一个字符
- 将预测结果转换为字符串

8. 训练准备：梯度裁剪

# 梯度裁剪

def grad_clipping(net, theta):

    """裁剪梯度"""

    if isinstance(net, nn.Module):

        params = [p for p in net.parameters() if p.requires_grad]

    else:

        params = net.params

    norm = torch.sqrt(sum(torch.sum((p.grad ** 2)) for p in params))

    if norm > theta:

        for param in params:

            param.grad[:] *= theta / norm

功能：
- 防止梯度爆炸
- 计算所有参数梯度的L2范数
- 如果范数超过阈值(theta=1)，等比例缩小梯度

9. 训练循环实现

# 定义一个函数在一个迭代周期内训练模型

def train_epoch_ch8(net, train_iter, loss, updater, device, use_random_iter):

    """训练网络一个迭代周期（定义见第8章）"""

    state, timer = None, d2l.Timer()

    metric = d2l.Accumulator(2)  # 训练损失之和,词元数量

    for X, Y in train_iter:

        if state is None or use_random_iter:

            # 在第一次迭代或使用随机抽样时初始化state

            state = net.begin_state(batch_size=X.shape[0], device=device)

        else:

            if isinstance(net, nn.Module) and not isinstance(state, tuple):

                # state对于nn.GRU是个张量

                state.detach_()

            else:

                # state对于nn.LSTM或对于我们从零开始实现的模型是个张量

                for s in state:

                    s.detach_()

        y = Y.T.reshape(-1)

        X, y = X.to(device), y.to(device)

        y_hat, state = net(X, state)

        l = loss(y_hat, y.long()).mean()

        if isinstance(updater, torch.optim.Optimizer):

            updater.zero_grad()

            l.backward()

            grad_clipping(net, 1)

            updater.step()

        else:

            l.backward()

            grad_clipping(net, 1)

            # 因为已经调用了mean函数

            updater(batch_size=1)

        metric.add(l * y.numel(), y.numel())

    return math.exp(metric[0] / metric[1]), metric[1] / timer.stop()

功能：
- 管理隐藏状态（初始化或分离）
- 准备数据（移动到设备）
- 前向传播
- 计算损失（交叉熵）
- 反向传播
- 梯度裁剪
- 参数更新
- 计算困惑度(perplexity)和训练速度

# 循环神经网络模型的训练函数既支持从零开始实现， 也可以使用高级API来实现

def train_ch8(net, train_iter, vocab, lr, num_epochs, device,

              use_random_iter=False):

    """训练模型（定义见第8章）"""

    loss = nn.CrossEntropyLoss()

    animator = d2l.Animator(xlabel='epoch', ylabel='perplexity',

                            legend=['train'], xlim=[10, num_epochs])

    # 初始化

    if isinstance(net, nn.Module):

        updater = torch.optim.SGD(net.parameters(), lr)

    else:

        updater = lambda batch_size: d2l.sgd(net.params, lr, batch_size)

    predict = lambda prefix: predict_ch8(prefix, 50, net, vocab, device)

    # 训练和预测

    for epoch in range(num_epochs):

        ppl, speed = train_epoch_ch8(

            net, train_iter, loss, updater, device, use_random_iter)

        if (epoch + 1) % 10 == 0:

            print(predict('time traveller'))

            animator.add(epoch + 1, [ppl])

    print(f'困惑度 {ppl:.1f}, {speed:.1f} 词元/秒 {str(device)}')

    print(predict('time traveller'))

    print(predict('traveller'))

功能：
- 设置损失函数和可视化
- 初始化优化器
- 每10个epoch生成预测文本
- 绘制困惑度曲线
- 输出最终训练结果

10. 模型训练执行

# 训练循环神经网络模型

num_epochs, lr = 500, 1

功能：设置训练轮数(500)和学习率(1)

train_ch8(net, train_iter, vocab, lr, num_epochs, d2l.try_gpu())

功能：执行训练（顺序采样）

# 最后，检查一下使用随机抽样方法的结果

net = RNNModelScratch(len(vocab), num_hiddens, d2l.try_gpu(), get_params, init_rnn_state, rnn)

功能：重新初始化模型（确保公平比较）

train_ch8(net, train_iter, vocab, lr, num_epochs, d2l.try_gpu(), use_random_iter=True)

功能：执行训练（随机采样）

关键执行流程总结

1. 数据流

文本数据 → 字符索引 → 独热编码
输入形状：(批量大小, 时间步数) → (时间步数, 批量大小, 词汇表大小)

2. 模型流

输入X → 独热编码 → RNN单元 → 隐藏状态H → 输出Y

         ↑        ↓

         └───[H]──┘

3. 训练流

for epoch in 500:

    初始化隐藏状态

    for batch in 数据迭代器:

        前向传播 → 计算损失 → 反向传播 → 梯度裁剪 → 更新参数

    每10个epoch：生成文本并显示困惑度

4. 文本生成流

给定前缀 → 预热状态 → 循环生成字符 → 拼接结果

循环神经网络的从零开始实现(RNN)的更多相关文章

循环神经网络(Recurrent Neural Networks, RNN)介绍
目录 1 什么是RNNs 2 RNNs能干什么 2.1 语言模型与文本生成Language Modeling and Generating Text 2.2 机器翻译Machine Translati ...
TensorFlow系列专题（七）：一文综述RNN循环神经网络
欢迎大家关注我们的网站和系列教程:http://panchuang.net/ ,学习更多的机器学习.深度学习的知识! 目录: 前言 RNN知识结构简单循环神经网络 RNN的基本结构 RNN的运算过程 ...
[Pytorch框架] 2.5 循环神经网络
文章目录 2.5 循环神经网络 2.5.1 RNN简介 RNN的起因为什么需要RNN RNN都能做什么 2.5.2 RNN的网络结构及原理 RNN LSTM GRU 2.5.3 循环网络的向后传播( ...
循环神经网络(RNN, Recurrent Neural Networks)介绍（转载）
循环神经网络(RNN, Recurrent Neural Networks)介绍这篇文章很多内容是参考:http://www.wildml.com/2015/09/recurrent-neur ...
CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构有什么区别？
https://www.zhihu.com/question/34681168 CNN(卷积神经网络).RNN(循环神经网络).DNN(深度神经网络)的内部网络结构有什么区别?修改 CNN(卷积神经网 ...
循环神经网络(RNN)模型与前向反向传播算法
在前面我们讲到了DNN,以及DNN的特例CNN的模型和前向反向传播算法,这些算法都是前向反馈的,模型的输出和模型本身没有关联关系.今天我们就讨论另一类输出和模型间有反馈的神经网络:循环神经网络(Rec ...
循环神经网络RNN公式推导走读
0语言模型-N-Gram 语言模型就是给定句子前面部分,预测后面缺失部分 eg．我昨天上学迟到了,老师批评了____. N-Gram模型: ,对一句话切词我昨天上学迟到了 ,老师批评了 ...
深度学习之循环神经网络（RNN）
循环神经网络(Recurrent Neural Network,RNN)是一类具有短期记忆能力的神经网络,适合用于处理视频.语音.文本等与时序相关的问题.在循环神经网络中,神经元不但可以接收其他神经元 ...
循环神经网络（Recurrent Neural Network，RNN）
为什么使用序列模型(sequence model)?标准的全连接神经网络(fully connected neural network)处理序列会有两个问题:1)全连接神经网络输入层和输出层长度固定, ...
神经网络6_CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)概念区分理解
sklearn实战-乳腺癌细胞数据挖掘(博客主亲自录制视频教程,QQ:231469242) https://study.163.com/course/introduction.htm?courseId ...

随机推荐

【Spring Boot】ActiveMQ 设置访问密码
Apache ActiveMQ是Apache出品,是最流行的,能力很强的开源消息总线.默认情况下,程序连接ActiveMQ是不需要密码的,为了安装起见,需要设置密码,提高安全性.本文分享如何设置访问A ...
Keil watch中数据不更新解决办法
watch数据不更新解决办法在使用keil的watch窗口观察寄存器里面的值进行调试时,有时候里面的值就是不会更新,经测试打开View中最下面的那个按键即可
k8s pod command使用
简单说明我们启pod服务时,有时需要在服务启动前做一些初始化的工作,这里可能会涉及多个shell命令以及判断执行,这里可以参考下面的步骤进行: command: ["/bin/bash&q ...
ceph集群故障运维--持续更新
一.PG处于异常状态active+undersized+degraded 部署环境: 自己搭建的3节点集群,集群共5个OSD,部署Ceph的RadosGW的服务时,副本默认设置为3,集群存放数据量少. ...
鸿蒙 Native API 的封装库 h2lib_arkbinder
h2lib_arkbinder 介绍 code: https://gitee.com/evanown/h2lib_arkbinder 本类库实现 C++ 代码到鸿蒙 Native API 的封装与转换 ...
CURL 命令的用法详解
CURL(Client URL)是一个强大的命令行工具,用于通过各种网络协议与服务器进行数据传输.它支持 HTTP.HTTPS.FTP.SFTP 等多种协议,广泛应用于 API 测试.数据获取.文件传 ...
snmp总结二：MIB语法
snmp总结二:MIB语法 MIB(Management Information Base,管理信息库)是 MO(Managed Object 管理对象)定义的集合.MIB 文件是按照 ASN.1 定 ...
C/C++ 地震数据SEGY文件 IBM格式与PC格式的转换
SEGY IO (IBM&PC) 本文档将介绍SEGY的读取与写入过程,其中包括IBM与PC两种数据格式的转换. 程序将调用IEEE2IBM.cpp文件完成IBM与PC格式的互相转换. 新建头 ...
C# .Net 5 中 Serialize 已过时 BinaryFormatter.Serialize(Stream, object)”已过时
https://www.cnblogs.com/wangbg/p/14020022.html https://docs.microsoft.com/zh-cn/dotnet/api/system.ru ...
CF2031D Penchick and Desert Rabbit 题解
CF2031D Penchick and Desert Rabbit 赛时 A,B,C 共计吃了 \(5\) 发罚时,这就是我的真实实力!来补篇题解. 考虑分析每一个位置的性质,不难发现最后一个位置一 ...

循环神经网络的从零开始实现(RNN)

代码总览

代码解释

1. 初始设置与数据准备

2. 数据预处理与表示

3. 模型参数初始化

4. 隐藏状态初始化

5. RNN前向传播

6. RNN模型封装

7. 模型验证与文本生成

8. 训练准备：梯度裁剪

9. 训练循环实现

10. 模型训练执行

关键执行流程总结

1. 数据流

2. 模型流

3. 训练流

4. 文本生成流

循环神经网络的从零开始实现(RNN)的更多相关文章

随机推荐

热门专题