李沐动手学深度学习pytorch实践笔记

梯度，是个向量，有方向和长度就是向量，向量里的各个元素是偏导、是标量对向量求导的那个偏导、是多元函数全微分里z对x、y求的那个偏导。

全微分dz所在的z轴是向上的，而梯度下降需要向下，所以要找负梯度方向，也就是移动了Δx和Δy之后，这个Δz的增量最大，他降低的最多，他最陡。这个向量怎么找，用方向导数，方向导数需要什么，需要偏导和角度，角度永远是0，因为cos0=1最大，所以只要有偏导就行。

所以，李沐课程第8节第3课，线性回归从零实践里，梯度下降循环了300次以更新系数w和b，这些系数就是梯度、是要找的向量。

每次更新之后，就以新的向量点的坐标为起点，继续计算方向导数，找到下一个Δz增量最大的向量。

5、课程第九节softmax回归有2个问题：

　　1 load_data_fashion_mnist函数里FashionMNIST是下载不了图片集的，可以把torch里的load_data_fashion_mnist改成MNIST

def load_data_fashion_mnist(batch_size, resize=None):

    """Download the Fashion-MNIST dataset and then load it into memory.

    Defined in :numref:`sec_utils`"""

    trans = [transforms.ToTensor()]

    if resize:

        trans.insert(0, transforms.Resize(resize))

    trans = transforms.Compose(trans)

    mnist_train = torchvision.datasets.MNIST(

        root=".\\data", train=True, transform=trans, download=True)

    mnist_test = torchvision.datasets.MNIST(

        root=".\\data", train=False, transform=trans, download=True)

    return (torch.utils.data.DataLoader(mnist_train, batch_size, shuffle=True,

                                        num_workers=get_dataloader_workers()),

            torch.utils.data.DataLoader(mnist_test, batch_size, shuffle=False,

                                        num_workers=get_dataloader_workers()))

　　标签也改成0~9，MNIST是识别手写数字的

def get_fashion_mnist_labels(labels):

    """Return text labels for the Fashion-MNIST dataset.

    Defined in :numref:`sec_utils`"""

    text_labels = ['0', '1', '2', '3', '4',

                   '5', '6', '7', '8', '9']

    return [text_labels[int(i)] for i in labels]

　　这样以后就可以正常用 train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size) 加载图片数据集了

　　2 pycharm中这一节的动画和图片不显示

　　show_images函数后面 d2l.plt.show() 就可以显示图片

　　在d2l的torch文件中，在 class Animator add函数最后两行中间加入两行代码

        display.display(self.fig)

        d2l.plt.draw()

        d2l.plt.pause(0.001)

        display.clear_output(wait=True)

　　然后调用 train_ch3 时，记得里面的Animator 类要实例化 d2l的，如果改自己的Animator 就对应改它的add函数，最后调完train_ch3 函数在下面加上d2l.plt.show()就能显示动画

6、权重衰减

以softmax为例，求出的向量元素都是概率，这个向量作为损失函数的入参。所以一组大的或一组小的w和b，得到的都是概率组成的向量，最后损失函数的最小值是一样的，但是大的w和b会使特征放大，也使噪音放大了，那还不如选个小的w和b

正则化参数是限制w的Θ的倒数。所以λ=0，Θ无穷大；Θ无穷大，Θ=0
激活函数relu tanh 在原点附近接近f(x)=x，再配合合理的权重初始值，可以提升数值稳定性，防止梯度爆炸或消失
新加的层训练的是上一层的输出x和正确值之间的残差，最终训练的结果输出，就是新加层的残差输出Fx加上之前层的输出x

7、微调

现在都用基于预训练的模型和参数，然后进行微调，最后一层之前的，就基于预训练的参数和正常的学习率训练，因为这些参数变动不大，而最后的输出层变动很大，因此用10倍的学习率训练。很少有人会对所有参数重新训练，除非是大公司。

学术界和竞赛界是固定数据调模型，调试太多，验证集也变成训练集了，会过拟合。而工业界不需要调太多，需要提升数据质量，因为工业界不断有新数据，所以应该优化训练集的数据，找更多数据。

目标检测直接用别人写好的包，细节太多别自己写，Python 效率低，一般用c++或cuda 写

李沐动手学深度学习pytorch实践笔记的更多相关文章

《动手学深度学习》系列笔记—— 1.2 Softmax回归与分类模型
目录 softmax的基本概念交叉熵损失函数模型训练和预测获取Fashion-MNIST训练集和读取数据 get dataset softmax从零开始的实现获取训练集数据和测试集数据模型参 ...
《动手学深度学习》系列笔记 —— 语言模型（n元语法、随机采样、连续采样）
目录 1. 语言模型 2. n元语法 3. 语言模型数据集 4. 时序数据的采样 4.1 随机采样 4.2 相邻采样一段自然语言文本可以看作是一个离散时间序列,给定一个长度为\(T\)的词的序列\( ...
小白学习之pytorch框架(2)-动手学深度学习(begin-random.shuffle()、torch.index_select()、nn.Module、nn.Sequential())
在这向大家推荐一本书-花书-动手学深度学习pytorch版,原书用的深度学习框架是MXNet,这个框架经过Gluon重新再封装,使用风格非常接近pytorch,但是由于pytorch越来越火,个人又比 ...
对比《动手学深度学习》 PDF代码+《神经网络与深度学习》PDF
随着AlphaGo与李世石大战的落幕,人工智能成为话题焦点.AlphaGo背后的工作原理"深度学习"也跳入大众的视野.什么是深度学习,什么是神经网络,为何一段程序在精密的围棋大赛中 ...
【动手学深度学习】Jupyter notebook中 import mxnet出错
问题描述打开d2l-zh目录,使用jupyter notebook打开文件运行,import mxnet 出现无法导入mxnet模块的问题, 但是命令行运行是可以导入mxnet模块的. 原因: 激活 ...
动手学深度学习9-多层感知机pytorch
多层感知机隐藏层激活函数小结多层感知机之前已经介绍过了线性回归和softmax回归在内的单层神经网络,然后深度学习主要学习多层模型,后续将以多层感知机(multilayer percetro ...
mxnet 动手学深度学习
http://zh.gluon.ai/chapter_crashcourse/introduction.html 强化学习(Reinforcement Learning) 如果你真的有兴趣用机器学习开 ...
动手学深度学习14- pytorch Dropout 实现与原理
方法从零开始实现定义模型参数网络评估函数优化方法定义损失函数数据提取与训练评估 pytorch简洁实现小结针对深度学习中的过拟合问题,通常使用丢弃法(dropout),丢弃法有很多的 ...
动手学深度学习6-认识Fashion_MNIST图像数据集
获取数据集读取小批量样本小结本节将使用torchvision包,它是服务于pytorch深度学习框架的,主要用来构建计算机视觉模型. torchvision主要由以下几个部分构成: torchv ...
动手学深度学习1- pytorch初学
pytorch 初学 Tensors 创建空的tensor 创建随机的一个随机数矩阵创建0元素的矩阵直接从已经数据创建tensor 创建新的矩阵计算操作加法操作转化形状 tensor 与nu ...

随机推荐

JOISC 2020 记录
Day1 T1 Building 4 首先有一个 \(O(n^2)\) 的 DP:记 \(f_{i,j,0/1}\) 表示已经填了前 \(i\) 位,其中有 \(j\) 位选择了 A 序列,当前第 \ ...
服务器网卡,10GE设备相关笔记
连接线铜线六类线基本可以满足万兆, 万兆网络一般只在短程使用铜线, 或者完全不用铜线光纤根据带宽和距离, 分为OM2, OM3, OM4等, OM2一般用于千兆或者短距离万兆, 长距离万兆使用 ...
Hooks与普通函数的区别
Hooks与普通函数的区别在这里的Hooks具体指的是自定义Hooks,自定义的Hooks与我们定义的普通函数类似,都可以封装逻辑,以实现逻辑的复用.Hooks实际上是一种特殊的函数,而由于Hook ...
中国特色AI创业：在OpenAI阴影下的探索与挑战
在中国特色背景下,AI创业领域的一些荒诞现象以及对AI创业者.投资人的心态和影响.同时,OpenAI的强大影响力和国内AI领域的创业现状. 首先,小红书上关于中国版Sora项目的荒诞段子,揭示了部分人 ...
ultraISO方式制作win10安装U盘
说明最近帮朋友安装下win10,用了2种制作U盘启动盘的方式.记录一下也方便大家少走弯路. 准备的工具: 1.utralISO(软通牒) 2.win10镜像 3.16GB U盘,U盘容量 > ...
spring boot使用自带缓存
项目地址:https://gitee.com/indexman/spring_boot_in_action 下面就介绍一下如何使用spring boot自带的缓存.按步骤来操作即可,不懂的可以去看项目 ...
自古以来，JSON序列化就是兵家必争之地
上文讲到使用ioutil.ReadAll读取大的Response Body,出现读取Body超时的问题. 前人引路 Stackoverflow的morganbaz的看法是: 使用iotil.ReadA ...
win32 - 使用Desktop Duplication API复制桌面图像
该代码来源于codeproject,经过测试发现,在屏幕处于旋转的情况下捕获的图像是黑色的.暂时没有找到原因. 代码开箱即用, #define WIN32_LEAN_AND_MEAN #include ...
leetcode - 相同的树
给你两棵二叉树的根节点 p 和 q ,编写一个函数来检验这两棵树是否相同. 如果两个树在结构上相同,并且节点具有相同的值,则认为它们是相同的. 示例 1: 输入:p = [1,2,3], q = [1 ...
Docker实践之08-使用网络
目录一.外部访问容器启动容器时指定参数-P(大写P) 启动容器时指定参数-p(小写p) 二.容器互联使用--link参数使容器互联将容器加入自定义网络实现互联三.为容器配置DNS 一.外部访 ...

李沐动手学深度学习pytorch实践笔记

李沐动手学深度学习pytorch实践笔记的更多相关文章

随机推荐

热门专题