一、封装新的PyTorch函数

继承Function类

forward：输入Variable->中间计算Tensor->输出Variable

backward：均使用Variable

线性映射

from torch.autograd import Function

class MultiplyAdd(Function):                       # <----- 类需要继承Function类

    @staticmethod                                  # <-----forward和backward都是静态方法

    def forward(ctx, w, x, b):                     # <-----ctx作为内部参数在前向反向传播中协调

        print('type in forward',type(x))

        ctx.save_for_backward(w,x)                 # <-----ctx保存参数

        output = w * x + b

        return output                              # <-----forward输入参数和backward输出参数必须一一对应

    @staticmethod                                  # <-----forward和backward都是静态方法

    def backward(ctx, grad_output):                # <-----ctx作为内部参数在前向反向传播中协调

        w,x = ctx.saved_variables                  # <-----ctx读取参数

        print('type in backward',type(x))

        grad_w = grad_output * x

        grad_x = grad_output * w

        grad_b = grad_output * 1

        return grad_w, grad_x, grad_b              # <-----backward输入参数和forward输出参数必须一一对应

调用方法一

类名.apply(参数)

输出变量.backward()

import torch as t

from torch.autograd import Variable as V

x = V(t.ones(1))

w = V(t.rand(1), requires_grad = True)

b = V(t.rand(1), requires_grad = True)

print('开始前向传播')

z=MultiplyAdd.apply(w, x, b)                       # <-----forward

print('开始反向传播')

z.backward() # 等效                                 # <-----backward

# x不需要求导，中间过程还是会计算它的导数，但随后被清空

print(x.grad, w.grad, b.grad)

开始前向传播

type in forward <class 'torch.FloatTensor'>

开始反向传播

type in backward <class 'torch.autograd.variable.Variable'>

(None, 
 Variable containing:

   1

  [torch.FloatTensor of size 1], 
 Variable containing:

   1

  [torch.FloatTensor of size 1])

调用方法二

类名.apply(参数)

输出变量.grad_fn.apply()

x = V(t.ones(1))

w = V(t.rand(1), requires_grad = True)

b = V(t.rand(1), requires_grad = True)

print('开始前向传播')

z=MultiplyAdd.apply(w,x,b)                         # <-----forward

print('开始反向传播')

# 调用MultiplyAdd.backward

# 会自动输出grad_w, grad_x, grad_b

z.grad_fn.apply(V(t.ones(1)))                      # <-----backward，在计算中间输出，buffer并未清空，所以x的梯度不是None

开始前向传播

type in forward <class 'torch.FloatTensor'>

开始反向传播

type in backward <class 'torch.autograd.variable.Variable'>

(Variable containing:

  1

 [torch.FloatTensor of size 1], Variable containing:

  0.7655

 [torch.FloatTensor of size 1], Variable containing:

  1

 [torch.FloatTensor of size 1])

之所以forward函数的输入是tensor，而backward函数的输入是variable，是为了实现高阶求导。backward函数的输入输出虽然是variable，但在实际使用时autograd.Function会将输入variable提取为tensor，并将计算结果的tensor封装成variable返回。在backward函数中，之所以也要对variable进行操作，是为了能够计算梯度的梯度（backward of backward）。下面举例说明，有关torch.autograd.grad的更详细使用请参照文档。

二、高阶导数

grad_x =t.autograd.grad(y, x, create_graph=True)

grad_grad_x = t.autograd.grad(grad_x[0],x)

x = V(t.Tensor([5]), requires_grad=True)

y = x ** 2

grad_x = t.autograd.grad(y, x, create_graph=True)

print(grad_x) # dy/dx = 2 * x

grad_grad_x = t.autograd.grad(grad_x[0],x)

print(grad_grad_x) # 二阶导数 d(2x)/dx = 2

(Variable containing:

  10

 [torch.FloatTensor of size 1],)

(Variable containing:

  2

 [torch.FloatTensor of size 1],)

三、梯度检查

t.autograd.gradcheck(Sigmoid.apply, (test_input,), eps=1e-3)

此外在实现了自己的Function之后，还可以使用gradcheck函数来检测实现是否正确。gradcheck通过数值逼近来计算梯度，可能具有一定的误差，通过控制eps的大小可以控制容忍的误差。

class Sigmoid(Function):

    @staticmethod

    def forward(ctx, x):

        output = 1 / (1 + t.exp(-x))

        ctx.save_for_backward(output)

        return output

    @staticmethod

    def backward(ctx, grad_output):

        output,  = ctx.saved_variables

        grad_x = output * (1 - output) * grad_output

        return grad_x                            

# 采用数值逼近方式检验计算梯度的公式对不对

test_input = V(t.randn(3,4), requires_grad=True)

t.autograd.gradcheck(Sigmoid.apply, (test_input,), eps=1e-3)

True

测试效率，

def f_sigmoid(x):

    y = Sigmoid.apply(x)

    y.backward(t.ones(x.size()))

def f_naive(x):

    y =  1/(1 + t.exp(-x))

    y.backward(t.ones(x.size()))

def f_th(x):

    y = t.sigmoid(x)

    y.backward(t.ones(x.size()))

x=V(t.randn(100, 100), requires_grad=True)

%timeit -n 100 f_sigmoid(x)

%timeit -n 100 f_naive(x)

%timeit -n 100 f_th(x)

实际测试结果，

245 µs ± 70.1 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

211 µs ± 23.3 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

219 µs ± 36.6 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

书中说的结果，

100 loops, best of 3: 320 µs per loop

100 loops, best of 3: 588 µs per loop

100 loops, best of 3: 271 µs per loop

很奇怪，我的结果竟然是：简单堆砌<官方封装<自己封装……不过还是引用一下书中的结论吧：

显然f_sigmoid要比单纯利用autograd加减和乘方操作实现的函数快不少，因为f_sigmoid的backward优化了反向传播的过程。另外可以看出系统实现的buildin接口(t.sigmoid)更快。

『PyTorch』第五弹_深入理解autograd_下：函数扩展&高阶导数的更多相关文章

『PyTorch』第五弹_深入理解autograd_上：Variable属性方法
在PyTorch中计算图的特点可总结如下: autograd根据用户对variable的操作构建其计算图.对变量的操作抽象为Function. 对于那些不是任何函数(Function)的输出,由用户创 ...
『PyTorch』第五弹_深入理解autograd_中：Variable梯度探究
查看非叶节点梯度的两种方法在反向传播过程中非叶子节点的导数计算完之后即被清空.若想查看这些变量的梯度,有两种方法: 使用autograd.grad函数使用hook autograd.grad和ho ...
『PyTorch』第五弹_深入理解Tensor对象_中下：数学计算以及numpy比较_&_广播原理简介
一.简单数学操作 1.逐元素操作 t.clamp(a,min=2,max=4)近似于tf.clip_by_value(A, min, max),修剪值域. a = t.arange(0,6).view ...
『PyTorch』第五弹_深入理解Tensor对象_下：从内存看Tensor
Tensor存储结构如下, 如图所示,实际上很可能多个信息区对应于同一个存储区,也就是上一节我们说到的,初始化或者普通索引时经常会有这种情况. 一.几种共享内存的情况 view a = t.arang ...
『PyTorch』第五弹_深入理解Tensor对象_中上：索引
一.普通索引示例 a = t.Tensor(4,5) print(a) print(a[0:1,:2]) print(a[0,:2]) # 注意和前一种索引出来的值相同,shape不同 print( ...
『PyTorch』第五弹_深入理解Tensor对象_上：初始化以及尺寸调整
一.创建Tensor 特殊方法: t.arange(1,6,2)t.linspace(1,10,3)t.randn(2,3) # 标准分布,*size t.randperm(5) # 随机排序,从0到 ...
『PyTorch』第四弹_通过LeNet初识pytorch神经网络_下
『PyTorch』第四弹_通过LeNet初识pytorch神经网络_上 # Author : Hellcat # Time : 2018/2/11 import torch as t import t ...
『PyTorch』第十弹_循环神经网络
RNN基础: 『cs231n』作业3问题1选讲_通过代码理解RNN&图像标注训练 TensorFlow RNN: 『TensotFlow』基础RNN网络分类问题『TensotFlow』基础R ...
『PyTorch』第四弹_通过LeNet初识pytorch神经网络_上
总结一下相关概念: torch.Tensor - 一个近似多维数组的数据结构 autograd.Variable - 改变Tensor并且记录下来操作的历史记录.和Tensor拥有相同的API,以及b ...

随机推荐

Linux基础命令---mktemp
mktemp 创建临时文件或者目录,这样的创建方式是安全的.此命令的适用范围:RedHat.RHEL.Ubuntu.CentOS.SUSE.openSUSE.Fedora. 1.语法 mk ...
2016NOI冬令营day4
上午:随机算法/近似算法与随机算法的分析方法与应用实例不懂,完全滑水QAQ :( 下午:计算理论与NP问题只有讲2-sat和3-sat的时候能听懂,其他的基本都在滑水:( 晚上说是什么中学生学术训 ...
mysql引擎问题
今天遇到需要修改数据库引擎问题 /*查看支持的引擎*/ show engines; /*默认引擎*/ show variables like '%storage_engine%'; /*看某个表用了什 ...
超频真的不难！G3258超频4.5GHz全攻略
奔腾G3258搭配主板详解 [pconline 应用]目前DIY市场上最火热的装机组合莫过于奔腾20周年纪念版处理器G3258搭配B85芯片组主板,只要通过适当的超频,相对较低投入也能来不错的性能体验 ...
UNIX系统的显示时间何时会到尽头
本文转载自:http://www.cnblogs.com/dfcao/p/expertCprogramming_intr0.html 本文分为三个小块: 一.UNIX系统中时间的存储形式: 二. ti ...
平衡树之伸展树（Splay Tree）题目整理
目录前言练习1 BZOJ 3224 普通平衡树练习2 BZOJ 3223 文艺平衡树练习3 BZOJ 1588 [HNOI2002]营业额统计练习4 BZOJ 1208 [HNOI2004] ...
Https流程，openssl本地自建证书，抓包
HTTPS:超文本安全传输协议,和HTTP相比,多了一个SSL/TSL的认证过程,端口为443在http(超文本传输协议)基础上提出的一种安全的http协议,因此可以称为安全的超文本传输协议.http ...
遍历GroupBox上的所有的textbox
foreach (Control c in groupBox1.Controls) { if (c is TextBox) { //这里写代码逻辑 } } 遍历的时候,需要用Control遍历: 如果 ...
Java Session 会话技术
什么是Java Session? 大图:http://images2017.cnblogs.com/blog/1030087/201712/1030087-20171223235950881-1310 ...
每个成长者,必须学会可以练习 (来自ProcessOn流程图工具作者底部)

『PyTorch』第五弹_深入理解autograd_下：函数扩展&高阶导数