调参tips

对于一个模型，都可以从以下几个方面进行调参：

1. 对weight和bias进行初始化（效果很好，一般都可以提升1-2%）

Point 1 (CNN):

 for conv in self.convs1:

    init.xavier_normal(conv.weight, gain=np.sqrt(2.0))　　# 对weight进行正态分布初始化

    # init.normal(conv.weight, mean=0, std=0.1)

    # init.constant(conv.bias, 0.1)　　　　　　　　　　　　　　# 对bias初始化为0.1

Point 2 (LSTM):

（1）Bias vectors are initialized to zero, except the bias b f for the forget gate in LSTM , which is initialized to 1.0 .(参见论文End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF)。weight 使用高斯分布或是均匀分布都可以。详细讲解参考博文Deep Learning 之参数初始化

（2）简单的设置就是，weight设为0.1，bias设为0。

         init.xavier_normal(self.lstm.all_weights[0][0], gain=np.sqrt(2.0))

         self.lstm.all_weights[0][3].data[20:40].fill_(1)    # forget gate

         self.lstm.all_weights[0][3].data[0:20].fill_(0)

         self.lstm.all_weights[0][3].data[40:80].fill_(0)

注：对于封装好的lstm，其提供了all_weights接口统一对其参数进行初始化，不能单个定义，forget gate对应的下标是20-39。若是使用lstmcell则可以对单个想要修改的参数进行修改。

2. clip gradients让权重的梯度更新限制在一定范围内，防止单个节点出现梯度爆炸、梯度消失。

 optimizer.zero_grad()

 logit = model(feature)

 loss = F.cross_entropy(logit, target)

 loss.backward()

 # clip gradients

 utils.clip_grad_norm(model.parameters(), 5)

 optimizer.step()

3. L2 regularization

L2值也叫惩罚值，是为了防止过拟合问题。提供了接口可直接设值，一般设为1e-8。

 optimizer = torch.optim.Adam(model.parameters(), lr=args.lr, weight_decay=0.01)

4. batch normalization批标准化若设置正确，据说会大大加大迭代速度，效果明显。

若是BatchNorm2d(x)，input是（batchsize，channel，height，width），x值对应channel，即维度1。所以channel=0时，求一次mean，var，做一次normalize；channel=1时，求一次.......channel=x时，求一次。BatchNorm1d时情况也是一样的，x对应的是维度1的值，若是不对应，则需要进行转置，如下示例。

 m = nn.BatchNorm1d(2)

 input = torch.randn(2, 10)

 input = Variable(input)

 input = Variable(torch.transpose(input.data, 0, 1))

 print(input)

 output = m(input)

 print(output)

Point 1 (CNN):

     def __init__(self, args):

         super(CNN, self).__init__()

         self.bn = nn.BatchNorm2d(1)

     def forward(self, x):

             for conv in self.convs1:

             xx = conv(x)                        # variable [torch.FloatTensor of size 16x200x35x1]

             xx = Variable(torch.transpose(xx.data, 2, 3))

             xx = Variable(torch.transpose(xx.data, 1, 2))

             xx = self.bn(xx)

             xx = F.relu(xx)

             xx = xx.squeeze(1)

             a.append(xx)

Point 2 (LSTM):

 class BiLSTM(nn.Module):

     def __init__(self, args):

         super(BiLSTM, self).__init__()

         self.bn1 = nn.BatchNorm1d(2*self.hidden_size) 

 　　def forward(self, sentence):

         out = self.bn1(out)

         out = F.tanh(out)

         y = self.hidden2label(out)

结果：以上两种设置并没有提高准确率。

Point 3 (BN-LSTM):

参看论文RECURRENT BATCH NORMALIZATION，不使用pytorch框架，自己实现。

调参tips的更多相关文章

01.CNN调参
转载:调参是个头疼的事情,Yann LeCun.Yoshua Bengio和Geoffrey Hinton这些大牛为什么能够跳出各种牛逼的网络? 下面一些推荐的书和文章:调参资料总结Neural Ne ...
【Python机器学习实战】决策树与集成学习（七）——集成学习（5）XGBoost实例及调参
上一节对XGBoost算法的原理和过程进行了描述,XGBoost在算法优化方面主要在原损失函数中加入了正则项,同时将损失函数的二阶泰勒展开近似展开代替残差(事实上在GBDT中叶子结点的最优值求解也是使 ...
scikit-learn随机森林调参小结
在Bagging与随机森林算法原理小结中,我们对随机森林(Random Forest, 以下简称RF)的原理做了总结.本文就从实践的角度对RF做一个总结.重点讲述scikit-learn中RF的调参注 ...
scikit-learn 梯度提升树(GBDT)调参小结
在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点. 1. scikit-learn ...
word2vec参数调整及lda调参
一.word2vec调参 ./word2vec -train resultbig.txt -output vectors.bin -cbow 0 -size 200 -window 5 -neg ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
基于pytorch的CNN、LSTM神经网络模型调参小结
(Demo) 这是最近两个月来的一个小总结,实现的demo已经上传github,里面包含了CNN.LSTM.BiLSTM.GRU以及CNN与LSTM.BiLSTM的结合还有多层多通道CNN.LSTM. ...
漫谈PID——实现与调参
闲话: 作为一个控制专业的学生,说起PID,真是让我又爱又恨.甚至有时候会觉得我可能这辈子都学不会pid了,但是经过一段时间的反复琢磨,pid也不是很复杂.所以在看懂pid的基础上,写下这篇文章,方便 ...
hyperopt自动调参
hyperopt自动调参在传统机器学习和深度学习领域经常需要调参,调参有些是通过通过对数据和算法的理解进行的,这当然是上上策,但还有相当一部分属于"黑盒" hyperopt可以帮 ...

随机推荐

virsh命令管理虚拟机
virsh命令管理虚拟机 libvirt有两种控制方式,命令行和图形界面. 1.图形界面:通过执行名virt-manager,启动libvirt的图形界面,在图形界面下可以一步一步的创建虚拟机,管理虚 ...
【Set Matrix Zeros】cpp
题目: Given a m x n matrix, if an element is 0, set its entire row and column to 0. Do it in place. cl ...
MFC深入浅出读书笔记第二部分1
第六章 MFC程序的生死因果 MFC学习过程,这个方法不错,条例清晰. 1.CWinApp -- 取代WinMain地位 WinMain函数的功能由CWinApp的三个函数实现 virtual BO ...
Atom-无懈可击的Markdown编辑器
备战美赛期间,向岳神学习,搞了Atom玩协作开发,第一次没有自动补全的手撸了遗传算法.今天发现Atom还有写Markdown的妙用,遂拿来练手. 1. 安装Atom 下载安装Atom:https:// ...
[超级基础]Web安全之SQL注入由浅入深（?）
前言断断续续看Web安全到现在了,感觉对很多基础知识还是一知半解,停留在模糊的层次.所以准备系统总结一下. Sql注入我以前一直不以为然,一是现在能sql的站确实很少,二是有像sqlmap的工具可以 ...
Leetcode 581.最短无序连续子数组
最短无序连续子数组给定一个整数数组,你需要寻找一个连续的子数组,如果对这个子数组进行升序排序,那么整个数组都会变为升序排序. 你找到的子数组应是最短的,请输出它的长度. 示例 1: 输入: [2, ...
【Part1】用JS写一个Blog（node + vue + mongoDB）
学习JS也有一段时间了,准备试着写一个博客项目,前后端分离开发,后端用node只提供数据接口,前端用vue-cli脚手架搭建,路由也由前端控制,数据异步交互用vue的一个插件vue-resourse来 ...
algorithm 头文件
非修改性序列操作(12个) 循环对序列中的每个元素执行某操作 for_each() 查找在序列中找出某个值的第一次出现的位置 find() 在序列中找出符合某谓词的第一个元素 find_if() ...
java主要集合类的数据结构学习
http://www.cnblogs.com/beanmoon/archive/2012/11/22/2782442.html 在程序中,集合类每天都在使用,以致于某些代码充斥着List和Map,一直 ...
【Luogu】P2469星际竞速（费用流）
题目链接费用流,类似最小路径覆盖. 从起点向i连一条容量1费用0的边,从i'向终点连一条容量1费用0的边: 从起点向i'连一条容量1费用为瞬移的边,从i向j'连一条容量1费用为边权的边. 然后跑就可 ...

调参tips

调参tips的更多相关文章

随机推荐

热门专题