调参tips

对于一个模型，都可以从以下几个方面进行调参：

1. 对weight和bias进行初始化（效果很好，一般都可以提升1-2%）

Point 1 (CNN):

 for conv in self.convs1:

    init.xavier_normal(conv.weight, gain=np.sqrt(2.0))　　# 对weight进行正态分布初始化

    # init.normal(conv.weight, mean=0, std=0.1)

    # init.constant(conv.bias, 0.1)　　　　　　　　　　　　　　# 对bias初始化为0.1

Point 2 (LSTM):

（1）Bias vectors are initialized to zero, except the bias b f for the forget gate in LSTM , which is initialized to 1.0 .(参见论文End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF)。weight 使用高斯分布或是均匀分布都可以。详细讲解参考博文Deep Learning 之参数初始化

（2）简单的设置就是，weight设为0.1，bias设为0。

         init.xavier_normal(self.lstm.all_weights[0][0], gain=np.sqrt(2.0))

         self.lstm.all_weights[0][3].data[20:40].fill_(1)    # forget gate

         self.lstm.all_weights[0][3].data[0:20].fill_(0)

         self.lstm.all_weights[0][3].data[40:80].fill_(0)

注：对于封装好的lstm，其提供了all_weights接口统一对其参数进行初始化，不能单个定义，forget gate对应的下标是20-39。若是使用lstmcell则可以对单个想要修改的参数进行修改。

2. clip gradients让权重的梯度更新限制在一定范围内，防止单个节点出现梯度爆炸、梯度消失。

 optimizer.zero_grad()

 logit = model(feature)

 loss = F.cross_entropy(logit, target)

 loss.backward()

 # clip gradients

 utils.clip_grad_norm(model.parameters(), 5)

 optimizer.step()

3. L2 regularization

L2值也叫惩罚值，是为了防止过拟合问题。提供了接口可直接设值，一般设为1e-8。

 optimizer = torch.optim.Adam(model.parameters(), lr=args.lr, weight_decay=0.01)

4. batch normalization批标准化若设置正确，据说会大大加大迭代速度，效果明显。

若是BatchNorm2d(x)，input是（batchsize，channel，height，width），x值对应channel，即维度1。所以channel=0时，求一次mean，var，做一次normalize；channel=1时，求一次.......channel=x时，求一次。BatchNorm1d时情况也是一样的，x对应的是维度1的值，若是不对应，则需要进行转置，如下示例。

 m = nn.BatchNorm1d(2)

 input = torch.randn(2, 10)

 input = Variable(input)

 input = Variable(torch.transpose(input.data, 0, 1))

 print(input)

 output = m(input)

 print(output)

Point 1 (CNN):

     def __init__(self, args):

         super(CNN, self).__init__()

         self.bn = nn.BatchNorm2d(1)

     def forward(self, x):

             for conv in self.convs1:

             xx = conv(x)                        # variable [torch.FloatTensor of size 16x200x35x1]

             xx = Variable(torch.transpose(xx.data, 2, 3))

             xx = Variable(torch.transpose(xx.data, 1, 2))

             xx = self.bn(xx)

             xx = F.relu(xx)

             xx = xx.squeeze(1)

             a.append(xx)

Point 2 (LSTM):

 class BiLSTM(nn.Module):

     def __init__(self, args):

         super(BiLSTM, self).__init__()

         self.bn1 = nn.BatchNorm1d(2*self.hidden_size) 

 　　def forward(self, sentence):

         out = self.bn1(out)

         out = F.tanh(out)

         y = self.hidden2label(out)

结果：以上两种设置并没有提高准确率。

Point 3 (BN-LSTM):

参看论文RECURRENT BATCH NORMALIZATION，不使用pytorch框架，自己实现。

调参tips的更多相关文章

01.CNN调参
转载:调参是个头疼的事情,Yann LeCun.Yoshua Bengio和Geoffrey Hinton这些大牛为什么能够跳出各种牛逼的网络? 下面一些推荐的书和文章:调参资料总结Neural Ne ...
【Python机器学习实战】决策树与集成学习（七）——集成学习（5）XGBoost实例及调参
上一节对XGBoost算法的原理和过程进行了描述,XGBoost在算法优化方面主要在原损失函数中加入了正则项,同时将损失函数的二阶泰勒展开近似展开代替残差(事实上在GBDT中叶子结点的最优值求解也是使 ...
scikit-learn随机森林调参小结
在Bagging与随机森林算法原理小结中,我们对随机森林(Random Forest, 以下简称RF)的原理做了总结.本文就从实践的角度对RF做一个总结.重点讲述scikit-learn中RF的调参注 ...
scikit-learn 梯度提升树(GBDT)调参小结
在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点. 1. scikit-learn ...
word2vec参数调整及lda调参
一.word2vec调参 ./word2vec -train resultbig.txt -output vectors.bin -cbow 0 -size 200 -window 5 -neg ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
基于pytorch的CNN、LSTM神经网络模型调参小结
(Demo) 这是最近两个月来的一个小总结,实现的demo已经上传github,里面包含了CNN.LSTM.BiLSTM.GRU以及CNN与LSTM.BiLSTM的结合还有多层多通道CNN.LSTM. ...
漫谈PID——实现与调参
闲话: 作为一个控制专业的学生,说起PID,真是让我又爱又恨.甚至有时候会觉得我可能这辈子都学不会pid了,但是经过一段时间的反复琢磨,pid也不是很复杂.所以在看懂pid的基础上,写下这篇文章,方便 ...
hyperopt自动调参
hyperopt自动调参在传统机器学习和深度学习领域经常需要调参,调参有些是通过通过对数据和算法的理解进行的,这当然是上上策,但还有相当一部分属于"黑盒" hyperopt可以帮 ...

随机推荐

netcfg.exe
netcfg.exe 编辑本词条缺少信息栏.名片图,补充相关内容使词条更完整,还能快速升级,赶紧来编辑吧! 目录 1 简介 2 可能出现问题简介编辑 netcfg.exe是Kaspersky的 ...
39、apk瘦身（转载）
本文转自::Android开发中文站 » 关于APK瘦身值得分享的一些经验从APK的文件结构说起 APK在安装和更新之前都需要经过网络将其下载到手机,如果APK越大消耗的流量就会越多,特别是对于使用 ...
Leetcode 581.最短无序连续子数组
最短无序连续子数组给定一个整数数组,你需要寻找一个连续的子数组,如果对这个子数组进行升序排序,那么整个数组都会变为升序排序. 你找到的子数组应是最短的,请输出它的长度. 示例 1: 输入: [2, ...
docker exec小脚本
经常要使用docker exec -it containerID bash 进入docker内部进行一些操作,干脆把它写成shell脚本节省时间. # 查看需要操作的容器id $ docker ps ...
selenium webdriver——控制浏览器
from selenium import webdriver import time def controlBrowser(): #启动浏览器 driver = webdriver.Firefox() ...
LINUX SHELL脚本攻略笔记[速查]
Linux Shell脚本攻略笔记[速查] 资源 shell script run shell script echo printf 环境变量和变量 pgrep shell数学运算命令状态文件描述 ...
【Luogu】P2403所驼门王的宝藏（强连通分量）
题目链接想到缩点后DP这题就迷之好做横天门就点向该行连一条边纵门就点向该列连一条边 ziyou门直接枚举……map搞搞……话说ziyou门为啥是违规内容不让我发布? 然后缩点,DP,1A 不过写 ...
react history模式下的白屏问题
近期,再用react的时候,由于不想用丑陋的hash,便将路由模式切换成history了,结果带来了一些问题,比如刷新白屏,还有图片加载不出来,这里我们说一下解决方案. 原因首先,我们说一下造成这一 ...
pat 甲级 Cars on Campus (30)
Cars on Campus (30) 时间限制 1000 ms 内存限制 65536 KB 代码长度限制 100 KB 判断程序 Standard 题目描述 Zhejiang University ...
Memcache缓存用好了，性能有了很大的提高
web服务器1 web服务器2 web服务器3如果每台web服务器都向mysql服务器表插入信息并且要做出相应最新编号反馈出现这样的高并发时候怎么减少服务器压力,同时用户体验还要好可以使用Memca ...

调参tips

调参tips的更多相关文章

随机推荐

热门专题