Task5.PyTorch实现L1，L2正则化以及Dropout

1.了解知道Dropout原理　　

　　深度学习网路中，参数多，可能出现过拟合及费时问题。为了解决这一问题，通过实验，在2012年，Hinton在其论文《Improving neural networks by preventing co-adaptation of feature detectors》中提出Dropout。证明了其能有效解决过拟合的能力。

dropout 是指在深度学习网络的训练过程中，按照一定的概率将一部分神经网络单元暂时从网络中丢弃，相当于从原始的网络中找到一个更瘦的网络示意图如下：

　　其实现是以某种概率分布使得一些神经元为0，一些为1.这样在有N个神经元的神经网络中，其参数搭配可能有2^N种。
具体介绍见论文（我也不是很懂实现得见）
适用情况：
1 Dropout主要用在数据量不够，容易过拟合，需要dropout。

L1及L2可以使得结构化风险最小
其中：
L1的参数具有稀疏性（具有更多的0或1）
L2的参数趋近于分散化，其参数值趋向于选择更简单（趋于0的参数），因此比较平滑

2.用代码实现正则化(L1、L2、Dropout）

L1范数

　　L1范数是参数矩阵W中元素的绝对值之和，L1范数相对于L0范数不同点在于，L0范数求解是NP问题，而L1范数是L0范数的最优凸近似，求解较为容易。L1常被称为LASSO.

 regularization_loss = 0

 for param in model.parameters():

     regularization_loss += torch.sum(abs(param))

 for epoch in range(EPOCHS):

     y_pred = model(x_train)

     classify_loss = criterion(y_pred, y_train.float().view(-1, 1))

     loss = classify_loss + 0.001 * regularization_loss  # 引入L1正则化项

L2范数

　　L2范数是参数矩阵W中元素的平方之和，这使得参数矩阵中的元素更稀疏，与前两个范数不同的是，它不会让参数变为0，而是使得参数大部分都接近于0。L1追求稀疏化，从而丢弃了一部分特征（参数为0），而L2范数只是使参数尽可能为0，保留了特征。L2被称为Rigde.

 criterion  = torch.nn.BCELoss() #定义损失函数

 optimizer = torch.optim.SGD(model.parameters(),lr = 0.01, momentum=0, dampening=0,weight_decay=0) #weight_decay 表示使用L2正则化

3.Dropout的numpy实现

 import numpy as np

 X = np.array([ [0,0,1],[0,1,1],[1,0,1],[1,1,1] ])

 y = np.array([[0,1,1,0]]).T

 alpha,hidden_dim,dropout_percent,do_dropout = (0.5,4,0.2,True)

 synapse_0 = 2*np.random.random((3,hidden_dim)) - 1

 synapse_1 = 2*np.random.random((hidden_dim,1)) - 1

 for j in xrange(60000):

     layer_1 = (1/(1+np.exp(-(np.dot(X,synapse_0)))))

     if(do_dropout):

         layer_1 *= np.random.binomial([np.ones((len(X),hidden_dim))],1-dropout_percent)[0] * (1.0/(1-dropout_percent))

     layer_2 = 1/(1+np.exp(-(np.dot(layer_1,synapse_1))))

     layer_2_delta = (layer_2 - y)*(layer_2*(1-layer_2))

     layer_1_delta = layer_2_delta.dot(synapse_1.T) * (layer_1 * (1-layer_1))

     synapse_1 -= (alpha * layer_1.T.dot(layer_2_delta))

     synapse_0 -= (alpha * X.T.dot(layer_1_delta))

4.完整代码

 import torch

 from torch import nn

 from torch.autograd import Variable

 import torch.nn.functional as F

 import torch.nn.init as init

 import math

 from sklearn import datasets

 from sklearn.model_selection import train_test_split

 from sklearn.metrics import classification_report

 import numpy as np

 import pandas as pd

 %matplotlib inline

 # 导入数据

 data = pd.read_csv(r'C:\Users\betty\Desktop\pytorch学习\data.txt')

 x, y = data.ix[:,:8],data.ix[:,-1]

 #测试集为30%，训练集为80%

 x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0)

 x_train = Variable(torch.from_numpy(np.array(x_train)).float())

 y_train = Variable(torch.from_numpy(np.array(y_train).reshape(-1, 1)).float())    

 x_test = Variable(torch.from_numpy(np.array(x_test)).float())

 y_test= Variable(torch.from_numpy(np.array(y_test).reshape(-1,1)).float())    

 print(x_train.data.shape)

 print(y_train.data.shape)

 print(x_test.data.shape)

 print(y_test.data.shape)

 class Model(torch.nn.Module):

     def __init__(self):

         super(Model, self).__init__()

         self.l1 = torch.nn.Linear(8, 200)

         self.l2 = torch.nn.Linear(200, 50)

         self.l3 = torch.nn.Linear(50, 1)

     def forward(self, x):

         out1 = F.relu(self.l1(x))

         out2 = F.dropout(out1, p= 0.5)

         out3 = F.relu(self.l2(out2))

         out4 = F.dropout(out3, p=0.5)

         y_pred = F.sigmoid(self.l3(out3))

         return y_pred

 model = Model()

 criterion = torch.nn.BCELoss()

 optimizer = torch.optim.Adam(model.parameters(), lr=0.001, weight_decay=0.1)

 Loss=[]

 for epoch in range(2000):

         y_pred = model(x_train)

         loss = criterion(y_pred, y_train)

         if epoch % 400 == 0:

             print("epoch =", epoch, "loss", loss.item())

             Loss.append(loss.item())

         optimizer.zero_grad()

         loss.backward()

         optimizer.step()

 # 模型评估

 def label_flag(data):

     for i in range(len(data)):

         if(data[i]>0.5):

             data[i] = 1.0

         else:

             data[i] = 0.0

     return data

 y_pred = label_flag(y_pred)

 print(classification_report(y_train.detach().numpy(), y_pred.detach().numpy()))

 # 测试

 y_test_pred = model(x_test)

 y_test_pred = label_flag(y_test_pred)

 print(classification_report(y_test.detach().numpy(), y_test_pred.detach().numpy()))

数据集下载链接：链接：https://pan.baidu.com/s/1LrJktjVQ1OM9mYt_cuE-FQ
提取码：hatv

原文链接：https://blog.csdn.net/wehung/article/details/89283583

Task5.PyTorch实现L1，L2正则化以及Dropout的更多相关文章

防止过拟合：L1/L2正则化
正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合).其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在tr ...
ML-线性模型泛化优化之 L1 L2 正则化
认识 L1, L2 从效果上来看, 正则化通过, 对ML的算法的任意修改, 达到减少泛化错误, 但不减少训练误差的方式的统称训练误差这个就损失函数什么的, 很好理解. 泛化错误假设我们知道预 ...
机器学习中L1,L2正则化项
搞过机器学习的同学都知道,L1正则就是绝对值的方式,而L2正则是平方和的形式.L1能产生稀疏的特征,这对大规模的机器学习灰常灰常重要.但是L1的求解过程,实在是太过蛋疼.所以即使L1能产生稀疏特征,不 ...
L0,L1,L2正则化浅析
在机器学习的概念中,我们经常听到L0,L1,L2正则化,本文对这几种正则化做简单总结. 1.概念 L0正则化的值是模型参数中非零参数的个数. L1正则化表示各个参数绝对值之和. L2正则化标识各个参数 ...
L1,L2正则化代码
# L1正则 import numpy as np from sklearn.linear_model import Lasso from sklearn.linear_model import SG ...
L1和L2正则化（转载）
[深度学习]L1正则化和L2正则化在机器学习中,我们非常关心模型的预测能力,即模型在新数据上的表现,而不希望过拟合现象的的发生,我们通常使用正则化(regularization)技术来防止过拟合情况 ...
TensorFlow之DNN（三）：神经网络的正则化方法(Dropout、L2正则化、早停和数据增强)
这一篇博客整理用TensorFlow实现神经网络正则化的内容. 深层神经网络往往具有数十万乃至数百万的参数,可以进行非常复杂的特征变换,具有强大的学习能力,因此容易在训练集上过拟合.缓解神经网络的过拟 ...
机器学习之正则化【L1 & L2】
前言 L1.L2在机器学习方向有两种含义:一是L1范数.L2范数的损失函数,二是L1.L2正则化 L1范数.L2范数损失函数 L1范数损失函数: L2范数损失函数: L1.L2分别对应损失函数中的绝对 ...
机器学习中的L1、L2正则化
目录 1. 什么是正则化?正则化有什么作用? 1.1 什么是正则化? 1.2 正则化有什么作用? 2. L1,L2正则化? 2.1 L1.L2范数 2.2 监督学习中的L1.L2正则化 3. L1.L ...

随机推荐

系统分析与设计HW7
XX 建模练习要求: 练习文档编写选择一个你喜欢的移动App 或其中某业务参考 Asg_RH 文档格式编写软件描述文档要包含一个业务的完整过程建模要求包括(用例图.XX业务或用例的活动 ...
一个很有意思的小游戏：Dig2China
最近通关了一个小游戏,游戏故事是这样的:一个美国小男孩想要去中国,他决定从自家后院往下挖,横穿地心去中国,期间经历了很多次失败.但是,每次尝试都能收获一批钱,用这些钱升级钻地机,调整自己的工具,终于在 ...
Linux下安装Elasticsearch6.5
1.安装JDK8(Elastic 需要 Java 8 环境) 1)下载jdk8文件:http://www.oracle.com/technetwork/java/javase/downloads/jd ...
【HBase】四、HBase的安装及命令行接口
通过前面的介绍,对HBase数据模型,运行机制等理论基本了解,接下来从实践的角度介绍HBase的安装以及其各种接口的使用方法. 1.HBase的安装 HBase安装很简单,和所有的Hadoop ...
win10安装Tensorflow1.9GPU版本
前言看到DateWhale出了一篇安装教程(微信公众号DateWhale),决定体验一下Tensorflow1.9的GPU版本..其实一开始装的是2.0,但是tf.Session()就报错了,说是2 ...
unsigned char bcd串乱码问题解决
unsigned char bcd[13]; ...... string bcdstr; for(int i=0;i < 12;i++) { bcdstr=FormatString(" ...
Java - Java Mail邮件开发（2）springboot +Java Mail + Html
1.springboot + Java Mail + Html 项目结构: pom.xml <project xmlns="http://maven.apache.org/POM/4. ...
SQL如何通过当前日期获取上周一日期【转】
--当前时间 select getdate() --当前时间周的起始日期(以周一为例) ,) --上周起始: ,,)) --上上周起始: ,,)) --上上上周起始:s elect ,,))
SQL Server之索引解析（二）
1.堆表堆表通过IAM连接一起,查询时全表扫描. 1.1 非聚集索引结构叶子节点数据结构:行数据结构+Rid(8字节) 中间节点数据结构: (非聚集非唯一索引)行数据结构+Page(4)+2+ ...
运用swagger编写api文档
一.什么是swagger 随着互联网技术的发展,前后端技术在各自的道路上越走越远,他们之间的唯一联系变成了api接口,api接口文档编程了前后端人员的纽带,而swagger就是书写api文档的一款框架 ...

Task5.PyTorch实现L1，L2正则化以及Dropout

Task5.PyTorch实现L1，L2正则化以及Dropout的更多相关文章

随机推荐

热门专题