什么是过拟合 (Overfitting)

莫烦讲的非常通俗易懂可以看看https://mofanpy.com/tutorials/machine-learning/tensorflow/intro-overfitting/

我理解就是模型训练的过于敏感，他不能成功的表达除了训练数据以外的其他数据。这就叫做过拟合。

解决方法

方法一：增加数据量，大部分过拟合产生的原因是因为数据量太少。如果我们有成千上万的数据，在整体大量数据影响下，会变得没那么扭曲。

方法二：利用正规化regularization，简化机器学习的关键公式为 y=Wx 。W为机器需要学习到的各种参数。在过拟合中，W 的值往往变化得特别大或特别小。为了不让W变化太大, 我们在计算误差上做些手脚。原始的 cost 误差是这样计算，cost = 预测值-真实值的平方。如果 W 变得太大，我们就让 cost 也跟着变大，变成一种惩罚机制。所以我们把 W 自己考虑进来。

L1正规化，这里 abs 是绝对值。L1：cost=(Wx-real y)^2 + abs(W)

L2 正规化和 L1 类似，只是绝对值换成了平方。L2：cost=(Wx-real y)^2 + (W)^2

其他的L3，L4 也都是换成了立方和4次方等等。形式类似，用这些方法，我们就能保证让学出来的线条不会过于扭曲。

方法三：（ dropout）专门用在神经网络的正规化的方法。随机忽略一些神经元，让网络不再完整，这样每次训练的时候就不会过分依赖某些神经元，从而避免过拟合。

Dropout 解决 overfitting

原文章https://mofanpy.com/tutorials/machine-learning/tensorflow/dropout/

TensorFlow提供了强大的dropout方法来解决overfitting问题。

这里的keep_prob是保留概率，即我们要保留的结果所占比例，在run时传入， 当keep_prob=1的时候，相当于100%保留，也就是dropout没有起作用。

sess.run(train_step,feed_dict={xs: X_train, ys: y_train, keep_prob: 1})

当keep_prob=0.5时候，就是随机消除一般的神经元。

sess.run(train_step,feed_dict={xs: X_train, ys: y_train, keep_prob: 0.5})

# https://mofanpy.com/tutorials/machine-learning/tensorflow/dropout/

import tensorflow as tf

from sklearn.datasets import load_digits

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import LabelBinarizer

# load data

digits = load_digits()

X = digits.data

y = digits.target

y = LabelBinarizer().fit_transform(y)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3)

# 为网络输入定义占位符

# 这里的keep_prob是保留概率，即我们要保留的结果所占比例，它作为一个placeholder，

# 在run时传入， 当keep_prob=1的时候，相当于100%保留，也就是dropout没有起作用。

keep_prob = tf.placeholder(tf.float32)

xs = tf.placeholder(tf.float32, [None, 64])  # 8x8

ys = tf.placeholder(tf.float32, [None, 10])

def add_layer(inputs, in_size, out_size, layer_name, activation_function=None): # 定义添加神经层的函数def add_layer(),它有四个参数：输入值、输入的大小、输出的大小和激励函数，我们设定默认的激励函数是None。

    Weights = tf.Variable(tf.random_normal([in_size,out_size]))

    biases = tf.Variable(tf.zeros([1,out_size])+ 0.1)  #机器学习中推荐biases不为0，所以加个0.1

    #定义Wx_plus_b, 即神经网络未激活的值。其中，tf.matmul()是矩阵的乘法。

    Wx_plus_b = tf.matmul(inputs, Weights) + biases

    #当activation_function——激励函数为None时，输出就是当前的预测值——Wx_plus_b，不为None时，就把Wx_plus_b传到activation_function()函数中得到输出。

    if activation_function is None:

        outputs = Wx_plus_b

    else:

        outputs = activation_function(Wx_plus_b)

        tf.summary.histogram(layer_name + '/outputs', outputs)

    return outputs

# add output layer

l1 = add_layer(xs, 64, 50, 'l1', activation_function=tf.nn.tanh)

prediction = add_layer(l1, 50, 10, 'l2', activation_function=tf.nn.softmax)

# the loss between prediction and real data

# loss函数（即最优化目标函数）选用交叉熵函数。交叉熵用来衡量预测值和真实值的相似程度，如果完全相同，它们的交叉熵等于零。

cross_entropy = tf.reduce_mean(-tf.reduce_sum(ys * tf.log(prediction),

                                              reduction_indices=[1]))  # loss

tf.summary.scalar('loss', cross_entropy)

# 训练步骤

train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)

#初始化变量

init = tf.global_variables_initializer()

#上面所有的都还没有运行

sess = tf.Session()

merged = tf.summary.merge_all()

# summary writer goes in here

train_writer = tf.summary.FileWriter("logs/train", sess.graph)

test_writer = tf.summary.FileWriter("logs/test", sess.graph)

sess.run(init) #这里运行了init

for i in range(500):

    sess.run(train_step,feed_dict={xs: X_train, ys: y_train, keep_prob: 0.5})

    if i%50==0:

        train_result = sess.run(merged, feed_dict={xs: X_train, ys: y_train, keep_prob: 1})

        test_result = sess.run(merged, feed_dict={xs: X_test, ys: y_test, keep_prob: 1})

        train_writer.add_summary(train_result, i)

        test_writer.add_summary(test_result, i)

莫烦tensorflow学习记录（5）什么是过拟合 (Overfitting)的更多相关文章

莫烦theano学习自修第九天【过拟合问题与正规化】
如下图所示(回归的过拟合问题):如果机器学习得到的回归为下图中的直线则是比较好的结果,但是如果进一步控制减少误差,导致机器学习到了下图中的曲线,则100%正确的学习了训练数据,看似较好,但是如果换成另 ...
莫烦sklearn学习自修第九天【过拟合问题处理】
1. 过拟合问题可以通过调整机器学习的参数来完成,比如sklearn中通过调节gamma参数,将训练损失和测试损失降到最低 2. 代码实现(显示gamma参数对训练损失和测试损失的影响) from _ ...
莫烦sklearn学习自修第八天【过拟合问题】
1. 什么是过拟合问题所谓过拟合问题指的是使用训练样本进行训练时100%正确分类或规划,当使用测试样本时则不能正确分类和规划 2. 代码实战(模拟过拟合问题) from __future__ imp ...
莫烦pytorch学习笔记（七）——Optimizer优化器
各种优化器的比较莫烦的对各种优化通俗理解的视频 import torch import torch.utils.data as Data import torch.nn.functional as ...
莫烦pytorch学习笔记（八）——卷积神经网络（手写数字识别实现）
莫烦视频网址这个代码实现了预测和可视化 import os # third-party library import torch import torch.nn as nn import torch ...
莫烦PyTorch学习笔记(五)——模型的存取
import torch from torch.autograd import Variable import matplotlib.pyplot as plt torch.manual_seed() ...
TensorFlow学习---tf.nn.dropout防止过拟合
一. Dropout原理简述: tf.nn.dropout是TensorFlow里面为了防止或减轻过拟合而使用的函数,它一般用在全连接层. Dropout就是在不同的训练过程中随机扔掉一部分神经元.也 ...
【tensorflow】tensorflow学习记录——安装、第一个程序篇
机器学习,人工智能往后肯定是一个趋势,现阶段有必要研究一两个人工智能的工具,以免自己技术落伍,其中tensorflow就是一个很不错的项目,有谷歌开发后开源,下面开始学习安装和使用安装篇: 很不幸, ...
TensorFlow学习记录（一）
windows下的安装: 首先访问https://storage.googleapis.com/tensorflow/ 找到对应操作系统下,对应python版本,对应python位数的whl,下载. ...
莫烦scikit-learn学习自修第四天【内置训练数据集】
1. 代码实战 #!/usr/bin/env python #!_*_ coding:UTF-8 _*_ from sklearn import datasets from sklearn.linea ...

随机推荐

SpringCloud整体架构概览
什么是SpringCloud #目标协调任何服务,简化分布式系统开发. #简介构建分布式系统不应该是复杂的,SpringCloud对常见的分布式系统模式提供了简单易用的编程模型,帮助开发者构建弹性 ...
WPF随笔收录-DataGrid固定右侧列
一.前言在项目开发过程中,DataGrid是经常使用到的一个数据展示控件,而通常表格的最后一列是作为操作列存在,比如会有编辑.删除等功能按钮.但WPF的原始DataGrid中,默认只支持固定左侧列, ...
最简编译CockroachDB 21.2
编译CockroachDB比较麻烦,尤其是从git下载代码编译还需要关联项目的下载,本文整理从官网下载代码的编译过程,非常简单,几乎没有异常,供大家参考. 编译CockroachDB 21.2 1.安 ...
【NOIP2013模拟联考8】匹配(match) 题解
B 组都说看不懂--我也解释不清啊--只能写这么详细了其实就是道板题省流:f[i][s][j]表示字符串长度i,匹配情况s,ac自动机节点j Problem Description 给定k个字符串 ...
JVM简明笔记3：类加载机制
1 类的加载类的加载指的是将类的 .class 文件中的二进制数据读入到内存中,将其放在运行时数据区的方法区内,然后在堆区创建一个 java.lang.Class 对象,用来封装类在方法区内的数据结 ...
Oracle使用存储过程实现多行对同行数据排列组合
Oracle使用存储过程实现同行数据排列组合对多行的同一行的多列数据进行排列组合假设获取的原来的数据如下表 A B C D aa ab ac ad 现在我们需要对数据进行处理,将每一行的数据,类似 ...
【笔记】Oracle使用笔记 0-sql injection&&&result of string concatenation is too long
报错:数据库操作错误."27,34006/v1:0-sql injection(SQL注入) 出现这个报错的情况背景是使用后端函数进行前端SQL语句组合进行数据插入的时候的提示不太清楚是因 ...
十年再出发，Dubbo 3.0 Preview 即将在 3 月发布
简介:随着Dubbo和HSF的整合,我们在整个开源的体系中更多地去展现了 HSF 的能力,能够让更多的人通过使用 Dubbo 像阿里巴巴之前使用 HSF 一样更好的构建服务化的系统. 2011 年, ...
如何进行基于Anolis OS的企业级Java应用规模化实践？｜龙蜥技术
简介:提供了7×24小时的专属钉钉或者电话支持,响应时间保证到在业务不可用情况下10分钟响应,业务一般的问题在一小时可以获得响应,主要城市可以两小时内得到到达现场的服务. 本文作者郁磊,是Java语 ...
解读如何安全快速建立IT治理环境
简介:云计算经过十多年的发展,从基础的IAAS,大数据,到各种的PaaS有丰富的产品和生态,非常有效地助力了业务增长和技术创新,并提高了业务的效率.最直观的感受是过去需要几天到一个月的资源交付,现在 ...

莫烦tensorflow学习记录 （5）什么是过拟合 (Overfitting)

什么是过拟合 (Overfitting)

解决方法

Dropout 解决 overfitting

莫烦tensorflow学习记录 （5）什么是过拟合 (Overfitting)的更多相关文章

随机推荐

热门专题

莫烦tensorflow学习记录（5）什么是过拟合 (Overfitting)

莫烦tensorflow学习记录（5）什么是过拟合 (Overfitting)的更多相关文章