UDA机器学习基础—误差原因

1.模型误差产生的原因

（1）模型无法表示基本数据的复杂度，而造成偏差。

（2）因模型对训练它所用到的数据过度敏感造成的方差。

2.由偏差造成的误差——准确率和欠拟合

有足够数据表示模型，但是由于模型不够复杂，不能捕捉基本关系，因而造成误差。

这样一来模型会系统的错误表示数据，从而导致准确率降低，这种现象叫做欠拟合。

简单说来就是模型不合适就会造成偏差。

3.方差造成的误差——精度和过拟合

在训练模型时，通常使用较大量数据的有限数据集，如果选择随机选择的数据子集不断对模型进行训练，可以预料它的预测结果会因提供给它的不同训练子集而不同。方差是用来衡量预测结果和所给的测试样本之间的差距。出现方差是正常的，但是方差过高说明该模型无法将预测结果泛化到更多数据。对训练集过渡敏感，称之为过拟合。高方差会导致训练集上效果很好，测试集上效果很差。

通常可以用更多数据来训练降低模型预测的方差，提高模型预测的准确率。如果没有很多数据，可以降低模型的复杂度来减小方差。

# In this exercise we'll examine a learner which has high variance, and tries to learn

# nonexistant patterns in the data.

# Use the learning curve function from sklearn.learning_curve to plot learning curves

# of both training and testing error.

# CODE YOU HAVE TO TYPE IN IS IN LINE 35

from sklearn.tree import DecisionTreeRegressor

import matplotlib.pyplot as plt

# PLEASE NOTE:

# In sklearn 0.18, the import would be from sklearn.model_selection import learning_curve

from sklearn.learning_curve import learning_curve # sklearn version 0.17

from sklearn.cross_validation import KFold

from sklearn.metrics import explained_variance_score, make_scorer

import numpy as np

# Set the learning curve parameters; you'll need this for learning_curves

size = 1000

cv = KFold(size,shuffle=True)

score = make_scorer(explained_variance_score)

# Create a series of data that forces a learner to have high variance

X = np.round(np.reshape(np.random.normal(scale=5,size=2*size),(-1,2)),2)

y = np.array([[np.sin(x[0]+np.sin(x[1]))] for x in X])

def plot_curve():

    # Defining our regression algorithm

    reg = DecisionTreeRegressor()

    # Fit our model using X and y

    reg.fit(X,y)

    print "Regressor score: {:.4f}".format(reg.score(X,y))

    # TODO: Use learning_curve imported above to create learning curves for both the

    #       training data and testing data. You'll need reg, X, y, cv and score from above.

    train_sizes, train_scores, test_scores = learning_curve(reg,X,y,cv=cv,scoring=score)

    # Taking the mean of the test and training scores

    train_scores_mean = np.mean(train_scores,axis=1)

    test_scores_mean = np.mean(test_scores,axis=1)

    # Plotting the training curves and the testing curves using train_scores_mean and test_scores_mean

    plt.plot(train_sizes ,train_scores_mean,'-o',color='b',label="train_scores_mean")

    plt.plot(train_sizes,test_scores_mean ,'-o',color='r',label="test_scores_mean")

    # Plot aesthetics

    plt.ylim(-0.1, 1.1)

    plt.ylabel("Curve Score")

    plt.xlabel("Training Points")

    plt.legend(bbox_to_anchor=(1.1, 1.1))

    plt.show()

UDA机器学习基础—误差原因的更多相关文章

UDA机器学习基础—评估指标
这里举例说明混淆矩阵精确率召回率 F1
UDA机器学习基础—交叉验证
交叉验证的目的是为了有在训练集中有更多的数据点,以获得最佳的学习效果,同时也希望有跟多的测试集数据来获得最佳验证.交叉验证的要点是将训练数据平分到k个容器中,在k折交叉验证中,将运行k次单独的试验,每 ...
UDA机器学习基础—异常值-安然数据处理
#!/usr/bin/python import pickle import sys import matplotlib.pyplot sys.path.append("../tools/& ...
Coursera 机器学习课程机器学习基础：案例研究证书
完成了课程1 机器学习基础:案例研究贴个证书,继续努力完成后续的课程:
Coursera台大机器学习基础课程1
Coursera台大机器学习基础课程学习笔记 -- 1 最近在跟台大的这个课程,觉得不错,想把学习笔记发出来跟大家分享下,有错误希望大家指正. 一机器学习是什么? 感觉和 Tom M. Mitche ...
机器学习 —— 基础整理（六）线性判别函数：感知器、松弛算法、Ho-Kashyap算法
这篇总结继续复习分类问题.本文简单整理了以下内容: (一)线性判别函数与广义线性判别函数 (二)感知器 (三)松弛算法 (四)Ho-Kashyap算法闲话:本篇是本系列［机器学习基础整理］在time ...
算法工程师<机器学习基础>
<机器学习基础> 逻辑回归,SVM,决策树 1.逻辑回归和SVM的区别是什么?各适用于解决什么问题? https://www.zhihu.com/question/24904422 2.L ...
数据分析之Matplotlib和机器学习基础
一.Matplotlib基础知识 Matplotlib 是一个 Python 的 2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形. 通过 Matplotlib,开发者可以仅需 ...
【dlbook】机器学习基础
[机器学习基础] 模型的 vc dimension 如何衡量? 如何根据网络结构衡量模型容量?有效容量和模型容量之间的关系? 统计学习理论中边界不用于深度学习之中,原因? 1.边界通常比较松, 2.深 ...

随机推荐

CISCO路由器练习
前言: 总结了昨天的学习和今天的单臂路由写了今天的文章. 目录: 路由器的基本配置单臂路由的练习正文: 路由器基本配置环境要求 cisco模拟器 2台交换机 2台PC 1台路由器路由器介绍: ...
不高兴的小名 nyoj
不高兴的小明时间限制:3000 ms | 内存限制:65535 KB 难度:1 描述小明又出问题了.妈妈认为聪明的小明应该更加用功学习而变的更加厉害,所以小明除了上学之外,还要参加妈 ...
JAVA_SE基础——40.super关键字
只要this关键字掌握了,super关键字不在话下,因为他们原理都差不多的.. this&super 什么是this,this是自身的一个对象,代表对象本身,可以理解为:指向对象本身的一个指针 ...
Java基础类库简介
Java基础类库简介一.常用的基础类库:11个jar(Java Archive,Java归档)包作为java语言使用者,我们可以感受到java语言带来的优势(平台无关.面向对象.多线程.高效易扩展 ...
python 之列表list && 元组tuple
目录: 列表列表基本操作列表的操作符列表的函数和方法元组介绍: 列表是一种可变的有序集合,可以进行访问.添加和删除操作. 元组是一种不可变的有序集合,可以访问. 1.列表的基本操作创建列表 ...
儿童节，我们从零开始——Python入门资源推荐
原创 2017-06-01 玄魂工作室玄魂工作室今天是六一儿童节,首先祝所有的小朋友身体健康,能永远生活在一个没有战争,没有压迫的世界里,永远快乐. 上一篇文章,很多人都对Python的各种书籍感 ...
wpf研究之道——datagrid控件分页
这是我们的datagrid分页效果图,有上一页,下一页,可以跳到任何一页.当页码比较多的时候,只显示几页,其余用点点,界面实现如下:  <StackPanel Or ...
python3+beautifulSoup4.6抓取某网站小说（四）多线程抓取
上一篇多文章,是二级目录,根目录"小说",二级目录"作品名称",之后就是小说文件. 本篇改造了部分代码,将目录设置为根目录->作者目录->作品目录- ...
spring-oauth-server实践：客户端和服务端环境搭建
客户端:http://localhost:8080/spring-oauth-client/index.jsp 服务端:http://localhost:8080/spring-oauth-serve ...
zuul入门（2）zuul的过滤器分类和加载
一.Groovy编写的Filter 1.可以放到指定目录加载创建一个pre类型的filter,在run方法中获取HttpServletRequest 然后答应header信息在代码中加入groov ...

UDA机器学习基础—误差原因

UDA机器学习基础—误差原因的更多相关文章

随机推荐

热门专题