预测房价：回归问题

回归问题预测结果为连续值，而不是离散的类别。

波士顿房价数据集

通过20世纪70年代波士顿郊区房价数据集，预测平均房价；数据集的特征包括犯罪率、税率等信息。数据集只有506条记录，划分成404的训练集和102的测试集。每个记录的特征取值范围各不相同。比如，有0_1,112以及0~100的等等。

加载数据集

from keras.datasets import boston_housing

(train_data,train_targets),(test_data,test_targets) = boston_housing.load_data()

训练集形状：

>>> train_data.shape

(404, 13)

测试集形状：

>>> test_data.shape

(102, 13)

训练集404条，测试集102条；每条记录13个数值特征。

房价单位为1000美元。

>>> train_targets

[ 15.2, 42.3, 50. ...19.4,19.4,29.1]

房价范围在$10,000到$50,000。

准备数据

因为数据各个特征取值范围各不相同，不能直接送到神经网络模型中进行处理。尽管网络模型能适应数据的多样性，但是相应的学习过程变得非常困难。一种常见的数据处理方法是特征归一化normalization---减均值除以标准差；数据0中心化，方差为1.

mean = train_data.mean(axis=0)

train_data -= mean # 减去均值

std = train_data.std(axis=0) # 特征标准差

train_data /= std

test_data -= mean #测试集处理：使用训练集的均值和标准差；不用重新计算

test_data /= std

模型构建

由于数据集数据量过小，模型也不能太复杂，否则容易发生过拟合。

from keras import models

from keras import layers

def build_model():

	model = models.Sequential()

	model.add(layers.Dense(64, activation='relu',input_shape=(train_data.shape[1],)))

	model.add(layers.Dense(64, activation='relu'))

	model.add(layers.Dense(1))

	model.compile(optimizer='rmsprop', loss='mse', metrics=['mae'])

	return model

模型的最后一层只有一个神经元，没有激活函数--相当于一个线性层。这种处理方法常用在单标量回归问题中。使用激活函数将会限制输出结果的范围，比如使用sigmoid激活函数，输出结果在0~1之间。这里，因为最后一层只是一个线性层，模型的输出结果可能是任意值。

模型的损失函数为mse均方误差。监测的指标为mean absolute error(MAE)平均绝对误差---两个结果之间差的绝对值。

K折交叉验证

当调整模型参数时，为了评估模型，我们通常将数据集分成训练集和验证集。但是当数据量过小时，验证集数目也变得很小，导致验证集上的评估结果相互之间差异性很大---与训练集和测试集的划分结果相关。评估结果可信度不高。

最好的评估方式是采用K折交叉验证--将数据集分成K份(K=4或5)，实例化K个模型，每个模型在K-1份数据上进行训练，在1份数据上进行评估，最后用K次评估分数的平均值做最后的评估结果。

import numpy as np

k = 4

num_val_samples = len(train_data) // k

num_epochs = 100

all_scores = []

for i in range(k):

	print('processing fold #',i)

	val_data = train_data[i*num_val_samples : (i+1)*num_val_samples] # 划分出验证集部分

	val_targets = train_targets[i*num_val_samples : (i+1)*num_val_samples]

	partial_train_data = np.concatenate([train_data[:i*num_val_samples],train_data[(i+1)* num_val_samples:] ],axis=0) # 将训练集拼接到一起

	partial_train_targets = np.concatenate([train_targets[:i*num_val_samples],train_targets[(i+1)* num_val_samples:] ],axis=0)

	model = build_model()

	model.fit(partial_train_data,partial_train_targets,epochs=num_epochs,batch_size=16,verbose=0)#模型训练silent模型

	val_mse, val_mae = model.evaluate(val_data, val_targets, verbose=0) # 验证集上评估

	all_scores.append(val_mae)

模型训练

model = build_model()

model.fit(train_data, train_targets,epochs=80, batch_size=16, verbose=0)

test_mse_score, test_mae_score = model.evaluate(test_data, test_targets)# score 2.5532484335057877

小结

回归问题：损失函数通常为MSE均方误差；
模型评估监测指标通常为MAE(mean absolute error);
当数据取值范围不一致时，需要对特征进行预处理；
数据量小时，可以采用Ｋ折验证来衡量模型；
数据量小时，模型复杂度也应该相应的简单，可以避免模型过拟合。

[Deep-Learning-with-Python]基于Keras的房价预测的更多相关文章

Deep learning with Python 学习笔记（10）
生成式深度学习机器学习模型能够对图像.音乐和故事的统计潜在空间(latent space)进行学习,然后从这个空间中采样(sample),创造出与模型在训练数据中所见到的艺术作品具有相似特征的新作品 ...
Deep learning with Python 学习笔记（9）
神经网络模型的优化使用 Keras 回调函数使用 model.fit()或 model.fit_generator() 在一个大型数据集上启动数十轮的训练,有点类似于扔一架纸飞机,一开始给它一点推 ...
Deep learning with Python 学习笔记（8）
Keras 函数式编程利用 Keras 函数式 API,你可以构建类图(graph-like)模型.在不同的输入之间共享某一层,并且还可以像使用 Python 函数一样使用 Keras 模型.Ker ...
Deep learning with Python 学习笔记（6）
本节介绍循环神经网络及其优化循环神经网络(RNN,recurrent neural network)处理序列的方式是,遍历所有序列元素,并保存一个状态(state),其中包含与已查看内容相关的信息. ...
Deep learning with Python 学习笔记（3）
本节介绍基于Keras的使用预训练模型方法想要将深度学习应用于小型图像数据集,一种常用且非常高效的方法是使用预训练网络.预训练网络(pretrained network)是一个保存好的网络,之前已在 ...
Deep learning with Python 学习笔记（2）
本节介绍基于Keras的CNN 卷积神经网络接收形状为 (image_height, image_width, image_channels)的输入张量(不包括批量维度),宽度和高度两个维度的尺寸通常 ...
Deep learning with Python 学习笔记（1）
深度学习基础 Python 的 Keras 库来学习手写数字分类,将手写数字的灰度图像(28 像素 ×28 像素)划分到 10 个类别中(0~9) 神经网络的核心组件是层(layer),它是一种数据 ...
[Udemy] Recommender Systems and Deep Learning in Python
1. Welcome 主要讲四部分内容: non-personized systems popularity: 基于流行度或者最大利益化的推荐. 缺点也明显:你可能在特殊地方有些特殊需求, 或者你本来 ...
Machine and Deep Learning with Python
Machine and Deep Learning with Python Education Tutorials and courses Supervised learning superstiti ...

随机推荐

go语言练习：类型转换
package main import "fmt" func main() { var a int var b uint var c float32 var d float64 a ...
innodb索引统计信息
以下分析基于mysql5.6.10 统计信息相关字典表 information_schema.statistics mysql.innodb_table_stats mysql.innodb_inde ...
Innodb页面存储结构-2
上一篇<Innodb页面存储结构-1>介绍了Innodb页面存储的总体结构,本文会介绍页面的详细内容,主要包括页头.页尾和记录的详细格式. 学习数据结构时都说程序等于数据结构+算法,而在i ...
SQLSERVER中的LOB页面简单研究
SQLSERVER中的LOB页面简单研究这篇文章和我另一篇文章是相辅相成的,在看<SQLSERVER2012 列存储索引的简单研究和测试>这篇文章之前希望大家先看一下这篇文章o(∩_∩) ...
初识java内存区域
目录: 1.运行时数据区域 2.对象的创建 3.对象的内存布局 4.对象的访问定位一.运行时数据区域基本的java虚拟机运行时数据区如下图: 下面我们就来逐个认识这几个运行时的数据区域 1.程序计 ...
DLL动态链接库导出函数方法 -- 动态导出（.def文件导出）
简介动态链接库最大的优势在于可以提供给其他应用程序共享的资源,最小化应用程序代码的复杂度,其中一个十分重要的功能就是dll可以导出封装函数的功能.导出函数有两种主要方式,分别是静态导入和动态导入,本 ...
SSL/TLS Diffie-Hellman Modulus <= 1024 位 (LogJam) 使用2048位或更高的Diffie-Hellman
1.http://slproweb.com/products/Win32OpenSSL.html 下载 SSL 并安装 2.设置环境变量,例如工具安装在C:\OpenSSL-Win64,则将C:\O ...
AES块加密与解密
AES块加密与解密解密目标在CBC和CTR两种模式下分别给出十篇加密的样例密文,求解密一篇特定的密文解密前提全部密文及其加密使用的key都已给出加密的方法遵循AES的标准解密过程分析实验 ...
java.util.zip.ZipException: duplicate entry(重复依赖多版本的类库)
同步SVN仓库中的代码,更新后,运行项目,出现如下错误: com.android.build.api.transform.TransformException: java.util.zip.ZipEx ...
Android Environment 获取各种路径的方法
<pre name="code" class="java">package com.deepoon.beyond.environment; impo ...

[Deep-Learning-with-Python]基于Keras的房价预测