波士顿房价数据集

数据集

波士顿数据集是一个回归问题。每个类的观察值数量是均等的，共有 506 个观察，13 个输入变量和1个输出变量。每条数据包含房屋以及房屋周围的详细信息。其中包含城镇犯罪率，一氧化氮浓度，住宅平均房间数，到中心区域的加权距离以及自住房平均房价等等。

但是对于回归问题，需要读取数据后需要将数据集打散，代码如下：

boston_housing = keras.datasets.boston_housing

(train_data, train_labels), (test_data, test_labels) = boston_housing.load_data()

#打散数据集

order = np.argsort(np.random.random(train_labels.shape))

train_data = train_data[order]

train_labels = train_labels[order]

数据集标签展示：

import pandas as pd

column_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',

                'TAX', 'PTRATIO', 'B', 'LSTAT']

df = pd.DataFrame(train_data, columns=column_names)

df.head()

	CRIM	ZN	INDUS	NOX	RM	AGE	DIS	RAD	TAX	PTRATIO	B	LSTAT
0	0.07875	45.0	3.44	0.437	6.782	41.1	3.7886	5.0	398.0	15.2	393.87	6.68
1	4.55587	0.0	18.10	0.718	3.561	87.9	1.6132	24.0	666.0	20.2	354.70	7.12
2	0.09604	40.0	6.41	0.447	6.854	42.8	4.2673	4.0	254.0	17.6	396.90	2.98
3	0.01870	85.0	4.15	0.429	6.516	27.7	8.5353	4.0	351.0	17.9	392.43	6.36
4	0.52693	0.0	6.20	0.504	8.725	83.0	2.8944	8.0	307.0	17.4	382.00	4.63

数据归一化

数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。

具体见https://blog.csdn.net/pipisorry/article/details/52247379

#z-score 标准化

mean = train_data.mean(axis=0)

std = train_data.std(axis=0)

train_data = (train_data - mean) / std

test_data = (test_data - mean) / std

模型训练和预测

模型建立和训练

模型建立的通用模式为网络结构确定（网络层数，节点数，输入，输出）、模型训练参数确定（损失函数，优化器、评价标准)、模型训练（训练次数，批次大小）

#z-score 标准化

mean = train_data.mean(axis=0)

std = train_data.std(axis=0)

train_data = (train_data - mean) / std

test_data = (test_data - mean) / std

#模型建立函数

def build_model():

  model = keras.Sequential([

    keras.layers.Dense(64, activation=tf.nn.relu,

                       input_shape=(train_data.shape[1],)),

    keras.layers.Dense(64, activation=tf.nn.relu),

    keras.layers.Dense(1)

  ])

  optimizer = tf.train.RMSPropOptimizer(0.001)

  model.compile(loss='mse',

                optimizer=optimizer,

                metrics=['mae']) #平均绝对误差

  return model

#建立模型

model = build_model()

#模型结构显示

model.summary()

模型的训练代码如下:

# 回调函数

class PrintDot(keras.callbacks.Callback):

  def on_epoch_end(self,epoch,logs):

    if epoch % 100 == 0: print('')

    print('.', end='')

EPOCHS = 500

#模型训练

history = model.fit(train_data, train_labels, epochs=EPOCHS,

                    validation_split=0.2, verbose=1, #verbose训练过程显示

                    callbacks=[PrintDot()]) #取测试集中的百分之20作为验证集

模型预测

调用history函数可以实现训练过程的可视化

#模型损失函数展示

def plot_history(history):

  plt.figure()

  plt.xlabel('Epoch')

  plt.ylabel('Mean Abs Error [1000$]')

  plt.plot(history.epoch, np.array(history.history['mean_absolute_error']),

           label='Train Loss')

  plt.plot(history.epoch, np.array(history.history['val_mean_absolute_error']),

           label = 'Val loss')

  plt.legend()

  plt.ylim([0,5])

plot_history(history)

为了提前停止训练，可以通过设置回调函数EarlyStopping设置训练停止条件。

#停止条件设置，即验证集损失连续20次训练没有变化，即停止训练

early_stop = keras.callbacks.EarlyStopping(monitor='val_loss', patience=20)

history = model.fit(train_data, train_labels, epochs=EPOCHS,

                    validation_split=0.2, verbose=0,

                    callbacks=[early_stop, PrintDot()])

plot_history(history)

模型预测代码如下：

test_predictions = model.predict(test_data).flatten()

print(test_predictions)

总结

总体代码如下：

# TensorFlow and tf.keras

import tensorflow as tf

from tensorflow import keras

# 其他库

import numpy as np

import matplotlib.pyplot as plt

#查看版本

print(tf.__version__)

#1.9.0

boston_housing = keras.datasets.boston_housing

(train_data, train_labels), (test_data, test_labels) = boston_housing.load_data()

#打散数据集

order = np.argsort(np.random.random(train_labels.shape))

train_data = train_data[order]

train_labels = train_labels[order]

import pandas as pd

column_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',

                'TAX', 'PTRATIO', 'B', 'LSTAT']

df = pd.DataFrame(train_data, columns=column_names)

df.head()

#z-score 标准化

mean = train_data.mean(axis=0)

std = train_data.std(axis=0)

train_data = (train_data - mean) / std

test_data = (test_data - mean) / std

#模型建立函数

def build_model():

  model = keras.Sequential([

    keras.layers.Dense(64, activation=tf.nn.relu,

                       input_shape=(train_data.shape[1],)),

    keras.layers.Dense(64, activation=tf.nn.relu),

    keras.layers.Dense(1)

  ])

  optimizer = tf.train.RMSPropOptimizer(0.001)

  model.compile(loss='mse',

                optimizer=optimizer,

                metrics=['mae']) #平均绝对误差

  return model

#建立模型

model = build_model()

#模型结构显示

model.summary()

# 回调函数

class PrintDot(keras.callbacks.Callback):

  def on_epoch_end(self,epoch,logs):

    if epoch % 100 == 0: print('')

    print('.', end='')

EPOCHS = 500

#模型训练

history = model.fit(train_data, train_labels, epochs=EPOCHS,

                    validation_split=0.2, verbose=1, #verbose训练过程显示

                    callbacks=[PrintDot()]) #取测试集中的百分之20作为验证集

#模型损失函数展示

def plot_history(history):

  plt.figure()

  plt.xlabel('Epoch')

  plt.ylabel('Mean Abs Error [1000$]')

  plt.plot(history.epoch, np.array(history.history['mean_absolute_error']),

           label='Train Loss')

  plt.plot(history.epoch, np.array(history.history['val_mean_absolute_error']),

           label = 'Val loss')

  plt.legend()

  plt.ylim([0,5])

plot_history(history)

model = build_model()

#停止条件设置，即验证集损失连续20次训练没有变化，即停止训练

early_stop = keras.callbacks.EarlyStopping(monitor='val_loss', patience=20)

history = model.fit(train_data, train_labels, epochs=EPOCHS,

                    validation_split=0.2, verbose=0,

                    callbacks=[early_stop, PrintDot()])

plot_history(history)

test_predictions = model.predict(test_data).flatten()

print(test_predictions)

对于回归问题的官方总结：

均方误差(MSE)是一种常见的用于回归问题损失函数。
平均绝对误差(MAE)也是一种常用评价指标而不是精度。
对于输入数据，归一化是十分必要的。
训练数据较少，则模型结构较小更合适，防止过拟合。
提前停止是防止过拟合的好办法。

[深度学习] tf.keras入门3-回归的更多相关文章

[深度学习] tf.keras入门1-基本函数介绍
目录构建一个简单的模型序贯(Sequential)模型网络层的构造模型训练和参数评价模型训练模型的训练 tf.data的数据集模型评估和预测基本模型的建立网络层模型模型子类函数构建 ...
[深度学习] tf.keras入门4-过拟合和欠拟合
过拟合和欠拟合简单来说过拟合就是模型训练集精度高,测试集训练精度低:欠拟合则是模型训练集和测试集训练精度都低. 官方文档地址为 https://tensorflow.google.cn/tutori ...
[深度学习] tf.keras入门5-模型保存和载入
目录设置基于checkpoints的模型保存通过ModelCheckpoint模块来自动保存数据手动保存权重整个模型保存总体代码模型可以在训练中或者训练完成后保存.具体文档参考:http ...
[深度学习] tf.keras入门2-分类
目录 Fashion MNIST数据库分类模型的建立模型预测总体代码主要介绍基于tf.keras的Fashion MNIST数据库分类, 官方文档地址为:https://tensorflow. ...
深度学习：Keras入门(一)之基础篇
1.关于Keras 1)简介 Keras是由纯python编写的基于theano/tensorflow的深度学习框架. Keras是一个高层神经网络API,支持快速实验,能够把你的idea迅速转换为结 ...
深度学习：Keras入门(一)之基础篇【转】
本文转载自:http://www.cnblogs.com/lc1217/p/7132364.html 1.关于Keras 1)简介 Keras是由纯python编写的基于theano/tensorfl ...
深度学习：Keras入门(一)之基础篇（转）
转自http://www.cnblogs.com/lc1217/p/7132364.html 1.关于Keras 1)简介 Keras是由纯python编写的基于theano/tensorflow的深 ...
深度学习：Keras入门(二)之卷积神经网络(CNN)
说明:这篇文章需要有一些相关的基础知识,否则看起来可能比较吃力. 1.卷积与神经元 1.1 什么是卷积? 简单来说,卷积(或内积)就是一种先把对应位置相乘然后再把结果相加的运算.(具体含义或者数学公式 ...
深度学习：Keras入门(二)之卷积神经网络(CNN)【转】
本文转载自:https://www.cnblogs.com/lc1217/p/7324935.html 说明:这篇文章需要有一些相关的基础知识,否则看起来可能比较吃力. 1.卷积与神经元 1.1 什么 ...

随机推荐

测试杂谈——一条SQL引发的思考（二）
在前段时间,曾写过一篇关于SQL问题的文章,测试杂谈--一条SQL引发的思考(一). 今天这篇,算是个问题记录吧,问题并不复杂,但对于测试同学而言,确实是个需要关注的点. 问题分析最近在日常工作中, ...
前端框架Vue------＞第三天学习（1）
` 文章目录 10 .组件基础 10.1 .什么是组件 11.什么是计算属性 10 .组件基础 10.1 .什么是组件件是可复用的Vue实例,说白了就是一组可以重复使用的模板 <!DOCTYP ...
『现学现忘』Git分支 — 40、分支基本操作（一）
目录 1.创建分支 (1)创建分支 (2)图示理解 2.查看分支列表 3.分支切换 4.查看所有分支的最后一个提交 5.删除分支 1.创建分支 (1)创建分支 Git 是怎么创建新分支的呢? 很简单, ...
1.轮询、长轮询、websocket简介
一.轮询前端每隔固定时间向后台发送一次请求,询问服务器是否有新数据缺点: 延迟,需要固定的轮询时间,不一定是实时数据大量耗费服务器内存和宽带资源,因为不停的请求服务器,很多时候并没有新的数 ...
如何用webgl(three.js)搭建一个3D库房,3D仓库,3D码头,3D集装箱可视化孪生系统——第十五课
序又是快两个月没写随笔了,长时间不总结项目,不锻炼文笔,一开篇,多少都会有些生疏,不知道如何开篇,如何写下去.有点江郎才尽,黔驴技穷的感觉. 写随笔,通常三步走,第一步,搭建框架,先把你要写的内容框 ...
开箱即用 yyg-cli（脚手架工具）：快速创建 vue3 组件库和vue3 全家桶项目
1 yyg-cli 是什么 yyg-cli 是优雅哥开发的快速创建 vue3 项目的脚手架.在 npm 上发布了两个月,11月1日进行了大升级,发布 1.1.0 版本:支持创建 vue3 全家桶项目和 ...
ES6 学习笔记（四）基本类型Number
1.数值 1.1 .JavaScript数值的特点不区分整数值和浮点数值. 所有数值均用浮点数值表示. 采用IEEE-754标准定义的64位浮点数格式表示. 整数在实际操作时(如数组索引),则是基于 ...
python 总是忘函数
sorted sorted()函数对所有可迭代对象进行操作,返回的是一个新列表:列表的list方法只对列表有效,且不生成新的列表. # 对成绩升序排列,名字降序排列 d1 = [{'name':'al ...
Go map 竟然也会发生内存泄露？
Go 程序运行时,有些场景下会导致进程进入某个"高点",然后就再也下不来了. 比如,多年前曹大写过的一篇文章讲过,在做活动时线上涌入的大流量把 goroutine 数抬升了不少,流 ...
Vue3 企业级优雅实战 - 组件库框架 - 6 搭建example环境
该系列已更新文章: 分享一个实用的 vite + vue3 组件库脚手架工具,提升开发效率开箱即用 yyg-cli 脚手架:快速创建 vue3 组件库和vue3 全家桶项目 Vue3 企业级优雅实战 ...

[深度学习] tf.keras入门3-回归