使用Tensorflow搭建回归预测模型之二：数据准备与预处理

前言：

在前一篇中，已经搭建好了Tensorflow环境，本文将介绍如何准备数据与预处理数据。

正文：

在机器学习中，数据是非常关键的一个环节，在模型训练前对数据进行准备也预处理是非常必要的。

一、数据准备：

一般分为三个步骤：数据导入，数据清洗，数据划分。

1、数据导入：

数据存放在原始格式多种多样，具体取决于用于导入数据的机制和数据的来源。比如：有*.csv,*.txt,*xls,*.json等。

2、数据清洗：

数据清洗主要发现并纠正数据中的错误，包含检查数据的一致性，数据的无效值，以及缺失值等。

一致性检查：根据每个变量的合理取值范围和相互关系，检查数据是否符合要求，要求异常或逻辑上不合理的数据。

无效值和缺失值检查：由于编码或录入误差，数据中可能存在一些无效的值和缺失值，需要对其进行适当的处理：估算，整例删除，变量删除等方法来保证数据的完整性。

数据清洗的基本操作有：

选择，过滤，去重，采样，变换（归一化，标准化，缩放），数据替换（剪切，分割，合并），加权（属性加权，自动优化），属性生成，数据填补等。

3、数据划分：

数据划分是机器学习训练必不可少的一个环节，将数据分成不同部分，一部分用于训练，一部分用来验证或测试模型。

一般可采用以下方法：

1、按一定比例划分训练集与测试集，根据数据集大小，按8：2或7：3比例划分；

2、交叉验证法，采用K折交叉验证法；

二、特征工程：

（机器学习与深度学习最大的区别就是：在机器学习中，特征工程是独立的，而在深度学习中，特征工程是与模型整合在一起的。）

特征工程是将原始数据转化为特征的过程，这些特征可以很好的描述潜在问题，进而提高模型对未知数据的准确性。

特征一般分两类：

固有的原始特征：直接从数据集中获得；

从特征工程中获得：需要从现有的数据属性中提取出来的特征。

特征工程处理过程分三步：

特征提取，特征缩放，特征编码。

1、特征提取：

将原始数据转换为一组有明显特征意义的特征。去除无关特征或关联性很小的特征可以降低学习任务的难度，降低模型的复杂度。

主要方法：PCA和ICA

PCA（主成分分析）

找到数据中的主成分，利用这些主成分来表征原始数据，从而达到降维的目的。

步骤：1）对样本数据中心化处理；

2）求样本协方差矩阵；

3）对协方差矩阵进行特征分解，并从大到小排列；

4）取特征值前n个最大对应的特征向量。

ICA （独立成分分析）

获取相互独立的属性，寻找一个线性变换：z=Wx，使得z的各个特征分量之间的独立性最大。

2、特征缩放

特征缩放包含两种方法：归一化和正则化

归一化是将特征都缩放到一个指定的数据区间内。一般有两种归一化方法：线性函数归一化和零均值归一化。

线性函数归一化： X =(X-Xmin)/(Xmax-Xmin)

零均值归一化：将原始数据映射到均值为0，方差为1的分布上。

3、特征编码

1）序号编码：

处理类别间大小关系的数据。

例如：在高，中，低三个档次，存在高 > 中 > 低的关系，就可以用序号编码对这三个档次进行编码：高表示3，中表示2，低表示1，转换后依然保留了大小关系。

2）独热编码：

用于处理类别间不具体大小关系的特征。

采用N位状态位来对N个可能的取值进行编码。

例：是否推出提示，有两种取值（推出，不推出），那么独热编码会将提示转换成一个2维向量：推出（1，0），不推出（0，1）

上一篇：环境搭建与包安装

使用Tensorflow搭建回归预测模型之一：环境安装

下一篇：模型搭建与训练

使用Tensorflow搭建回归预测模型之三：模型搭建与训练

使用Tensorflow搭建回归预测模型之二：数据准备与预处理的更多相关文章

使用Tensorflow搭建回归预测模型之一：环境安装
方法1:快速包安装一.安装Anaconda 1.官网地址:https://www.anaconda.com/distribution/,选择其中一个版本下载即可,最好安装3.7版本,因为2.7版本2 ...
[DL学习笔记]从人工神经网络到卷积神经网络_3_使用tensorflow搭建CNN来分类not_MNIST数据(有一些问题)
3:用tensorflow搭个神经网络出来为什么用tensorflow呢,应为谷歌是亲爹啊,虽然有些人说caffe更适合图像啊mxnet效率更高等等,但爸爸就是爸爸,Android都能那么火,一个道 ...
10分钟搞懂Tensorflow 逻辑回归实现手写识别
1. Tensorflow 逻辑回归实现手写识别 1.1. 逻辑回归原理 1.1.1. 逻辑回归 1.1.2. 损失函数 1.2. 实例:手写识别系统 1.1. 逻辑回归原理 1.1.1. 逻辑回归 ...
用tensorflow搭建RNN(LSTM)进行MNIST 手写数字辨识
用tensorflow搭建RNN(LSTM)进行MNIST 手写数字辨识循环神经网络RNN相比传统的神经网络在处理序列化数据时更有优势,因为RNN能够将加入上(下)文信息进行考虑.一个简单的RNN如 ...
（转）一文学会用 Tensorflow 搭建神经网络
一文学会用 Tensorflow 搭建神经网络本文转自:http://www.jianshu.com/p/e112012a4b2d 字数2259 阅读3168 评论8 喜欢11 cs224d-Day ...
从零开始用 Flask 搭建一个网站（二）
从零开始用 Flask 搭建一个网站(一) 介绍了如何搭建 Python 环境,以及 Flask 应用基本项目结构.我们要搭建的网站是管理第三方集成的控制台,类似于 Slack. 本篇主要讲解数据如何 ...
用Tensorflow搭建神经网络的一般步骤
用Tensorflow搭建神经网络的一般步骤如下: ① 导入模块 ② 创建模型变量和占位符 ③ 建立模型 ④ 定义loss函数 ⑤ 定义优化器(optimizer), 使 loss 达到最小 ⑥ 引入 ...
一文学会用 Tensorflow 搭建神经网络
http://www.jianshu.com/p/e112012a4b2d 本文是学习这个视频课程系列的笔记,课程链接是 youtube 上的,讲的很好,浅显易懂,入门首选, 而且在github有代码 ...
SSM(SpringMVC+Spring+MyBatis)三大框架使用Maven快速搭建整合（实现数据库数据到页面进行展示）
本文介绍使用SpringMVC+Spring+MyBatis三大框架使用Maven快速搭建一个demo,实现数据从数据库中查询返回到页面进行展示的过程. 技术选型:SpringMVC+Spring+M ...

随机推荐

（二）SQL -- 查询
主要包含以下内容: 单表查询.子查询.多表查询(左连接右连接等).合并查询单表查询: 基础查询语句: select 列名 from 表名 where 条件 group by 列名 order by ...
Flask 中的蓝图
相当与django中的App 基础模板 1.初识Flask蓝图(blueprint) 创建一个项目然后将目录结构做成: s_view.py 文件中的内容 from flask import Blu ...
Mac上的应用，例如Xcode需要输入原始下载账号才能更新问题
为了免下载安装Xcode,安装时使用了别人提供的Xcode.dmg安装,或者公司接管上任同事使用的Mac时,上面的应用都是用别人的账号购买下载的,而非使用自己账号在AppStore下载的. 这样的安装 ...
jest 的 coverage 提示 unknown 的解决方案
概述这几天玩 jest ,我在运行单元测试之后 coverage 总是显示 unknown,花了很多时间排查原因,最后终于想明白了,记录下来,供以后开发时参考,相信对其他人也有用. coverage ...
自定义配置节点configSections的使用
//App.config <?xml version="1.0" encoding="utf-8" ?><configuration> ...
测开之路一百四十六：WTForms之表单应用
WTForms主要是两个功能:1.生成HTML标签 2.对数据格式进行验证官网:https://wtforms.readthedocs.io/en/stable/ 这篇介绍用wtform生成htm ...
Java多线程学习——图片下载
实现多线程方式1:继承类Thread——重写方法run——调用方法start 从网络下载图片首先要增加包commons-io.jar import org.apache.commons.io.File ...
前端 CSS 继承性和层叠性
CSS有两大特性:继承性和层叠性前端 CSS的继承性前端 CSS层叠性 CSS选择器优先级前端 CSS 优先级样式设置important
一些重温CSS需要注意的小细节
<!-- CSS是用于描述页面展示的语言字体.颜色.大小.间距,将内容分为多列或者简单的动画及其他的装饰效果决定了长啥样 html房子的骨架 css负责装修怎么装修一个房子呢? 首先就是 ...
路由器桥接时，为什么要关闭 DHCP 服务器？
问:看网上的一些教程,路由器设置无线桥接的时候,副路由器中的 DHCP 服务器需要关闭,请问这是为什么? 答:两个路由器无线桥接时,之所以要关闭副路由器的 DHCP 服务器,是为了避免 IP 地址错误 ...

使用Tensorflow搭建回归预测模型之二：数据准备与预处理

使用Tensorflow搭建回归预测模型之二：数据准备与预处理的更多相关文章

随机推荐

热门专题