模型预处理层介绍（1）

预处理的作用主要在于将难以表达的string或者数组转换成模型容易训练的向量表示，其中转化过程大多是形成一张查询表用来查询。

常见的预处理方式包括：

class Discretization: Buckets data into discrete ranges.
class Hashing: Implements categorical feature hashing, also known as "hashing trick".
class IntegerLookup: Maps integers from a vocabulary to integer indices.
class Normalization: Feature-wise normalization of the data.
class StringLookup: Maps strings from a vocabulary to integer indices.

接下来，本文将介绍下这些常用的预处理方式的作用和内容

Discretization

离散化层。该层将其输入数据的每个元素放入几个连续的范围之一，并输出一个整数索引，指示每个元素位于哪个范围。这个索引也就是索引编号，通过分桶边界值判断输入的数字属于哪个分桶，以此给出桶号。

换句话说，它的作用在于将连续的数值特征转换为整数分类特征。

在2.5版本的tf当中，该层的入参只有一个分桶边界bins，用法为：

tf.keras.layers.experimental.preprocessing.Discretization(

    bins, **kwargs

)

在2.11版本的tf当中,Discretization层被定义为

tf.keras.layers.Discretization(

    bin_boundaries=None,

    num_bins=None,

    epsilon=0.01,

    output_mode='int',

    sparse=False,

    **kwargs

)

其中多了一个epsilon，用来作为误差容忍度，通常是一个接近于零的小分数(例如0.01)。较大的epsilon值会增加分位数近似，从而导致更多不相等的桶，但可以提高性能和资源消耗。

另外还多了一个output_mode:

"int":直接返回离散化的bin索引。
"one_hot":将输入中的每个元素编码到与num_bins大小相同的数组中，在输入的bin索引处包含一个1。如果最后一个维度的大小为1，则对该维度进行编码。如果最后一个维度的大小不是1，则将为编码后的输出追加一个新维度。
"multi_hot":将输入中的每个样本编码到与num_bins大小相同的单个数组中，为样本中出现的每个bin索引索引包含一个1。将最后一个维度作为样本维度，如果输入形状为(…, sample_length)，输出形状将是(…, num_tokens)。
"count":作为"multi_hot"，但int数组包含bin索引在示例中出现次数的计数。

举一个现有的官方的例子：

>>> input = np.array([[-1.5, 1.0, 3.4, .5], [0.0, 3.0, 1.3, 0.0]])

>>> layer = tf.keras.layers.experimental.preprocessing.Discretization(

...          bins=[0., 1., 2.])

>>> layer(input)

<tf.Tensor: shape=(2, 4), dtype=int32, numpy=

array([[0, 1, 3, 1],

       [0, 3, 2, 0]], dtype=int32)>

在这个例子中，传入的参数 bins=[0., 1., 2.] 代表着该层以0、1、2 作为数值边界进行分桶，所以整体的查询表大概如下所示：

bin	<0	0~1	1~2	>2
index	0	1	2	3

结合着官方的例子，处于边界值上的数值，会被归于前一个桶。比如第一行第二个数字数值为1，会被分桶成编号为1。

其中Discretization层调用了bucket进行分桶

要注意的是，这些层是不可训练的。它们的状态在训练期间没有设置;它必须在训练之前设置，或者通过从预先计算的常数初始化它们，或者通过在数据上“调整”它们。

模型预处理层介绍（1） - Discretization的更多相关文章

OSI模型——传输层
OSI模型——传输层运输层运输层概述运输层提供应用层端到端通信服务,通俗的讲,两个主机通讯,也就是应用层上的进程之间的通信,也就是转换为进程和进程之间的通信了,我们之前学到网络层,IP协议能将分 ...
C++11 并发指南七(C++11 内存模型一：介绍)
第六章主要介绍了 C++11 中的原子类型及其相关的API,原子类型的大多数 API 都需要程序员提供一个 std::memory_order(可译为内存序,访存顺序) 的枚举类型值作为参数,比如:a ...
ThinkPHP 的模型使用详细介绍--模型的核心(七)
原文:ThinkPHP 的模型使用详细介绍--模型的核心(七) 注意:本节是ThinkPhp框架对数据操作的核心处理部分大家还是在这里看清楚可以将其剪切放到代码编辑器中查看本章节给大家着重介绍模型 ...
服务器端IO模型的简单介绍及实现
https://mp.weixin.qq.com/s?src=3&timestamp=1541726441&ver=1&signature=xPSye3v7miF7aVeLHb ...
UIView的层介绍
UIView的层介绍 subview在西安市到屏幕上时,是位于superview上层的. 同一个view的subview时依照增加的顺序显示相应层的.越晚增加的subview显示在越上层,反之也是如此 ...
Django基础之模型(models)层(上)
目录 Django基础之模型(models)层单表查询必知必会13条神奇的双下划线查询多表查询外键的字段的增删改查表与表之间的关联查询基于双下划线的跨表查询(连表查询) 补充知识 Dja ...
服务器端IO模型的简单介绍及实现阻塞 / 非阻塞 VS 同步 / 异步内核实现的拷贝效率
小结: 1.在多线程的基础上,可以考虑使用"线程池"或"连接池","线程池"旨在减少创建和销毁线程的频率,其维持一定合理数量的线程,并让空闲 ...
18 网络编程-TCP/IP各层介绍（5层模型讲解）
1.TCP/IP五层协议讲解物理层--数据链路层--网络层--传输层--应用层我们将应用层,表示层,会话层并作应用层,从tcp/ip五层协议的角度来阐述每层的由来与功能,搞清楚了每层的主要协议就 ...
网络编程-TCP/IP各层介绍（5层模型讲解）
1.TCP/IP五层协议讲解物理层--数据链路层--网络层--传输层--应用层我们将应用层,表示层,会话层并作应用层,从tcp/ip五层协议的角度来阐述每层的由来与功能,搞清楚了每层的主要协议就 ...
caffe学习系列（3）：数据层介绍
一个模型由多个层构成,如Data,conv,pool等.其中数据层是模型的最底层,是模型的入口. 提供数据的输入,也提供数据从Blobs转换成别的格式进行保存输出还包括数据的预处理(如减去均值, 放 ...

随机推荐

IOT黑客入门篇之初探Badusb
什么是Badusb? BadUSB是一种使用带有恶意软件编程的USB设备的计算机安全攻击.例如,USB 闪存驱动器可以包含可编程的Intel 8051微控制器,该微控制器可以重新编程,将USB闪存 ...
回溯算法经典问题总结（.NET版）
回溯算法回溯法其实也是一种递归,本质上就是穷举,然后筛选出符合规则的数据.为了使回溯更加高效,我们根据规则要求,在穷举过程中加上条件限制(也就是剪枝). 我们什么场景下应该想到使用回溯法呢? 如何画 ...
Solon v1.11.0 发布，Hello Java
一个更现代感的 Java 应用开发框架:更快.更小.更自由.没有 Spring,没有 Servlet,没有 JavaEE:独立的轻量生态.主框架仅 0.1 MB. @Controller public ...
Task01：Matplotlib初相识
一.明晰绘制一张图的组成条件 Figure:最基本的一级 Axes:在Figure上创建子图的容器(如果Figure中仅含一子图,则该容器可省略) Axis:用于处理子图上和坐标轴和网格相关的元素 T ...
【JVM调优】Day02：CMS的三色标记算法、分区的G1回收器、短时停顿的ZGC回收器
一.CMS及其三色标记算法 1.核心标记整个图谱的过程分为多步多个线程相互工作,才能标记完标记的算法,JVM虚拟机.go语言使用的都是三色标记算法 2.含义从那个地方开始,用三种颜色替代一开 ...
Kubernetes-基于容器云构建devops平台
1.基于kubernetes devops的整体方案本文以Kubernetes为基础,为基于java语言研发团队提供一套完整的devops解决方案.在此方案中,开发人员基于eclipse集成开发环境 ...
ArcObjects SDK 012 PageLayout和Page
1.从ArcMap角度看结构一个Mxd文件包含一个PageLayout对象和一个多多个Map对象,每个Map会被包成MapFrame,添加到PageLayout中.我们用ArcMap打开一个mxd文 ...
Nmap安装
Nmap(Network Mapper,网络映射器)是一款开放源代码的网络探测和安全审核工具.它被设计用来快速扫描大型网络,包括主机探测与发现.开放的端口情况.操作系统与应用服务指纹识别.WAF识别及 ...
【转载】【Word】项目编号应用样式后出现黑框的解决方案
本文中的宏代码来自: https://www.zhihu.com/question/38985919 Word使用项目编号后,出现黑框,如下图所示: 网上大多数解决方案在重新打开文档后,依然还是有黑框 ...
SQL Server下7种“数据分页”方案，全网最全
数据分页往往有三种常用方案. 第一种,把数据库中存放的相关数据,全部读入PHP/Java/C#代码/内存,再由代码对其进行分页操作(速度慢,简易性高). 第二种,直接在数据库中对相关数据进行分页操作, ...

模型预处理层介绍（1） - Discretization

Discretization

模型预处理层介绍（1） - Discretization的更多相关文章

随机推荐

热门专题