对one hot 编码的理解，sklearn. preprocessing.OneHotEncoder()如何进行fit()的？

查阅了很多资料，逐渐知道了one hot 的编码，但是始终没理解sklearn. preprocessing.OneHotEncoder()如何进行fit()的？自己琢磨了一下，后来终于明白是怎么回事了。

先看one hot 的编码的理解：引用至：https://blog.csdn.net/wy250229163/article/details/52983760

网上关于One-hot编码的例子都来自于同一个例子，而且结果来的太抖了。查了半天，终于给搞清楚这个独热编码是怎么回事了，其实挺简单的，这里再做个总结。 首先，引出例子：

已知三个feature，三个feature分别取值如下： feature1=[“male”, “female”] feature2=[“from Europe”, “from US”, “from Asia”] feature3=[“uses Firefox”, “uses Chrome”, “uses Safari”, “uses Internet Explorer”]

如果做普通数据处理，那么我们就按0,1,2,3进行编号就行了。例如feature1=[0，1],feature2=[0，1，2],feature3=[0，1，2，3]。 那么，如果某个样本为[“male”,“from Asia”, “uses Chrome”]，它就可以表示为[0，2，1]。 以上为普通编码方式。 独热编码(One-hot)换了一种方式编码，先看看百科定义的：

独热编码即 One-Hot 编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。 例如对六个状态进行编码： 自然顺序码为 000,001,010,011,100,101 独热编码则是 000001,000010,000100,001000,010000,100000

通过以上可以看到，独热编码每一个码的总的位数取决于状态的种类数，每一个码里的“1”的位置，就代表了哪个状态生效。 还是回到我们最开始的例子，那么我们将它换成独热编码后，应该是： feature1=[01,10] feature2=[001,010,100] feature3=[0001,0010,0100,1000]

注意，独热编码还有个特性是，当某个特征里的某一状态生效后，此特征的其他状态因为是互斥的关系，必须全部为0，切必须全部添加到特征里，不能省略不写。 所以，对于前边样本[“male”,“from Asia”, “uses Chrome”]，经过独热编码后，它应该为： [01,00, 000,000,100, 0000,0010,0000,0000] 。

以上的独热编码可以写成简写形式： [1,0, 0,0,1, 0,1,0,0]

最后，摘抄下独热编码的好处：

由于分类器往往默认数据数据是连续的，并且是有序的，但是在很多机器学习任务中，存在很多离散（分类）特征，因而将特征值转化成数字时，往往也是不连续的， One-Hot 编码解决了这个问题。 并且，经过独热编码后，特征变成了稀疏的了。这有两个好处，一是解决了分类器不好处理属性数据的问题，二是在一定程度上也起到了扩充特征的作用。

然后网上很多人举了一个sklearn. preprocessing.OneHotEncoder()的例子：例子如下：

>>> from sklearn.preprocessing import OneHotEncoder

>>> enc = OneHotEncoder()

>>> enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])  

>>> enc.n_values_

array([2, 3, 4])

>>> enc.feature_indices_

array([0, 2, 5, 9])

>>> enc.transform([[0, 1, 1]]).toarray()

array([[ 1.,  0.,  0.,  1.,  0.,  0.,  1.,  0.,  0.]])

看了很多人的博客，都没懂，于是自己琢磨，原来是fit是看可以取多少个值。比如在

enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])

这个fit中，所有的数组第一个元素取值分别为：0，1，0，1（黄色标注的），最大为1，且为两种元素（0，1），说明用2个状态位来表示就可以了，且该维度的value值为2（该值只与最大值有关系，最大值为1）

所有的数组第二个元素取值分别为：0，1，2，0（红色标注的），最大为2，且为两种元素（0，1，2），说明用3个状态位来表示就可以了，且该维度的value值为3（该值只与最大值有关系，最大值为2）

所有的数组第三个元素取值分别为：3，0，1，2（天蓝色标注的），最大为3，且为两种元素（0，1，2，3），说明用4个状态位来表示就可以了，且该维度的value值为4（该值只与最大值有关系，最大值为4）

所以整个的value值为（2，3，4），这也就解释了 enc.n_values_等于array([2,3,4])的原因。而enc.feature_indices_则是特征索引，该例子中value值为（2，3，4），则特征索引从0开始，到2的位置为第一个，到2+3=5的位置为第二个，到2+3+4的位置为第三个，索引为array([0,2,5,9])

那么接下来理解

>>> enc.transform([[0, 1, 1]]).toarray()

array([[ 1.,  0.,  0.,  1.,  0.,  0.,  1.,  0.,  0.]])

这个就好办了，enc.transform就是将[0,1,1]这组特征转换成one hot编码，toarray()则是转成数组形式。[0,1,1],
第一个元素是0，由于之前的fit的第一个维度为2（有两种表示：10，01.程序中10表示0，01表示1），所以用1，0表示用黄色标注）；
第二个元素是1，由于之前的fit的第二个维度为3（有三种表示：100，010，001.程序中100表示0，010表示1，001表示2），所以用0，1，0表示用红色标注）；
第三个元素是1，由于之前的fit的第三个维度为4（有四种表示：1000，0100，0010，0001.程序中1000表示0，0100表示1，0010表示2，0001表示3），
所以用0，1，0，0（用天蓝色标注）表示。综上所述：[0,1,1]就被表示为array([[ 1., 0., 0., 1., 0., 0., 1., 0., 0.]])。

排版不易，怎么排着排着就字体变成这样了，而且 还没找到格式刷。不过，总算理解了one hot编码和sklearn. preprocessing.OneHotEncoder()如何进行fit()的
有什么问题的欢迎指正，谢谢！

对one hot 编码的理解，sklearn. preprocessing.OneHotEncoder()如何进行fit()的？的更多相关文章

sklearn.preprocessing OneHotEncoder——仅仅是数值型字段才可以，如果是字符类型字段则不能直接搞定
>>> from sklearn.preprocessing import OneHotEncoder >>> enc = OneHotEncoder() > ...
sklearn preprocessing 数据预处理（OneHotEncoder）
1. one hot encoder sklearn.preprocessing.OneHotEncoder one hot encoder 不仅对 label 可以进行编码,还可对 categori ...
sklearn.preprocessing.StandardScaler 离线使用不使用pickle如何做
Having said that, you can query sklearn.preprocessing.StandardScaler for the fit parameters: scale_ ...
【sklearn】数据预处理 sklearn.preprocessing
数据预处理标准化 (Standardization) 规范化(Normalization) 二值化分类特征编码推定缺失数据生成多项式特征定制转换器 1. 标准化Standardization ...
sklearn学习笔记（一）——数据预处理 sklearn.preprocessing
https://blog.csdn.net/zhangyang10d/article/details/53418227 数据预处理 sklearn.preprocessing 标准化 (Standar ...
sklearn.preprocessing.LabelEncoder的使用
在训练模型之前,我们通常都要对训练数据进行一定的处理.将类别编号就是一种常用的处理方法,比如把类别"男","女"编号为0和1.可以使用sklearn.prepr ...
从ord()中对Unicode编码的理解
刚开始学习编程的时候,老对字符串编码的理解模模糊糊.也一直看这方便的资料,今天在看Dive in python时,突然有了新的理解(不知道是否正确). Python有个built-in函数ord(), ...
数据规范化——sklearn.preprocessing
sklearn实现---归类为5大类 sklearn.preprocessing.scale()(最常用,易受异常值影响) sklearn.preprocessing.StandardScaler() ...
sklearn.preprocessing.LabelBinarizer
sklearn.preprocessing.LabelBinarizer

随机推荐

OptaPlanner 7.32.0.Final版本彩蛋 - SolverManager之批量求解
上一篇介绍了OptaPlanner 7.32.0.Final版本中的SolverManager接口可以实现异步求解功能.本篇将继续介绍SolverManager的另一大特性 - 批量求解. 适用场景 ...
StarUML之一、UML的相关基本概念
为什么用UML 项目需要,在项目开发实现前期进行框架技术设计(条条大路通罗马通罗马,画图或者写代码都可以,适合就可以!). 用户的交互我们通常用Axure(原型设计)体现, 框架和功能结构设计则用UM ...
13.Android-ListView使用、BaseAdapter/ArrayAdapter/SimpleAdapter适配器使用
1.ListView ListView 是 Android 系统为我们提供的一种列表显示的一种控件,使用它可以用来显示我们常见的列表形式.继承自抽象类 AdapterView.继承图如下所示: 以微信 ...
Android布局管理器-使用FrameLayout帧布局管理器显示层叠的正方形以及前景照片
场景 Android布局管理器-使用LinearLayout实现简单的登录窗口布局: https://blog.csdn.net/BADAO_LIUMANG_QIZHI/article/details ...
虚拟机中给linux 系统添加硬盘以后，进行分区挂载
当自己虚拟机中的linux 系统硬盘不够用的时候需要添加硬盘给系统使用,所以可以通过以下的步骤实现 1.关闭自己的客户机,然后执行以下步骤 2. 上面的步骤完成以后,重点来了,下面打开客户机,执行以下 ...
MySQL中使用group by 是总是出现1055的错误
因为在MySQL中使用group by 是总是出现1055的错误,这就导致了必须去查看是什么原因了,查询了相关的资料,现在将笔记记录下来,以便后面可以参考使用: sql_mode:简而言之就是:它定义 ...
Winfom 使用 BackgroundWorker 实现进度条
BackgroundWorker 简介(来自百度) BackgroundWorker是·net里用来执行多线程任务的控件,它允许编程者在一个单独的线程上执行一些操作.耗时的操作(如下载和数据库事务)在 ...
今日确定开源近两年来的EA程序
从2018年开始研究mt4的mql,在2019年主要设计了NinjaLoveFishEA这款网格程序,稳定运行了1年多,今年的伊朗被袭击,造成金价大幅上涨,-18%止损我离场后,决定不再继续研究了. ...
vuex的state在组件选项data和computed上引用的区别
引用在vue组件的data选项,不因数值被改变而更新引在在vue组件的computed选项,因数值变化而更组件案例代码如下,调整下引用vue和vuex地址即可展示 <!DOCTYPE html ...
P1197 [JSOI2008]星球大战 [删边求连通块个数]
展开题目描述很久以前,在一个遥远的星系,一个黑暗的帝国靠着它的超级武器统治着整个星系. 某一天,凭着一个偶然的机遇,一支反抗军摧毁了帝国的超级武器,并攻下了星系中几乎所有的星球.这些星球通过特殊的 ...

对one hot 编码的理解，sklearn. preprocessing.OneHotEncoder()如何进行fit()的？

对one hot 编码的理解，sklearn. preprocessing.OneHotEncoder()如何进行fit()的？的更多相关文章

随机推荐

热门专题