机器学习实战基础（十二）：sklearn中的数据预处理和特征工程（五）数据预处理 Preprocessing & Impute 之处理分类特征：处理连续性特征二值化与分段

处理连续性特征二值化与分段

sklearn.preprocessing.Binarizer
根据阈值将数据二值化（将特征值设置为0或1），用于处理连续型变量。大于阈值的值映射为1，而小于或等于阈值的值映射为0。默认阈值为0时，特征中所有的正值都映射到1。
二值化是对文本计数数据的常见操作，分析人员可以决定仅考虑某种现象的存在与否。它还可以用作考虑布尔随机变量的估计器的预处理步骤（例如，使用贝叶斯设置中的伯努利分布建模）。

#将年龄二值化

data_2 = data.copy()

from sklearn.preprocessing import Binarizer

X = data_2.iloc[:,0].values.reshape(-1,1)               #类为特征专用，所以不能使用一维数组

transformer = Binarizer(threshold=30).fit_transform(X)

transformer

preprocessing.KBinsDiscretizer
这是将连续型变量划分为分类变量的类，能够将连续型变量排序后按顺序分箱后编码。总共包含三个重要参数：

from sklearn.preprocessing import KBinsDiscretizer

X = data.iloc[:,0].values.reshape(-1,1)

est = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')

est.fit_transform(X)

#查看转换后分的箱：变成了一列中的三箱

set(est.fit_transform(X).ravel())

est = KBinsDiscretizer(n_bins=3, encode='onehot', strategy='uniform')

#查看转换后分的箱：变成了哑变量

est.fit_transform(X).toarray()

机器学习实战基础（十二）：sklearn中的数据预处理和特征工程（五）数据预处理 Preprocessing & Impute 之处理分类特征：处理连续性特征二值化与分段的更多相关文章

机器学习实战（Machine Learning in Action）学习笔记————09.利用PCA简化数据
机器学习实战(Machine Learning in Action)学习笔记————09.利用PCA简化数据关键字:PCA.主成分分析.降维作者:米仓山下时间:2018-11-15机器学习实战(Ma ...
机器学习实战基础（二十）：sklearn中的降维算法PCA和SVD（一）之概述
概述 1 从什么叫“维度”说开来我们不断提到一些语言,比如说:随机森林是通过随机抽取特征来建树,以避免高维计算:再比如说,sklearn中导入特征矩阵,必须是至少二维:上周我们讲解特征工程,还特地提 ...
机器学习实战基础（二十四）：sklearn中的降维算法PCA和SVD（五） PCA与SVD 之重要接口inverse_transform
重要接口inverse_transform 在上周的特征工程课中,我们学到了神奇的接口inverse_transform,可以将我们归一化,标准化,甚至做过哑变量的特征矩阵还原回原始数据中的特征矩阵 ...
机器学习实战基础（十五）：sklearn中的数据预处理和特征工程（八）特征选择之 Filter过滤法（二）相关性过滤
相关性过滤方差挑选完毕之后,我们就要考虑下一个问题:相关性了. 我们希望选出与标签相关且有意义的特征,因为这样的特征能够为我们提供大量信息.如果特征与标签无关,那只会白白浪费我们的计算内存,可能还会 ...
机器学习实战基础（十四）：sklearn中的数据预处理和特征工程（七）特征选择之 Filter过滤法（一）方差过滤
Filter过滤法过滤方法通常用作预处理步骤,特征选择完全独立于任何机器学习算法.它是根据各种统计检验中的分数以及相关性的各项指标来选择特征 1 方差过滤 1.1 VarianceThreshold ...
机器学习实战基础（二十三）：sklearn中的降维算法PCA和SVD（四） PCA与SVD 之 PCA中的SVD
PCA中的SVD 1 PCA中的SVD哪里来? 细心的小伙伴可能注意到了,svd_solver是奇异值分解器的意思,为什么PCA算法下面会有有关奇异值分解的参数?不是两种算法么?我们之前曾经提到过,P ...
机器学习实战基础（二十一）：sklearn中的降维算法PCA和SVD（二） PCA与SVD 之降维究竟是怎样实现
简述在降维过程中,我们会减少特征的数量,这意味着删除数据,数据量变少则表示模型可以获取的信息会变少,模型的表现可能会因此受影响.同时,在高维数据中,必然有一些特征是不带有有效的信息的(比如噪音),或 ...
机器学习实战基础（十）：sklearn中的数据预处理和特征工程（三）数据预处理 Preprocessing & Impute 之缺失值
缺失值机器学习和数据挖掘中所使用的数据,永远不可能是完美的.很多特征,对于分析和建模来说意义非凡,但对于实际收集数据的人却不是如此,因此数据挖掘之中,常常会有重要的字段缺失值很多,但又不能舍弃字段的 ...
机器学习实战基础（九）：sklearn中的数据预处理和特征工程（二）数据预处理 Preprocessing & Impute 之数据无量纲化
1 数据无量纲化在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布的需求,这种需求统称为将数据“无量纲化”.譬如梯度和矩阵为核心的算法中,譬如逻辑回 ...

随机推荐

@atcoder - AGC002E@ Candy Piles
目录 @description@ @solution@ @accepted code@ @details@ @description@ 给定 N 堆糖果,第 i 堆包含 ai 个糖果. 现在两人进行博 ...
java.net.URISyntaxException 问题解决
先上代码: Properties pro = PropertyUtil.getPropertiesInfo("xxx.properties"); String url = pro. ...
（二）POI-创建一个sheet页，并添加行列数据
原文:https://blog.csdn.net/class157/article/details/92800439 1.只创建sheet页 package com.java.poi; import ...
CSS基础之简单介绍
网页诞生初期,没有描述样式的语言,创建了很多用于描述样式的标签.但这些标签破坏了html作为一门结构语言的表现. 于是,W3C在1995年开始起草CSS,提出将结构和样式分离的解决方案. 元素元素是 ...
Jmeter基础003----Jmeter组件之测试计划和线程组
一.测试计划 1.界面展示测试计划是测试脚本的容器,主要是对测试脚本做总体设置.它定义了测试要执行什么,怎么执行(执行的).其界面如下图所示: 2.设置用户定义变量在测试计划中定义的变量是在整 ...
2、Redis如何配置成一个windows服务并且设置一键安装卸载与启停
每天启动redis虽然只是一个命令行的事情,但是还是比较烦,所以…… 参考文档:Windows Service Documentation.docx 默认前提:Redis已安装并配置完成(不知道如何配 ...
C#数据结构与算法系列（七）：约瑟夫问题（Josephu）
1.介绍 Josephu问题为:设编号为1.2....n的n个人围坐在一圈,约定编号为k(1<=k<=n) 的人从1开始报数, 数到m的那个人出列,它的下一位又从1开始报数,数到m的那个人 ...
cb03a_c++_数据结构_顺序容器_STL_stack
/*cb03a_c++_数据结构_顺序容器_STL_stack堆栈:LIFO--Last In First Out后进先出,用于系统程序设计自适应容器(容器适配器),不是独立的容器,是一个适配器栈适配 ...
const变量的修改
int main(){ const char a[]="hello world"; char *aa=(char *)a; printf("\nthe a address ...
[ C++ ] 勿在浮沙筑高台 —— 内存管理（18~31p） std::alloc
部分内容个人感觉不是特别重要,所以没有记录了.其实还是懒 embedded pointers 把对象的前四字节当指针用. struct obj{ struct obj *free_list_link; ...

机器学习实战基础（十二）：sklearn中的数据预处理和特征工程（五） 数据预处理 Preprocessing & Impute 之 处理分类特征：处理连续性特征 二值化与分段

处理连续性特征 二值化与分段

机器学习实战基础（十二）：sklearn中的数据预处理和特征工程（五） 数据预处理 Preprocessing & Impute 之 处理分类特征：处理连续性特征 二值化与分段的更多相关文章

随机推荐

热门专题

机器学习实战基础（十二）：sklearn中的数据预处理和特征工程（五）数据预处理 Preprocessing & Impute 之处理分类特征：处理连续性特征二值化与分段

处理连续性特征二值化与分段

机器学习实战基础（十二）：sklearn中的数据预处理和特征工程（五）数据预处理 Preprocessing & Impute 之处理分类特征：处理连续性特征二值化与分段的更多相关文章