二值化

设置一个condition，把连续型的数据分类两类。比如Age，大于30，和小于30。

from sklearn.preprocessing import Binerize as Ber

x = data_2.iloc[:,0].values.reshpe(-1,1) #提取数据

trans = Ber(threshold = 30).fit_transform(x)

trans

这是x中>30的设置为1，其他的设置为0.

独热编码

如果数据是有序，但不能进行计算。比如小学、中学、大学。如果用1,2,3分别进行替代。那么计算时，可能会将2视作1+1，两个小学加起来和中学不等，因此需要将它们单独分类组成这样的数据：

stu_id	小学	中学	大学
1234	1
1235			1
1236		1

这种方法就叫独热编码。

from sklearn.preprocessing import OneHotEncoder

enc=OneHotEncoder(categories='auto').fit(x)

使用get_feature_names() 可查看名称：

enc.get_feature_names()

enc.get_feature_names()

得到的结果是稀疏矩阵，需要用toArray() 方法。

result=OneHotEncoder(categories='auto').fit_transform(x).toarray()

最后将结果连接到原数据中，再提取。

newdata=pd.concat([data, pd.DataFrame(result)],axis=1)

sklearn连续型数据离散化的更多相关文章

python数据分析所需要了解的操作。
import pandas as pd data_forest_fires = pd.read_csv("data/forestfires.csv", encoding='gbk' ...
决策树(ID3、C4.5、CART)
ID3决策树 ID3决策树分类的根据是样本集分类前后的信息增益. 假设我们有一个样本集,里面每个样本都有自己的分类结果. 而信息熵可以理解为:“样本集中分类结果的平均不确定性”,俗称信息的纯度. 即熵 ...
python数据预处理
缺失值处理 import pandas as pda import numpy as npy import matplotlib.pylab as pyl # data=pda.read_excel( ...
数据预处理 | 使用 Pandas 进行数值型数据的标准化归一化离散化二值化
1 标准化 & 归一化导包和数据 import numpy as np from sklearn import preprocessing data = np.loadtxt('data.t ...
SPSS常用基础操作（2）——连续变量离散化
首先说一下什么是离散化以及连续变量离散化的必要性. 离散化是把无限空间中无限的个体映射到有限的空间中去,通俗点讲就是把连续型数据切分为若干“段”,也称bin,离散化在数据分析中特别是数据挖掘中被普遍采 ...
机器学习之决策树原理和sklearn实践
1. 场景描述时间:早上八点,地点:婚介所 '闺女,我有给你找了个合适的对象,今天要不要见一面?' '多大?' '26岁' '长的帅吗?' '还可以,不算太帅' '工资高吗?' '略高于平均水平' ...
HotSpot关联规则算法（2）-- 挖掘连续型和离散型数据
本篇代码可在 http://download.csdn.net/detail/fansy1990/8502323下载. 前篇<HotSpot关联规则算法(1)-- 挖掘离散型数据>分析了离 ...
Alink漫谈(十九) ：源码解析之分位点离散化Quantile
Alink漫谈(十九) :源码解析之分位点离散化Quantile 目录 Alink漫谈(十九) :源码解析之分位点离散化Quantile 0x00 摘要 0x01 背景概念 1.1 离散化 1 ...
数据准备<3>:数据预处理
数据预处理是指因为算法或者分析需要,对经过数据质量检查后的数据进行转换.衍生.规约等操作的过程.整个数据预处理工作主要包括五个方面内容:简单函数变换.标准化.衍生虚拟变量.离散化.降维.本文将作展开介 ...

随机推荐

[题解] LuoguP4609 [FJOI2016]建筑师
传送门首先对于高度为\(n\)的建筑,他的左边有\(A-1\)个建筑能被看到,右边有\(B-1\)个建筑能被看到,这两者类似,所以先来看左边. 一个建筑将会遮挡住它后面的高度比它矮的建筑,直到一个高 ...
axios实现类似form传值的格式，以及实现拦截器功能，response拦截实现权限判断
import axios from 'axios' import Qs from 'qs' // 超时设置 const service = axios.create({ transformReques ...
vue小练习--音乐播放器
1 首先建一个文件夹放几首歌曲 2 看代码 1)基本版本 <!DOCTYPE html> <html lang="zh-CN"> <head> ...
java List的用法
List的用法List包括List接口以及List接口的所有实现类.因为List接口实现了Collection接口,所以List接口拥有Collection接口提供的所有常用方法,又因为List是列表 ...
Banner信息收集和美杜莎使用（9.26 第十二天）
Banner信息收集 Banner信息,欢迎语,在banner信息中可以得到软件开发商.软件名称.版本.服务类型等信息,通过这些信息可以使用某些工具直接去使用相对应的exp去攻击前提条件:需要和目标 ...
Vulkan SDK 之 Depth Buffer
深度缓冲是可选的,比如渲染一个3D的立方体的时候,就需要用到深度缓冲.Swapchain就算有多个images,此时深度缓冲区也只需要一个.vkCreateSwapchainKHR 会创建所有需要的i ...
springboot学习2 整合mybatis
springboot整合mybatis 一.添加mybatis和数据库连接的依赖  <dependency> <groupId>or ...
java中的字符串String
一.String简介d 参考:https://www.cnblogs.com/zhangyinhua/p/7689974.html String类代表字符串. java.lang.String: Ja ...
Django2.0中的urlpattern匹配不输入任何网址时的写法
如果使用urlpattern匹配不输入任何网址时,应该如何写? 例如:仅匹配http://127.0.0.1:8000/时想要跳转到某个页面,这时urlpattern中的url规则应该写成: 情况1: ...
JDK源码阅读-------自学笔记(五)(浅析数组)
一.数组基础 1.定义和特点数组也可以看做是对象,数组变量属于引用类型,数组中每个元素相当于该队形的成员变量,数组对象存储在堆中. 2.初始化数组常用类初始化 // 整型初始化 int[] int ...

sklearn连续型数据离散化

二值化

标签

独热编码

sklearn连续型数据离散化的更多相关文章

随机推荐

热门专题