机器学习入门-数值特征-连续数据离散化(进行分段标记处理) 1.hist(Dataframe格式直接画直方图)

函数说明:

1. .hist 对于Dataframe格式的数据，我们可以使用.hist直接画出直方图

对于一些像年龄和工资一样的连续数据，我们可以对其进行分段标记处理，使得这些连续的数据变成离散化

就好比：我们可以将0-9岁用0表示

10-19用1表示

20-29用2表示

...

下面我们对一个年龄数据进行了分段标记处理

代码：

第一步：导入数据

第二步：对年龄特征使用.hist画出直方图，直方图本身也是一个分段的过程

第三步：使用np.floor(/10)取整，将比如5岁的年龄计算后为0

第四步：将特征放入原数据中，进行展示

import pandas as pd

import matplotlib.pyplot as plt

import numpy as np

# 第一步

fcc_survey_df = pd.read_csv('datasets/fcc_2016_coder_survey_subset.csv')

# 对年龄特征进行分段标记：比如0-9分为0, 10-19为1....

# 先对年龄字典画直方图，直方图本身也是一种分段过程

# 第二步

fig, ax = plt.subplots()

fcc_survey_df['Age'].hist(color='#A9C5D3')

ax.set_xlabel('Age')

ax.set_ylabel('Frequency')

ax.set_title('Age bins')

plt.show()

# 第三步我们使用/10取整对年龄字段进行分段处理

Age_bins = np.floor(fcc_survey_df['Age'].values / 10)

# 第四步：将列表放入原数据中进行展示

fcc_survey_df['Age_bins'] = Age_bins

print(fcc_survey_df[['Age', 'Age_bins']].head())

机器学习入门-数值特征-连续数据离散化(进行分段标记处理) 1.hist(Dataframe格式直接画直方图)的更多相关文章

机器学习入门-数值特征-对数据进行log变化
对于一些标签和特征来说,分布不一定符合正态分布,而在实际的运算过程中则需要数据能够符合正态分布因此我们需要对特征进行log变化,使得数据在一定程度上可以符合正态分布进行log变化,就是对数据使用n ...
机器学习入门-数值特征-数据四分位特征 1.quantile(用于求给定分数位的数值) 2.plt.axvline(用于画出竖线) 3.pd.pcut(对特征进行分位数切分，生成新的特征)
函数说明: 1. .quantile(cut_list) 对DataFrame类型直接使用,用于求出给定列表中分数的数值,这里用来求出4分位出的数值 2. plt.axvline() # 用于画 ...
机器学习入门-数值特征-数字映射和one-hot编码 1.LabelEncoder(进行数据自编码) 2.map(进行字典的数字编码映射) 3.OnehotEncoder(进行one-hot编码) 4.pd.get_dummies(直接对特征进行one-hot编码)
1.LabelEncoder() # 用于构建数字编码 2 .map(dict_map) 根据dict_map字典进行数字编码的映射 3.OnehotEncoder() # 进行one-hot编码 ...
机器学习入门-数值特征-进行二值化变化 1.Binarizer(进行数据的二值化操作)
函数说明: 1. Binarizer(threshold=0.9) 将数据进行二值化,threshold表示大于0.9的数据为1,小于0.9的数据为0 对于一些数值型的特征:存在0还有其他的一些数二 ...
机器学习入门-数值特征-进行多项式变化(将特征投影到高维度上) 1.PolynomialFeatures(将数据变化为多项式特征)
函数说明: 1. PolynomialFeatures(degree=2, interaction_only=False, include_bias=False) 参数说明:degree=2,表示多项 ...
机器学习入门-文本特征-使用LDA主题模型构造标签 1.LatentDirichletAllocation(LDA用于构建主题模型) 2.LDA.components(输出各个词向量的权重值)
函数说明 1.LDA(n_topics, max_iters, random_state) 用于构建LDA主题模型,将文本分成不同的主题参数说明:n_topics 表示分为多少个主题, max_i ...
机器学习入门09 - 特征组合 (Feature Crosses)
原文链接:https://developers.google.com/machine-learning/crash-course/feature-crosses/ 特征组合是指两个或多个特征相乘形成的 ...
机器学习入门-文本特征-word2vec词向量模型 1.word2vec（进行word2vec映射编码）2.model.wv['sky']输出这个词的向量映射 3.model.wv.index2vec(输出经过映射的词名称)
函数说明: 1. from gensim.model import word2vec 构建模型 word2vec(corpus_token, size=feature_size, min_count ...
机器学习入门 - Google机器学习速成课程 - 笔记汇总
机器学习入门 - Google机器学习速成课程 https://www.cnblogs.com/anliven/p/6107783.html MLCC简介前提条件和准备工作完成课程的下一步机器学 ...

随机推荐

whith ~ as 用法
个人理解 with self.client.get("/", catch_response=True) as response: 其实就是 response = self.clie ...
js堆和栈
一.栈栈:英文为“stack”: 定义:一种存放数据的内存区域: 特点: ①LIFO,后进先出: 可视化描述: ②调用栈,函数或者子例程像堆积木一样存放,以实现层层调用: 函数调用形成一个栈帧: f ...
Centos7.2/7.3集群安装Kubernetes 1.8.4 + Dashboard(转)
原文https://www.cnblogs.com/burningTheStar/p/7865998.html 1.环境配置结点数量:3 结点系统:CentOS 7.2 / 7.3 2.效果展示 3 ...
lucene索引查看工具luke和文本提取工具Tika
luke可以方便的查看lucene的索引信息,当然也可以查看solr和es中的索引信息(基于lucene实现). 查看索引前,要注意lucene版本的问题,高版本的lucene用低版本的luke工具就 ...
redis-5.0.3集群搭建
首先部署redis-5.0.3,请参考我的另一篇文章 https://www.cnblogs.com/djlsunshine/p/10592174.html 启动redis服务 # redis-ser ...
andrid 上传图片 asp.net 后台接收并保存
android 端代码 package com.example.uploadfile; import java.io.DataOutputStream; import java.io.File; im ...
android判断adb调试是否打开及代码跳转到开发者选项界面
boolean enableAdb = (Settings.Secure.getInt(getContentResolver(), Settings.Secure.ADB_ENABLED, 0) &g ...
.net core identity(一)简单运用
1.net core identity涉及到很多知识,很多概念包括Claims,Principal等等概念需要我们一步步学习才能掌握其原理,有两篇博客是比较好的介绍该框架的, https://segm ...
00001 - Linux下环境变量/etc/profile、/etc/bashrc、~/.bashrc的区别
①/etc/profile: 该文件登录操作系统时,为每个用户设置环境信息,当用户第一次登录时,该文件被执行.也就是说这个文件对每个shell都有效,用于获取系统的环境信息. # /etc/profi ...
springboot+mybatis整合(单元测试，异常处理，日志管理，AOP)
我用的事IDEA,jdk版本是1.7.新建项目的时候这个地方的选择需要注意一下,springboot版本是1.5的,否则不支持1.7的jdk pom.xml <dependency> &l ...

机器学习入门-数值特征-连续数据离散化(进行分段标记处理) 1.hist(Dataframe格式直接画直方图)

机器学习入门-数值特征-连续数据离散化(进行分段标记处理) 1.hist(Dataframe格式直接画直方图)的更多相关文章

随机推荐

热门专题