机器学习入门-数值特征-连续数据离散化(进行分段标记处理) 1.hist(Dataframe格式直接画直方图)
函数说明:
1. .hist 对于Dataframe格式的数据,我们可以使用.hist直接画出直方图
对于一些像年龄和工资一样的连续数据,我们可以对其进行分段标记处理,使得这些连续的数据变成离散化
就好比:我们可以将0-9岁用0表示
10-19用1表示
20-29用2表示
...
下面我们对一个年龄数据进行了分段标记处理
代码:
第一步:导入数据
第二步:对年龄特征使用.hist画出直方图,直方图本身也是一个分段的过程
第三步:使用np.floor(/10)取整,将比如5岁的年龄计算后为0
第四步:将特征放入原数据中,进行展示
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np # 第一步
fcc_survey_df = pd.read_csv('datasets/fcc_2016_coder_survey_subset.csv') # 对年龄特征进行分段标记:比如0-9分为0, 10-19为1....
# 先对年龄字典画直方图,直方图本身也是一种分段过程
# 第二步
fig, ax = plt.subplots()
fcc_survey_df['Age'].hist(color='#A9C5D3')
ax.set_xlabel('Age')
ax.set_ylabel('Frequency')
ax.set_title('Age bins')
plt.show()

# 第三步我们使用/10取整对年龄字段进行分段处理
Age_bins = np.floor(fcc_survey_df['Age'].values / 10)
# 第四步:将列表放入原数据中进行展示
fcc_survey_df['Age_bins'] = Age_bins
print(fcc_survey_df[['Age', 'Age_bins']].head())

机器学习入门-数值特征-连续数据离散化(进行分段标记处理) 1.hist(Dataframe格式直接画直方图)的更多相关文章
- 机器学习入门-数值特征-对数据进行log变化
		
对于一些标签和特征来说,分布不一定符合正态分布,而在实际的运算过程中则需要数据能够符合正态分布 因此我们需要对特征进行log变化,使得数据在一定程度上可以符合正态分布 进行log变化,就是对数据使用n ...
 - 机器学习入门-数值特征-数据四分位特征 1.quantile(用于求给定分数位的数值)  2.plt.axvline(用于画出竖线)  3.pd.pcut(对特征进行分位数切分,生成新的特征)
		
函数说明: 1. .quantile(cut_list) 对DataFrame类型直接使用,用于求出给定列表中分数的数值,这里用来求出4分位出的数值 2. plt.axvline() # 用于画 ...
 - 机器学习入门-数值特征-数字映射和one-hot编码 1.LabelEncoder(进行数据自编码) 2.map(进行字典的数字编码映射) 3.OnehotEncoder(进行one-hot编码)  4.pd.get_dummies(直接对特征进行one-hot编码)
		
1.LabelEncoder() # 用于构建数字编码 2 .map(dict_map) 根据dict_map字典进行数字编码的映射 3.OnehotEncoder() # 进行one-hot编码 ...
 - 机器学习入门-数值特征-进行二值化变化 1.Binarizer(进行数据的二值化操作)
		
函数说明: 1. Binarizer(threshold=0.9) 将数据进行二值化,threshold表示大于0.9的数据为1,小于0.9的数据为0 对于一些数值型的特征:存在0还有其他的一些数 二 ...
 - 机器学习入门-数值特征-进行多项式变化(将特征投影到高维度上) 1.PolynomialFeatures(将数据变化为多项式特征)
		
函数说明: 1. PolynomialFeatures(degree=2, interaction_only=False, include_bias=False) 参数说明:degree=2,表示多项 ...
 - 机器学习入门-文本特征-使用LDA主题模型构造标签 1.LatentDirichletAllocation(LDA用于构建主题模型)  2.LDA.components(输出各个词向量的权重值)
		
函数说明 1.LDA(n_topics, max_iters, random_state) 用于构建LDA主题模型,将文本分成不同的主题 参数说明:n_topics 表示分为多少个主题, max_i ...
 - 机器学习入门09 - 特征组合 (Feature Crosses)
		
原文链接:https://developers.google.com/machine-learning/crash-course/feature-crosses/ 特征组合是指两个或多个特征相乘形成的 ...
 - 机器学习入门-文本特征-word2vec词向量模型  1.word2vec(进行word2vec映射编码)2.model.wv['sky']输出这个词的向量映射  3.model.wv.index2vec(输出经过映射的词名称)
		
函数说明: 1. from gensim.model import word2vec 构建模型 word2vec(corpus_token, size=feature_size, min_count ...
 - 机器学习入门 - Google机器学习速成课程 - 笔记汇总
		
机器学习入门 - Google机器学习速成课程 https://www.cnblogs.com/anliven/p/6107783.html MLCC简介 前提条件和准备工作 完成课程的下一步 机器学 ...
 
随机推荐
- 客户端负载均衡Feign之二:Feign 功能介绍
			
一.Ribboon配置 在Spring cloud Feign中客户端负载均衡是通过Spring cloud Ribbon实现的,所以我们可以直接通过配置Ribbon客户端的方式来自定义各个服务客户端 ...
 - UnicodeString基本操作(Ring0)
			
#include "Unicode_String_Ring0.h" //bp Unicode_String_Ring0!DriverEntry NTSTATUS DriverEnt ...
 - junit中线程需要注意的问题
			
Junit主线程执行完毕后,就会结束进程,不关注是否有其他线程在运行.当Junit运行完毕后,如果其他线程还没有执行完毕,那么不会再执行. 使用CountDownLatch,保证启动的线程运行结束后, ...
 - android-menudrawer 和SlidingMenu 用法
			
项目地址: https://github.com/gokhanakkurt/android-menudrawer https://github.com/jfeinstein10/SlidingM ...
 - win7颜色反转
			
win7屏幕太亮,整天看电脑看的头疼 利用放大镜实现颜色反转 打开控制面板 //也可'开始'处直接输入输入放大镜进入 选择轻松访问 启用放大镜 选择设置 启用颜色反转 win+'+'增加放大镜的放大倍 ...
 - 一个简单的基于多进程实现并发的Socket程序
			
在单进程的socket的程序的基础上,实现多进程并发效果的思路具体是:在server端开启“链接循环”,每建立一次链接就生成一个Process对象进行server-client的互动,而client端 ...
 - [UE4]链接多个字符串Make Literal String
 - [UE4]增加开枪冷却时间, Get Time Seconds
			
Get Time Seconds:游戏开始到现在过去了多少秒
 - Python基础知识(五)
			
# -*- coding: utf-8 -*-# @Time : 2018-12-25 19:31# @Author : 三斤春药# @Email : zhou_wanchun@qq.com# @Fi ...
 - Shiro Realm
			
Realm: 在实际应用中,shiro从数据库中获取安全数据(如用户.角色.权限),而不是从ini中,可作为安全数据源 即SecurityManager要验证用户身份,那么它需要从Realm获取相应的 ...