机器学习入门-数值特征-数据四分位特征 1.quantile(用于求给定分数位的数值) 2.plt.axvline(用于画出竖线) 3.pd.pcut(对特征进行分位数切分，生成新的特征)

函数说明:

1. .quantile(cut_list) 对DataFrame类型直接使用,用于求出给定列表中分数的数值，这里用来求出4分位出的数值

2. plt.axvline() # 用于画出图形中的竖线

3. pd.qcut(feature, cut_list, labels) 用于对特征进行切分，cut_list切分的分数位置，labels切分后新的标签值

我们可以根据某个特征的四分位数值，给定这个特征一个新的四分位数值的特征

四分位表示的是数值的中位数，1/4位和3/4位

比如，我们可以根据工资的四分位，给定工资一个新的四分位特征，这里的分数我们可以做出自我定义

代码：

第一步：导入数据

第二步：对数据中的收入特征画出直方图

第三步：使用.quantile(cut_list) 找出cut_list分数对应的特征数值

第四步：使用plt.axvline对四分位特征数值画竖线

第五步：使用pd.qcut(data, cut_list, labels) 对收入特征做四分位切分，labels表示切分后新的标签名，不输入labels使用的是数值范围

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

# 第一步导入数据

fcc_survey_df = pd.read_csv('datasets/fcc_2016_coder_survey_subset.csv', encoding='utf-8')

# 第二步：对收入数据画直方图

fig, ax = plt.subplots()

fcc_survey_df['Income'].hist(bins=30, color='#A9C5D3')

ax.set_xlabel('Income', fontsize=10)

ax.set_ylabel('Frequency', fontsize=10)

ax.set_title('Frequency', fontsize=10)

plt.show()

# 第三步：使用.quantile 找出四分位处的数值，

cut_list = [0, 0.25, 0.5, 0.75, 1]

cut_income = fcc_survey_df['Income'].quantile(q=cut_list)

print(cut_income)

# 第四步：在上述图形的基础上使用plt.axvline画出竖线

fig, ax = plt.subplots()

fcc_survey_df['Income'].hist(bins=30, color='#A9C5D3')

colors = ['red', 'green', 'blue', 'yellow']

for i in range(0, 4):

    plt.axvline(cut_income[cut_list[i]], color=colors[i], label=str(cut_list[i])+'_line')

plt.legend(fontsize=14)

ax.set_xlabel('Income', fontsize=10)

ax.set_ylabel('Frequency', fontsize=10)

ax.set_title('Frequency', fontsize=10)

plt.show()

# 第五步：使用pd.qcut将原始特征转换为4分位数的特征

cut_labels = ['0-25Q', '25-50Q', '50-75Q', '75-100Q']

fcc_survey_df['cut_qua'] = pd.qcut(fcc_survey_df['Income'], cut_list)

fcc_survey_df['cut_qua_labels'] = pd.qcut(fcc_survey_df['Income'], cut_list, labels=cut_labels)

print(fcc_survey_df[['Income', 'cut_qua', 'cut_qua_labels']].head())

机器学习入门-数值特征-数据四分位特征 1.quantile(用于求给定分数位的数值) 2.plt.axvline(用于画出竖线) 3.pd.pcut(对特征进行分位数切分，生成新的特征)的更多相关文章

机器学习入门-数值特征-对数据进行log变化
对于一些标签和特征来说,分布不一定符合正态分布,而在实际的运算过程中则需要数据能够符合正态分布因此我们需要对特征进行log变化,使得数据在一定程度上可以符合正态分布进行log变化,就是对数据使用n ...
机器学习入门-数值特征-连续数据离散化(进行分段标记处理) 1.hist(Dataframe格式直接画直方图)
函数说明: 1. .hist 对于Dataframe格式的数据,我们可以使用.hist直接画出直方图对于一些像年龄和工资一样的连续数据,我们可以对其进行分段标记处理,使得这些连续的数据变成离散化就 ...
机器学习入门-数值特征-数字映射和one-hot编码 1.LabelEncoder(进行数据自编码) 2.map(进行字典的数字编码映射) 3.OnehotEncoder(进行one-hot编码) 4.pd.get_dummies(直接对特征进行one-hot编码)
1.LabelEncoder() # 用于构建数字编码 2 .map(dict_map) 根据dict_map字典进行数字编码的映射 3.OnehotEncoder() # 进行one-hot编码 ...
机器学习入门-文本特征-word2vec词向量模型 1.word2vec（进行word2vec映射编码）2.model.wv['sky']输出这个词的向量映射 3.model.wv.index2vec(输出经过映射的词名称)
函数说明: 1. from gensim.model import word2vec 构建模型 word2vec(corpus_token, size=feature_size, min_count ...
机器学习入门-随机森林温度预测的案例 1.datetime.datetime.datetime(将字符串转为为日期格式) 2.pd.get_dummies(将文本标签转换为one-hot编码) 3.rf.feature_importances_(研究样本特征的重要性) 4.fig.autofmt_xdate(rotation=60) 对标签进行翻转
在这个案例中: 1. datetime.datetime.strptime(data, '%Y-%m-%d') # 由字符串格式转换为日期格式 2. pd.get_dummies(features) ...
GBDT原理及利用GBDT构造新的特征-Python实现
1. 背景 1.1 Gradient Boosting Gradient Boosting是一种Boosting的方法,它主要的思想是,每一次建立模型是在之前建立模型损失函数的梯度下降方向.损失函数是 ...
caffe-----使用C++ 提取网络中间层特征数据
最近实验,想要在c++下知道网络中间某一层的特征数据情况,查找了相关资料,记录一下. 其实在caffe框架里面是包含这种操作的,可以模仿tools/extract_features.cpp中的操作来得 ...
机器学习进阶-图像特征sift-SIFT特征点 1.cv2.xfeatures2d.SIFT_create(实例化sift) 2. sift.detect(找出关键点) 3.cv2.drawKeypoints(画出关键点) 4.sift.compute(根据关键点计算sift向量)
1. sift = cv2.xfeatures2d.SIFT_create() 实例化参数说明:sift为实例化的sift函数 2. kp = sift.detect(gray, None) 找出 ...
【机器学习实战】第8章预测数值型数据：回归（Regression）
第8章预测数值型数据:回归 <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/ ...

随机推荐

在CentOS-6.9里安装openvswitch-2.5.4
第一步:安装依赖 yum install rpm-build openssl-devel gcc wgetyum install python-devel kernel-devel kernel-de ...
centos7.4安装过程
开启CPU虚拟化按到install CentOS7 按下tab 输入net.ifnames=0 biosdevname=0 先来一段文档v1 ============================ ...
webview自总结
2,webview ---- 运行时不调用系统自带浏览器: 1,安卓webview post传值问题: 11,WebView基本功能(html5.文件下载和远程URL) 10,webview--网络超 ...
[UE4]传送门：场景切换
RabbitMQ用户角色及权限控制（转）
转载至:https://blog.csdn.net/awhip9/article/details/72123257 2017年05月15日 10:39:26 awhip9 阅读数:3538 ### ...
numpy.ravel() vs numpy.flatten()
首先声明两者所要实现的功能是一致的(将多维数组降为一维),两者的区别在于返回拷贝(copy)还是返回视图(view),numpy.flatten()返回一份拷贝,对拷贝所做的修改不会影响(reflec ...
Linux常用指令之一
1.基础命令 ls --查看当前目录下的文件 cd --切换目录或者直接回到home目录 cd - --切换最近使用的两次目录 cd .. --切换到上一级目录 pwd ...
ZooKeeper系列(5)：管理分布式环境中的数据
引言本节本来是要介绍ZooKeeper的实现原理,但是ZooKeeper的原理比较复杂,它涉及到了paxos算法.Zab协议.通信协议等相关知识,理解起来比较抽象所以还需要借助一些应用场景,来帮我 ...
(转)利用WPF的ListView进行大数据量异步加载
原文:http://www.cnblogs.com/scy251147/archive/2012/01/08/2305319.html 由于之前利用Winform的ListView进行大数据量加载的时 ...
css写复选框
前面讲过<完全使用css编写复选框>,后来在深入学习sass过程中,发现:这种写法虽然也能达到目的,但是稍嫌复杂了一点.这里介绍一种可以说更简单一点的方法,其实也就是html结构更简单一点 ...

机器学习入门-数值特征-数据四分位特征 1.quantile(用于求给定分数位的数值) 2.plt.axvline(用于画出竖线) 3.pd.pcut(对特征进行分位数切分，生成新的特征)

机器学习入门-数值特征-数据四分位特征 1.quantile(用于求给定分数位的数值) 2.plt.axvline(用于画出竖线) 3.pd.pcut(对特征进行分位数切分，生成新的特征)的更多相关文章

随机推荐

热门专题