dataframe 列名重新排序

在用list包含多个dict的模式生成dataframe时，由于dict的无序性，而uci很多数据的特征名直接是1,2,3...，生成的dataframe和原生的不一样，

为了方便观看和使用，我们将其列名排序：

有以下两种方法（都不包含y列的情况下）：

1、（我的）：

df.columns = df.columns.astype(int)

df.sort_index(axis=1,inplace=True)

先将列名从字符串转为int型，然后再对列名排序。

2、（网上看到的）：

对于这样的数据： ['Q1.3','Q6.1','Q1.2','Q1.1',......]

要变为这样的： ['Q1.1','Q1.2','Q1.3',.....'Q6.1',......]

df.reindex_axis(sorted(df.columns), axis=1)

这样的话，似乎对于字符串型数据也可以排序（但如果要解决我那个问题，也要先进行数据类型的转换）

最后，附上完整的从uci.txt文本数据类型转换为dataframe表格式的numerical类型代码：

X,y = [],[]

with open("ionosphere_scale.txt") as f:

    lines = f.readlines()

    for line in lines:

        line = line.split()

        y.append(line[0])

        X.append({i.split(":")[0]:i.split(":")[1] for i in line[1:]})

df = pd.DataFrame(X,dtype="float")

n_feat = len(df.columns)

df.columns = df.columns.astype(int)

df.sort_index(axis=1,inplace=True)

df["y"] = np.array(y,dtype=float)

print(df.info())

df.to_excel("ionosphere_scale.xlsx",index=None)

最后，mark一篇关于数据类型转换的文章：https://vimsky.com/article/3694.html

dataframe 列名重新排序的更多相关文章

pandas 修改 DataFrame 列名
问题: 有一个DataFrame,列名为:['$a', '$b', '$c', '$d', '$e'] 现需要改为:['a', 'b', 'c', 'd', 'e'] 有何办法? import pan ...
Pandas——修改DataFrame列名
#生成一个数据框 import pandas as pd a = pd.DataFrame({'a':[1,2,3], 'b':[4,5,6], 'c':[7,8,9]}) #直接修改:缺点必须写明每 ...
获取DataFrame列名的3种方法
df= pd.DataFrame({'a': range(10, 20), 'b': range(20, 30)}) df 1.链表推倒式 [column for column in df][a,b] ...
datatable 列名重新排序
1. DataTable.Columns["MONEY"].SetOrdinal[4]; 2.dt = dt.DefaultView.ToTable(false, listarr. ...
R dataframe 列名包含减号，列名自动变为点
d<- data.frame(x = c(0, 1)) d<- data.frame(d, y = c(0,1)) names(d)[2]<- "a.-5" d ...
大数据入门到精通11-spark dataframe 基础操作
// dataframe is the topic 一.获得基础数据.先通过rdd的方式获得数据 val ny= sc.textFile("data/new_york/")val ...
R 语言的Dataframe常用操作
上节我们简单介绍了Dataframe的定义,这节我们具体来看一下Dataframe的操作首先,数据框的创建函数为 data.frame( ),参考R语言的帮助文档,我们来了解一下data.frame ...
『Kaggle』分类任务_决策树&集成模型&DataFrame向量化操作
决策树这节中涉及到了很多pandas中的新的函数用法等,所以我单拿出来详细的理解一下这些pandas处理过程,进一步理解pandas背后的数据处理的手段原理. 决策树程序数据载入 pd.read_c ...
pandas基础(1)_Series和DataFrame
1:pandas简介 Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的.Pandas 纳入了大量库和一些标 ...

随机推荐

CodeForces 17E Palisection(回文树)
E. Palisection time limit per test 2 seconds memory limit per test 128 megabytes input standard inpu ...
HDU 3388 Coprime（容斥原理+二分）
Coprime Time Limit: 4000/2000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total Su ...
SQL Server常用函数汇总
1.day(date) 用途:获取日期是所在月的几号参数:date是一个可以解析为 time.date.smalldatetime.datetime.datetime2 或 datetime ...
c# WinForm英雄联盟挂机源码及实现原理
主要功能:全自动化英雄联盟挂机,游戏中会在原地放技能保持不掉线状态,游戏结束自动重新开始,自动选择英雄,可以晚上挂机刷人机: 缺陷:没怎么完善,如果掉线或者游戏崩溃网络断了软件会自动停止操作,使用时间 ...
2015-03-20——移动端UC浏览器、QQ浏览器自动全屏
UC:<meta name="full-screen" content="yes"><meta name="browsermode& ...
UML图箭头关系
ML定义的关系主要有:泛化.实现.依赖.关联.聚合.组合,这六种关系紧密程度依次加强,分别看一下泛化概念:泛化是一种一般与特殊.一般与具体之间关系的描述,具体描述建立在一般描述的基础之上,并对其进 ...
python列表套字典数据类型转换
1.题目 list3 = [ {'name':'Alex','hobby':'抽烟'}, {'name':'Alex', 'hobby':'喝酒'}, {'name':'Alex', 'hobby': ...
Spring-Spring IoC容器
IoC容器 Spring容器是Spring框架的核心.容器将创建对象,把它们连接在一起,配置它们,并管理它们的整个生命周期从创建到销毁.Spring容器使用依赖注入(DI)来管理组成一个应用程序的组件 ...
JS操作时间 - UNIX时间戳简单介绍
准备知识 GMT(Greenwich Mean Time) - 格林尼治时间.UTC(Universal Time Code) - 国际协调时间.PST(Pacific Standard Time,太 ...
再来一道测半平面交模板题 Poj1279 Art Gallery
地址:http://poj.org/problem?id=1279 题目: Art Gallery Time Limit: 1000MS Memory Limit: 10000K Total Su ...

dataframe 列名重新排序

dataframe 列名重新排序的更多相关文章

随机推荐

热门专题