Pandas实用使用技巧

1 列拆分成行

常见的需求是将某一列根据指定的分隔符拆分成多列。现有需求,根据指定的分隔符将其拆分为多行

例:

df =     A       B
0 a f
1 b;c h;g
2 d k
3 e l

现需要将其拆分为:

df =     A       B
0 a f
1 b h
1 c g
2 d k
3 e l

1.1 处理A列

实现过程如下:

df = pd.DataFrame({'A': ['a', 'b;c', 'd', 'e'], 'B': ['f', 'h;j', 'k', 'l']})
df
     A    B
0 a f
1 b;c h;j
2 d k
3 e l

将A列按照“;”分割,并展开为DataFrame,该效果由expand参数空值:

df_a = df['A'].str.split(';', expand=True)
df_a 0 1
0 a None
1 b c
2 d None
3 e None

将df_a进行堆积:

df_a = df_a.stack()
df_a 0 0 a
1 0 b
1 c
2 0 d
3 0 e
dtype: object

将内层索引重置为列并删除掉:

df_a = df_a.reset_index(level=1, drop=True)
df_a 0 a
1 b
1 c
2 d
3 e
dtype: object

重命名该Series,否则接下来合并会失败:

df_a.rename('A_split', inplace=True)
df_a 0 a
1 b
1 c
2 d
3 e
Name: A_split, dtype: object

1.2 处理列B

处理过程同列A,最后重命名后为:

df_b.rename('B_split', inplace=True)
df_b 0 f
1 h
1 j
2 k
3 l
Name: B_split, dtype: object

1.3 合并A_split和B_split

水平合并处理完成后的两列:

concat_a_b = pd.concat([df_a, df_b], axis=1)
concat_a_b
A_split B_split
0 a     f
1 b      h
1 c     j
2 d     k
3 e      l

1.4 最后和原数据合并

将最终处理的数据和原数据根据索引进行合并:

df = df.join(concat_a_b, how='inner')
df    A   B A_split B_split
0 a   f a f
1 b;c h;j b h
1 b;c h;j c j
2 d k d k
3 e l e l

最后达到了想要的效果。

2 切片插入多行

常见的需求是在指定的位置插入一行或者一列。现有需求,在指定的位置插入多行或者多列:

df = pd.DataFrame({'Name': ['Tom', 'Jack', 'Steve', 'Ricky'], 'Age': [28,34,29,42]})

df
Out[4]:
Name Age
0 Tom 28
1 Jack 34
2 Steve 29
3 Ricky 42 df1 = pd.DataFrame({'Name':['Anna', 'Susie'],'Age':[20,50]}) df1
Out[6]:
Name Age
0 Anna 20
1 Susie 50

 df2 = pd.DataFrame({'Name':['Anna', 'Susie', 'Jhone'],'Age':[20, 50, 35]})

 df2
 Out[10]:

   Name  Age
0 Anna 20
1 Susie 50
2 Jhone 35

2.1 将df1作为整体插入索引2的位置

通过numpy的insert方法实现数组重构,然后再将数组构造成需要的表格:

np.insert(df.values, 2, df1.values, axis=0)
Out[7]:
array([['Tom', 28],
['Jack', 34],
['Anna', 20],
['Susie', 50],
['Steve', 29],
['Ricky', 42]], dtype=object)

可以观察到数据被插入到df索引2的位置。可以根据原来的列名直接构造DataFrame来实现需求:

pd.DataFrame(np.insert(df.values, 2, df1.values, axis=0), columns=df.columns)
Out[8]:
Name Age
0 Tom 28
1 Jack 34
2 Anna 20
3 Susie 50
4 Steve 29
5 Ricky 42

2.2 将df2每一行分开插入到指定位置

通过numpy的insert方法实现数组重构,然后再将数组构造成需要的表格:

np.insert(df.values, (0, 1, 2), df2.values, axis=0)
Out[12]:
array([['Anna', 20],
['Tom', 28],
['Susie', 50],
['Jack', 34],
['Jhone', 35],
['Steve', 29],
['Ricky', 42]], dtype=object)

可以观察到数据被插入到df索引0、1、2的位置。可以根据原来的列名直接构造DataFrame来实现需求:

pd.DataFrame(np.insert(df.values, (0, 1, 2), df2.values, axis=0), columns=df.columns)
Out[13]:
Name Age
0 Anna 20
1 Tom 28
2 Susie 50
3 Jack 34
4 Jhone 35
5 Steve 29
6 Ricky 42

Pandas使用实用技巧的更多相关文章

  1. Notepad++ 实用技巧

    Notepad++是一款开源的文本编辑器,功能强大.很适合用于编辑.注释代码.它支持绝大部分主流的编程语言. 本文主要列举了本人在实际使用中遇到的一些技巧. 快捷键 自定义快捷键 首先,需要知道的是: ...

  2. javascript实用技巧、javascript高级技巧

    字号+作者:H5之家 来源:H5之家 2016-10-31 11:00 我要评论( ) 三零网提供网络编程. JavaScript 的技术文章javascript实用技巧.javascript高级技巧 ...

  3. iOS开发实用技巧—Objective-C中的各种遍历(迭代)方式

    iOS开发实用技巧—Objective-C中的各种遍历(迭代)方式 说明: 1)该文简短介绍在iOS开发中遍历字典.数组和集合的几种常见方式. 2)该文对应的代码可以在下面的地址获得:https:// ...

  4. iOS开发实用技巧—在手机浏览器头部弹出app应用下载提示

    iOS开发实用技巧—在手机浏览器头部弹出app应用下载提示 本文介绍其简单使用: 第一步:在本地建立一个访问的服务端.  打开本地终端,在本地新建一个文件夹,在该文件夹中存放测试的html页面.   ...

  5. iOS开发实用技巧—项目新特性页面的处理

    iOS开发实用技巧篇—项目新特性页面的处理 说明:本文主要说明在项目开发中会涉及到的最最简单的新特性界面(实用UIScrollView展示多张图片的轮播)的处理. 代码示例: 新建一个专门的处理新特性 ...

  6. IOS 网络浅析-(十三 SDWebImage 实用技巧)

    IOS 网络浅析-(十三 SDWebImage 实用技巧) 首先让我描述一下为了什么而产生的实用技巧.(在TableView.CollectionView中)当用户所处环境WiFi网速不够快(不能立即 ...

  7. NSString的八条实用技巧

    NSString的八条实用技巧 有一篇文章写了:iOS开发之NSString的几条实用技巧 , 今天这篇,我们讲讲NSString的八条实用技巧.大家可以收藏起来,方便开发随时可以复制粘贴. 0.首字 ...

  8. ###《VIM实用技巧》

    ###<VIM实用技巧> #@author: gr #@date: 2015-11-20 #@email: forgerui@gmail.com <VIM实用技巧>阅读笔记. ...

  9. PowerDesigner实用技巧小结(3)

    PowerDesigner实用技巧小结(3) PowerDesigner 技巧小结 sqlserver数据库databasevbscriptsqldomain 1.PowerDesigner 使用 M ...

随机推荐

  1. 全网独发gensim中similarities.Similarity用法

    index = similarities.MatrixSimilarity(lsi[corpus]) # 管网的原文翻译如下: 警告:similarities.MatrixSimilarity类仅仅适 ...

  2. 【面试突击】-Redis常见面试题(二)

    1.什么是Redis?简述它的优缺点? Redis本质上是一个Key-Value类型的内存数据库,很像memcached,整个数据库统统加载在内存当中进行操作,定期通过异步操作把数据库数据flush到 ...

  3. 【开发工具】- 设置Sublime支持韩文展示

    菜单栏 --> 首选项 --> 设置 -->User 添加以下代码 { "font_size": 12, "show_encoding":tr ...

  4. 图解HTTP(二)

    第四章 返回结果的HTTP状体码 1.状态码告知从服务器返回的结果   类别 原因短语 1XX Infomational信息性状态码 接收的请求正在处理中 2XX Success成功状态码 请求正常处 ...

  5. mysql 根据日期进行查询数据,没有数据也要显示空

    写这篇博客主要是记录自己在对订单进行按日期查询时使用的一种查询的方法,这里的orders是订单表,你也可以改成别的什么表对于最终数据不会造成影响,除非你那个表的数据只有几条那样就会出现查不到日期的情况 ...

  6. 【DATAGUARD】物理dg配置客户端无缝切换 (八.3)--客户端TAF 配置

    [DATAGUARD]物理dg配置客户端无缝切换 (八.3)--客户端TAF 配置 一.1  BLOG文档结构图       一.2  前言部分   一.2.1  导读 各位技术爱好者,看完本文后,你 ...

  7. 复盘一篇浅谈KNN的文章

    认识-什么是KNN KNN 即 K-nearest neighbors, 是一个hello world级别, 但被广泛使用的机器学习算法, 中文叫K近邻算法, 是一种基本的分类和回归方法. KNN既可 ...

  8. appium 设备信息字典(desired_caps)

    操作系统类型.操作系统版本.设备名称.要操作的APP应用的包名.activity名称desired_caps = { "platformName":"Android&qu ...

  9. Set,List,Map,Collection

    // JAVA集合主要分为三种类型: // // Set(集) List(列表) Map(映射) Collection 接口 // // Collection是最基本的集合接口,声明了适用于JAVA集 ...

  10. Windows安装redis报错处理(转!)

    要谈则谈,要打便打! ---2019.5.9,贸易战 转自:http://www.yayihouse.com/yayishuwu/chapter/1297 安装redis报错信息 [9204] 15 ...