【python-数据分析】pandas数据提取
import pandas as pd
1. 直接索引
df = pd.DataFrame({'AdmissionDate': ['2021-01-25','2021-01-22','2021-01-20',
'2021-01-18','2021-01-17','2021-01-17','2021-01-21'],
'StudentID': [7,1,3,2,6,3,4],
'Name': ['Jack','Shyam','Mohan','Janne','Lucky','Abhinav','Danny'],
'Stream':['CSE','ECE','Civil','Mechanical','CSE','IT','EEE']
})
df.set_index("Name",inplace=True)
# 选取某一列或者某几列
print(df["AdmissionDate"])
print(df[["AdmissionDate","StudentID"]]) # 选取多列时,多个列要放到一个list中
Name
Jack 2021-01-25
Shyam 2021-01-22
Mohan 2021-01-20
Janne 2021-01-18
Lucky 2021-01-17
Abhinav 2021-01-17
Danny 2021-01-21
Name: AdmissionDate, dtype: object
AdmissionDate StudentID
Name
Jack 2021-01-25 7
Shyam 2021-01-22 1
Mohan 2021-01-20 3
Janne 2021-01-18 2
Lucky 2021-01-17 6
Abhinav 2021-01-17 3
Danny 2021-01-21 4
# 按行编号选取连续的行
df[1:3] # df[start:end], [start,end)闭开区间
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
AdmissionDate | StudentID | Stream | |
---|---|---|---|
Name | |||
Shyam | 2021-01-22 | 1 | ECE |
Mohan | 2021-01-20 | 3 | Civil |
# 按行时间索引选取连续的行
df["AdmissionDate"] = pd.to_datetime(df["AdmissionDate"])
df.set_index("AdmissionDate",inplace=True)
# df["2021-01-01":"2021-01-20"] # 将被弃用
df.sort_index().loc["2021-01-01":"2021-01-20",:] # 推荐写法
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
StudentID | Stream | |
---|---|---|
AdmissionDate | ||
2021-01-17 | 6 | CSE |
2021-01-17 | 3 | IT |
2021-01-18 | 2 | Mechanical |
2021-01-20 | 3 | Civil |
2. 布尔索引
df = pd.DataFrame({'AdmissionDate': ['2021-01-25','2021-01-22','2021-01-20',
'2021-01-18','2021-01-17','2021-01-17','2021-01-21'],
'StudentID': [7,1,3,2,6,3,4],
'Name': ['Jack','Shyam','Mohan','Janne','Lucky','Abhinav','Danny'],
'Stream':['CSE','ECE','Civil','Mechanical','CSE','IT','EEE']
})
df["AdmissionDate"] = pd.to_datetime(df["AdmissionDate"])
df.set_index("Name",inplace=True)
df
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
AdmissionDate | StudentID | Stream | |
---|---|---|---|
Name | |||
Jack | 2021-01-25 | 7 | CSE |
Shyam | 2021-01-22 | 1 | ECE |
Mohan | 2021-01-20 | 3 | Civil |
Janne | 2021-01-18 | 2 | Mechanical |
Lucky | 2021-01-17 | 6 | CSE |
Abhinav | 2021-01-17 | 3 | IT |
Danny | 2021-01-21 | 4 | EEE |
# 选取满足某一条件的行
df[df["StudentID"]==2]
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
AdmissionDate | StudentID | Stream | |
---|---|---|---|
Name | |||
Janne | 2021-01-18 | 2 | Mechanical |
# 选取满足多个条件的行
# 注意:索引列表中,可以使用& |操作符,但不能使用and or not等关键字
from datetime import datetime
df[(df["StudentID"]>=3) & (df["AdmissionDate"]>="2021-01-20")] # 注意:索引列表中,各布尔条件必须用圆括号扩起来
2021-01-20 00:00:00
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
AdmissionDate | StudentID | Stream | |
---|---|---|---|
Name | |||
Jack | 2021-01-25 | 7 | CSE |
Mohan | 2021-01-20 | 3 | Civil |
Danny | 2021-01-21 | 4 | EEE |
df[(df["StudentID"]>=3) | (df["AdmissionDate"]>="2021-01-20")]
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
AdmissionDate | StudentID | Stream | |
---|---|---|---|
Name | |||
Jack | 2021-01-25 | 7 | CSE |
Shyam | 2021-01-22 | 1 | ECE |
Mohan | 2021-01-20 | 3 | Civil |
Lucky | 2021-01-17 | 6 | CSE |
Abhinav | 2021-01-17 | 3 | IT |
Danny | 2021-01-21 | 4 | EEE |
3. 索引器索引
Dataframe的loc和iloc属性
- loc属性:
- 以列名和行名作为参数,当只有一个参数时,默认是行名,即抽取整行数据,包括所有列
- iloc属性:
- 以行和列位置索引,作为参数。当只有一个参数时,默认是行索引,即抽取整行数据,包括所有列
df = pd.DataFrame({'AdmissionDate': ['2021-01-25','2021-01-22','2021-01-20',
'2021-01-18','2021-01-17','2021-01-17','2021-01-21'],
'StudentID': [7,1,3,2,6,3,4],
'Name': ['Jack','Shyam','Mohan','Janne','Lucky','Abhinav','Danny'],
'Stream':['CSE','ECE','Civil','Mechanical','CSE','IT','EEE']
})
df["AdmissionDate"] = pd.to_datetime(df["AdmissionDate"])
df.set_index("Name",inplace=True)
df
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
AdmissionDate | StudentID | Stream | |
---|---|---|---|
Name | |||
Jack | 2021-01-25 | 7 | CSE |
Shyam | 2021-01-22 | 1 | ECE |
Mohan | 2021-01-20 | 3 | Civil |
Janne | 2021-01-18 | 2 | Mechanical |
Lucky | 2021-01-17 | 6 | CSE |
Abhinav | 2021-01-17 | 3 | IT |
Danny | 2021-01-21 | 4 | EEE |
3.1 loc索引器
# 选取一行, loc["行索引名称"]
df.loc["Jack"]
AdmissionDate 2021-01-25 00:00:00
StudentID 7
Stream CSE
Name: Jack, dtype: object
# df.loc[['行1,行2'],['列1,列2']]:选取行列组合
df.loc[["Jack","Janne"],["StudentID","Stream"]]
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
StudentID | Stream | |
---|---|---|
Name | ||
Jack | 7 | CSE |
Janne | 2 | Mechanical |
# df.loc[(df['列']>条件)]:按条件选取列满足一定条件的行。
df.loc[df["StudentID"]>=2,["Stream","AdmissionDate"]]
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
Stream | AdmissionDate | |
---|---|---|
Name | ||
Jack | CSE | 2021-01-25 |
Mohan | Civil | 2021-01-20 |
Janne | Mechanical | 2021-01-18 |
Lucky | CSE | 2021-01-17 |
Abhinav | IT | 2021-01-17 |
Danny | EEE | 2021-01-21 |
# df.loc[行1:行2,列1:列2]:按列名选取连续的列。冒号前后留空代表开口。
df.loc["Jack":"Janne","AdmissionDate":"StudentID"]
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
AdmissionDate | StudentID | |
---|---|---|
Name | ||
Jack | 2021-01-25 | 7 |
Shyam | 2021-01-22 | 1 |
Mohan | 2021-01-20 | 3 |
Janne | 2021-01-18 | 2 |
3.2 iloc索引器
iloc索引器与loc索引器的使用几乎相同,唯一不同的是,iloc索引器中只能使用原始索引,不能使用自定义索引。
注意:原始索引初值从0开始,切片前闭后开。自定义索引切片为闭区间
df.iloc[1:3,1:2]
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
StudentID | |
---|---|
Name | |
Shyam | 1 |
Mohan | 3 |
带步长的索引
df.iloc[::2]
【python-数据分析】pandas数据提取的更多相关文章
- Python数据分析--Pandas知识点(三)
本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) Python数据分析--Pandas知识点(二) 下面将是在知识点一, ...
- Python数据分析--Pandas知识点(二)
本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) 下面将是在知识点一的基础上继续总结. 13. 简单计算 新建一个数据表 ...
- python数据分析笔记——数据加载与整理]
[ python数据分析笔记——数据加载与整理] https://mp.weixin.qq.com/s?__biz=MjM5MDM3Nzg0NA==&mid=2651588899&id ...
- Python之pandas数据加载、存储
Python之pandas数据加载.存储 0. 输入与输出大致可分为三类: 0.1 读取文本文件和其他更好效的磁盘存储格式 2.2 使用数据库中的数据 0.3 利用Web API操作网络资源 1. 读 ...
- Python数据分析-Pandas(Series与DataFrame)
Pandas介绍: pandas是一个强大的Python数据分析的工具包,是基于NumPy构建的. Pandas的主要功能: 1)具备对其功能的数据结构DataFrame.Series 2)集成时间序 ...
- python 数据分析--pandas
接下来pandas介绍中将学习到如下8块内容:1.数据结构简介:DataFrame和Series2.数据索引index3.利用pandas查询数据4.利用pandas的DataFrames进行统计分析 ...
- Python数据分析Pandas库方法简介
Pandas 入门 Pandas简介 背景:pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观.它旨在成为在Python中进行实际, ...
- Python数据分析_Pandas01_数据框的创建和选取
主要内容: 创建数据表 查看数据表 数据表索引.选取部分数据 通过标签选取.loc 多重索引选取 位置选取.iloc 布尔索引 Object Creation 新建数据 用list建series序列 ...
- Python数据分析 Pandas模块 基础数据结构与简介(一)
pandas 入门 简介 pandas 组成 = 数据面板 + 数据分析工具 poandas 把数组分为3类 一维矩阵:Series 把ndarray强大在可以存储任意数据类型可以专门处理时间数据 二 ...
- Python数据分析Pandas库之熊猫(10分钟二)
pandas 10分钟教程(二) 重点发法 分组 groupby('列名') groupby(['列名1','列名2',.........]) 分组的步骤 (Splitting) 按照一些规则将数据分 ...
随机推荐
- runoob-Lua 教程
https://www.runoob.com/lua/lua-tutorial.html Lua 特性 轻量级: 它用标准C语言编写并以源代码形式开放,编译后仅仅一百余K,可以很方便的嵌入别的程序里. ...
- colab 使用技巧
无法进入目录 import os path = "/content/TaBERT/" os.chdir(path) print(os.getcwd()) 无法执行conda !pi ...
- 学弟一看就会的RDKX5模型转换及部署,你确定不学?
作者:SkyXZ CSDN:SkyXZ--CSDN博客 博客园:SkyXZ - 博客园 宿主机环境:WSL2-Ubuntu22.04+Cuda12.6.D-Robotics-OE 1.2.8.Ubun ...
- VM1038:1 (in promise) MiniProgramError {"errMsg":"navigateTo:fail webview count limit exceed"} Object解决办法
在跳转的时候,出现这,有的时候回出现,有的时候不会出现: VM1038:1 (in promise) MiniProgramError {"errMsg":"naviga ...
- react中类似vue的插槽this.props.children的用法
父组件 <TestHanderClick bg="blue"> <p> 如果我要显示的话,父组件是双标签,子组件中有this.props.children& ...
- Linux下普通用户免密切换root
问题需求: Linux下普通用户doge免密切换root 问题解决: Linux下普通用户切换到root用户下,默认情况是需要输入密码很不方便,因此需要实现普通用户doge免密切换到root用户. 示 ...
- linux mint安装kafka,及flume与kafka整合
需要软件 jdk1.8(jdk-8u131-linux-x64.rpm) zookeeper (zookeeper-3.4.10.tar.gz) kafka 2.11-2.0.0 flume1.8.0 ...
- java中反射-字节码和类加载器
多态的一个表现 子类类型赋值给父类 Father f1 = New Son() 调用子类方法报错. 调用父类方法OK.这个就是多态 一个对象能用什么方法,并不是取决于 它有什么方法. 而是取决于引用变 ...
- docker官网镜像无法下载问题解决
亲测可用,这个方法是由技术爬爬虾大佬提供,简单地说就是通过github上的docker_image_pusher项目,将国外docker镜像转存到阿里云私人仓库. 此方法需要你有一个github账号, ...
- C++代码改造为UTF-8编码问题的总结
1. 引言 无论是哪个平台哪种编程语言,字符串乱码真是一个让人无语的问题:你说这个问题比较小吧,但是关键时刻来一下真是受不了.解决方式也有很多种,但是与其将编码转换来转换去,不如统一使用同一种编码方式 ...