【python-数据分析】pandas数据提取
import pandas as pd
1. 直接索引
df = pd.DataFrame({'AdmissionDate': ['2021-01-25','2021-01-22','2021-01-20',
'2021-01-18','2021-01-17','2021-01-17','2021-01-21'],
'StudentID': [7,1,3,2,6,3,4],
'Name': ['Jack','Shyam','Mohan','Janne','Lucky','Abhinav','Danny'],
'Stream':['CSE','ECE','Civil','Mechanical','CSE','IT','EEE']
})
df.set_index("Name",inplace=True)
# 选取某一列或者某几列
print(df["AdmissionDate"])
print(df[["AdmissionDate","StudentID"]]) # 选取多列时,多个列要放到一个list中
Name
Jack 2021-01-25
Shyam 2021-01-22
Mohan 2021-01-20
Janne 2021-01-18
Lucky 2021-01-17
Abhinav 2021-01-17
Danny 2021-01-21
Name: AdmissionDate, dtype: object
AdmissionDate StudentID
Name
Jack 2021-01-25 7
Shyam 2021-01-22 1
Mohan 2021-01-20 3
Janne 2021-01-18 2
Lucky 2021-01-17 6
Abhinav 2021-01-17 3
Danny 2021-01-21 4
# 按行编号选取连续的行
df[1:3] # df[start:end], [start,end)闭开区间
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
| AdmissionDate | StudentID | Stream | |
|---|---|---|---|
| Name | |||
| Shyam | 2021-01-22 | 1 | ECE |
| Mohan | 2021-01-20 | 3 | Civil |
# 按行时间索引选取连续的行
df["AdmissionDate"] = pd.to_datetime(df["AdmissionDate"])
df.set_index("AdmissionDate",inplace=True)
# df["2021-01-01":"2021-01-20"] # 将被弃用
df.sort_index().loc["2021-01-01":"2021-01-20",:] # 推荐写法
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
| StudentID | Stream | |
|---|---|---|
| AdmissionDate | ||
| 2021-01-17 | 6 | CSE |
| 2021-01-17 | 3 | IT |
| 2021-01-18 | 2 | Mechanical |
| 2021-01-20 | 3 | Civil |
2. 布尔索引
df = pd.DataFrame({'AdmissionDate': ['2021-01-25','2021-01-22','2021-01-20',
'2021-01-18','2021-01-17','2021-01-17','2021-01-21'],
'StudentID': [7,1,3,2,6,3,4],
'Name': ['Jack','Shyam','Mohan','Janne','Lucky','Abhinav','Danny'],
'Stream':['CSE','ECE','Civil','Mechanical','CSE','IT','EEE']
})
df["AdmissionDate"] = pd.to_datetime(df["AdmissionDate"])
df.set_index("Name",inplace=True)
df
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
| AdmissionDate | StudentID | Stream | |
|---|---|---|---|
| Name | |||
| Jack | 2021-01-25 | 7 | CSE |
| Shyam | 2021-01-22 | 1 | ECE |
| Mohan | 2021-01-20 | 3 | Civil |
| Janne | 2021-01-18 | 2 | Mechanical |
| Lucky | 2021-01-17 | 6 | CSE |
| Abhinav | 2021-01-17 | 3 | IT |
| Danny | 2021-01-21 | 4 | EEE |
# 选取满足某一条件的行
df[df["StudentID"]==2]
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
| AdmissionDate | StudentID | Stream | |
|---|---|---|---|
| Name | |||
| Janne | 2021-01-18 | 2 | Mechanical |
# 选取满足多个条件的行
# 注意:索引列表中,可以使用& |操作符,但不能使用and or not等关键字
from datetime import datetime
df[(df["StudentID"]>=3) & (df["AdmissionDate"]>="2021-01-20")] # 注意:索引列表中,各布尔条件必须用圆括号扩起来
2021-01-20 00:00:00
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
| AdmissionDate | StudentID | Stream | |
|---|---|---|---|
| Name | |||
| Jack | 2021-01-25 | 7 | CSE |
| Mohan | 2021-01-20 | 3 | Civil |
| Danny | 2021-01-21 | 4 | EEE |
df[(df["StudentID"]>=3) | (df["AdmissionDate"]>="2021-01-20")]
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
| AdmissionDate | StudentID | Stream | |
|---|---|---|---|
| Name | |||
| Jack | 2021-01-25 | 7 | CSE |
| Shyam | 2021-01-22 | 1 | ECE |
| Mohan | 2021-01-20 | 3 | Civil |
| Lucky | 2021-01-17 | 6 | CSE |
| Abhinav | 2021-01-17 | 3 | IT |
| Danny | 2021-01-21 | 4 | EEE |
3. 索引器索引
Dataframe的loc和iloc属性
- loc属性:
- 以列名和行名作为参数,当只有一个参数时,默认是行名,即抽取整行数据,包括所有列
- iloc属性:
- 以行和列位置索引,作为参数。当只有一个参数时,默认是行索引,即抽取整行数据,包括所有列
df = pd.DataFrame({'AdmissionDate': ['2021-01-25','2021-01-22','2021-01-20',
'2021-01-18','2021-01-17','2021-01-17','2021-01-21'],
'StudentID': [7,1,3,2,6,3,4],
'Name': ['Jack','Shyam','Mohan','Janne','Lucky','Abhinav','Danny'],
'Stream':['CSE','ECE','Civil','Mechanical','CSE','IT','EEE']
})
df["AdmissionDate"] = pd.to_datetime(df["AdmissionDate"])
df.set_index("Name",inplace=True)
df
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
| AdmissionDate | StudentID | Stream | |
|---|---|---|---|
| Name | |||
| Jack | 2021-01-25 | 7 | CSE |
| Shyam | 2021-01-22 | 1 | ECE |
| Mohan | 2021-01-20 | 3 | Civil |
| Janne | 2021-01-18 | 2 | Mechanical |
| Lucky | 2021-01-17 | 6 | CSE |
| Abhinav | 2021-01-17 | 3 | IT |
| Danny | 2021-01-21 | 4 | EEE |
3.1 loc索引器
# 选取一行, loc["行索引名称"]
df.loc["Jack"]
AdmissionDate 2021-01-25 00:00:00
StudentID 7
Stream CSE
Name: Jack, dtype: object
# df.loc[['行1,行2'],['列1,列2']]:选取行列组合
df.loc[["Jack","Janne"],["StudentID","Stream"]]
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
| StudentID | Stream | |
|---|---|---|
| Name | ||
| Jack | 7 | CSE |
| Janne | 2 | Mechanical |
# df.loc[(df['列']>条件)]:按条件选取列满足一定条件的行。
df.loc[df["StudentID"]>=2,["Stream","AdmissionDate"]]
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
| Stream | AdmissionDate | |
|---|---|---|
| Name | ||
| Jack | CSE | 2021-01-25 |
| Mohan | Civil | 2021-01-20 |
| Janne | Mechanical | 2021-01-18 |
| Lucky | CSE | 2021-01-17 |
| Abhinav | IT | 2021-01-17 |
| Danny | EEE | 2021-01-21 |
# df.loc[行1:行2,列1:列2]:按列名选取连续的列。冒号前后留空代表开口。
df.loc["Jack":"Janne","AdmissionDate":"StudentID"]
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
| AdmissionDate | StudentID | |
|---|---|---|
| Name | ||
| Jack | 2021-01-25 | 7 |
| Shyam | 2021-01-22 | 1 |
| Mohan | 2021-01-20 | 3 |
| Janne | 2021-01-18 | 2 |
3.2 iloc索引器
iloc索引器与loc索引器的使用几乎相同,唯一不同的是,iloc索引器中只能使用原始索引,不能使用自定义索引。
注意:原始索引初值从0开始,切片前闭后开。自定义索引切片为闭区间
df.iloc[1:3,1:2]
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
| StudentID | |
|---|---|
| Name | |
| Shyam | 1 |
| Mohan | 3 |
带步长的索引
df.iloc[::2]

【python-数据分析】pandas数据提取的更多相关文章
- Python数据分析--Pandas知识点(三)
本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) Python数据分析--Pandas知识点(二) 下面将是在知识点一, ...
- Python数据分析--Pandas知识点(二)
本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) 下面将是在知识点一的基础上继续总结. 13. 简单计算 新建一个数据表 ...
- python数据分析笔记——数据加载与整理]
[ python数据分析笔记——数据加载与整理] https://mp.weixin.qq.com/s?__biz=MjM5MDM3Nzg0NA==&mid=2651588899&id ...
- Python之pandas数据加载、存储
Python之pandas数据加载.存储 0. 输入与输出大致可分为三类: 0.1 读取文本文件和其他更好效的磁盘存储格式 2.2 使用数据库中的数据 0.3 利用Web API操作网络资源 1. 读 ...
- Python数据分析-Pandas(Series与DataFrame)
Pandas介绍: pandas是一个强大的Python数据分析的工具包,是基于NumPy构建的. Pandas的主要功能: 1)具备对其功能的数据结构DataFrame.Series 2)集成时间序 ...
- python 数据分析--pandas
接下来pandas介绍中将学习到如下8块内容:1.数据结构简介:DataFrame和Series2.数据索引index3.利用pandas查询数据4.利用pandas的DataFrames进行统计分析 ...
- Python数据分析Pandas库方法简介
Pandas 入门 Pandas简介 背景:pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观.它旨在成为在Python中进行实际, ...
- Python数据分析_Pandas01_数据框的创建和选取
主要内容: 创建数据表 查看数据表 数据表索引.选取部分数据 通过标签选取.loc 多重索引选取 位置选取.iloc 布尔索引 Object Creation 新建数据 用list建series序列 ...
- Python数据分析 Pandas模块 基础数据结构与简介(一)
pandas 入门 简介 pandas 组成 = 数据面板 + 数据分析工具 poandas 把数组分为3类 一维矩阵:Series 把ndarray强大在可以存储任意数据类型可以专门处理时间数据 二 ...
- Python数据分析Pandas库之熊猫(10分钟二)
pandas 10分钟教程(二) 重点发法 分组 groupby('列名') groupby(['列名1','列名2',.........]) 分组的步骤 (Splitting) 按照一些规则将数据分 ...
随机推荐
- 阿里云常用产品汇总及解释-copy
1. 场景描述 最近博客更新的少,跟朋友一起做些事情,最近主要给朋友做些售前工作,阿里云的产品线是真多,好多英文缩写,需要做沟通,系统汇总了一下,记录下,有需要的朋友拿走不谢. 2. 解决方案 从下面 ...
- w3cschool-Apache Storm 教程
https://www.w3cschool.cn/apache_storm/ Apache Storm教程Apache Storm简介Apache Storm核心概念Apache Storm集群架构A ...
- 基于Pamion的流实数仓架构
目录 1. 背景 2. 目标 3. Pamion 的概念和设计 3.1 架构 3.2 统一存储 3.3 基础概念 3.3.1 文件布局 3.3.2 Snapshot 3.3.3 Manifest 文件 ...
- Linux 开发环境常用配置
记录下我个人 Linux 开发环境常用配置,后续可以简单写个小脚本可以把一系列安装配置操作自动化一把. zsh install & conf https://blog.csdn.net/amo ...
- uniapp实现头部、底部固定,中间滚动的布局
参考地址:https://blog.csdn.net/lll_liuhui/article/details/87923041 <template> <view class=" ...
- 对比使用DeepSeek与文新一言,了解DeepSeek的关键技术论文
DeepSeek是国内大模型技术的新秀,最近也在业界和媒体界火爆出圈,所以想学习一下其技术. 大模型时代,学习知识,当然首先想到利用大模型,由于在过去一年,对DeepSeek使用不多,所以想和文新一言 ...
- .NET 进程 stackoverflow异常后,还可以接收 TCP 连接请求吗?
昨天线上有几个进程因为 StackOverFlowException 导致进程 Crash 了,但是 TCP 请求还是可以连接,具体可不可以连接一个出现StackOverFlowException的微 ...
- AAAT 笔记(P5649)
实际上去掉主函数不长于线段树 3. 对于 LCT 每个点的虚儿子.用 splay 把它们串起来(称为新 splay,虽然是共用的). 具体来说,设 \(1\le x\le n\) 是原 LCT 的 s ...
- mac安装NTFS工具
1.插上硬盘,输入diskutil list 查看磁盘列表找到磁盘名称 2.更改 /etc/fstab文件 LABEL=MyData none ntfs rw,auto,nobrowse ntfs r ...
- 支付宝 v3 自签名如何实现
今天在看文档的时候,发现支付宝新出了一个 v3 版本的接口调用方式,感觉有点意思,花了点时间研究了下这个版本要怎么实现自签名,大家有兴趣可以看看. 什么是支付宝 API v3 版本? 官网上给的解释是 ...