import pandas as pd

1. 直接索引

df = pd.DataFrame({'AdmissionDate': ['2021-01-25','2021-01-22','2021-01-20',

                        '2021-01-18','2021-01-17','2021-01-17','2021-01-21'],

                     'StudentID': [7,1,3,2,6,3,4],

                     'Name': ['Jack','Shyam','Mohan','Janne','Lucky','Abhinav','Danny'],

                     'Stream':['CSE','ECE','Civil','Mechanical','CSE','IT','EEE']

                   })
df.set_index("Name",inplace=True)
# 选取某一列或者某几列
print(df["AdmissionDate"])
print(df[["AdmissionDate","StudentID"]]) # 选取多列时,多个列要放到一个list中
Name
Jack 2021-01-25
Shyam 2021-01-22
Mohan 2021-01-20
Janne 2021-01-18
Lucky 2021-01-17
Abhinav 2021-01-17
Danny 2021-01-21
Name: AdmissionDate, dtype: object
AdmissionDate StudentID
Name
Jack 2021-01-25 7
Shyam 2021-01-22 1
Mohan 2021-01-20 3
Janne 2021-01-18 2
Lucky 2021-01-17 6
Abhinav 2021-01-17 3
Danny 2021-01-21 4
# 按行编号选取连续的行
df[1:3] # df[start:end], [start,end)闭开区间
.dataframe tbody tr th:only-of-type { vertical-align: middle }
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }

AdmissionDate StudentID Stream
Name
Shyam 2021-01-22 1 ECE
Mohan 2021-01-20 3 Civil
# 按行时间索引选取连续的行
df["AdmissionDate"] = pd.to_datetime(df["AdmissionDate"])
df.set_index("AdmissionDate",inplace=True)
# df["2021-01-01":"2021-01-20"]  # 将被弃用
df.sort_index().loc["2021-01-01":"2021-01-20",:] # 推荐写法
.dataframe tbody tr th:only-of-type { vertical-align: middle }
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }

StudentID Stream
AdmissionDate
2021-01-17 6 CSE
2021-01-17 3 IT
2021-01-18 2 Mechanical
2021-01-20 3 Civil

2. 布尔索引

df = pd.DataFrame({'AdmissionDate': ['2021-01-25','2021-01-22','2021-01-20',

                        '2021-01-18','2021-01-17','2021-01-17','2021-01-21'],

                     'StudentID': [7,1,3,2,6,3,4],

                     'Name': ['Jack','Shyam','Mohan','Janne','Lucky','Abhinav','Danny'],

                     'Stream':['CSE','ECE','Civil','Mechanical','CSE','IT','EEE']

                   })
df["AdmissionDate"] = pd.to_datetime(df["AdmissionDate"])
df.set_index("Name",inplace=True)
df
.dataframe tbody tr th:only-of-type { vertical-align: middle }
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }

AdmissionDate StudentID Stream
Name
Jack 2021-01-25 7 CSE
Shyam 2021-01-22 1 ECE
Mohan 2021-01-20 3 Civil
Janne 2021-01-18 2 Mechanical
Lucky 2021-01-17 6 CSE
Abhinav 2021-01-17 3 IT
Danny 2021-01-21 4 EEE
# 选取满足某一条件的行
df[df["StudentID"]==2]
.dataframe tbody tr th:only-of-type { vertical-align: middle }
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }

AdmissionDate StudentID Stream
Name
Janne 2021-01-18 2 Mechanical
# 选取满足多个条件的行
# 注意:索引列表中,可以使用& |操作符,但不能使用and or not等关键字
from datetime import datetime
df[(df["StudentID"]>=3) & (df["AdmissionDate"]>="2021-01-20")] # 注意:索引列表中,各布尔条件必须用圆括号扩起来
2021-01-20 00:00:00
.dataframe tbody tr th:only-of-type { vertical-align: middle }
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }

AdmissionDate StudentID Stream
Name
Jack 2021-01-25 7 CSE
Mohan 2021-01-20 3 Civil
Danny 2021-01-21 4 EEE
df[(df["StudentID"]>=3) | (df["AdmissionDate"]>="2021-01-20")]
.dataframe tbody tr th:only-of-type { vertical-align: middle }
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }

AdmissionDate StudentID Stream
Name
Jack 2021-01-25 7 CSE
Shyam 2021-01-22 1 ECE
Mohan 2021-01-20 3 Civil
Lucky 2021-01-17 6 CSE
Abhinav 2021-01-17 3 IT
Danny 2021-01-21 4 EEE

3. 索引器索引

Dataframe的loc和iloc属性

  • loc属性:

    • 以列名和行名作为参数,当只有一个参数时,默认是行名,即抽取整行数据,包括所有列
  • iloc属性:
    • 以行和列位置索引,作为参数。当只有一个参数时,默认是行索引,即抽取整行数据,包括所有列
df = pd.DataFrame({'AdmissionDate': ['2021-01-25','2021-01-22','2021-01-20',

                        '2021-01-18','2021-01-17','2021-01-17','2021-01-21'],

                     'StudentID': [7,1,3,2,6,3,4],

                     'Name': ['Jack','Shyam','Mohan','Janne','Lucky','Abhinav','Danny'],

                     'Stream':['CSE','ECE','Civil','Mechanical','CSE','IT','EEE']

                   })
df["AdmissionDate"] = pd.to_datetime(df["AdmissionDate"])
df.set_index("Name",inplace=True)
df
.dataframe tbody tr th:only-of-type { vertical-align: middle }
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }

AdmissionDate StudentID Stream
Name
Jack 2021-01-25 7 CSE
Shyam 2021-01-22 1 ECE
Mohan 2021-01-20 3 Civil
Janne 2021-01-18 2 Mechanical
Lucky 2021-01-17 6 CSE
Abhinav 2021-01-17 3 IT
Danny 2021-01-21 4 EEE

3.1 loc索引器

# 选取一行, loc["行索引名称"]
df.loc["Jack"]
AdmissionDate    2021-01-25 00:00:00
StudentID 7
Stream CSE
Name: Jack, dtype: object
# df.loc[['行1,行2'],['列1,列2']]:选取行列组合
df.loc[["Jack","Janne"],["StudentID","Stream"]]
.dataframe tbody tr th:only-of-type { vertical-align: middle }
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }

StudentID Stream
Name
Jack 7 CSE
Janne 2 Mechanical
# df.loc[(df['列']>条件)]:按条件选取列满足一定条件的行。
df.loc[df["StudentID"]>=2,["Stream","AdmissionDate"]]
.dataframe tbody tr th:only-of-type { vertical-align: middle }
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }

Stream AdmissionDate
Name
Jack CSE 2021-01-25
Mohan Civil 2021-01-20
Janne Mechanical 2021-01-18
Lucky CSE 2021-01-17
Abhinav IT 2021-01-17
Danny EEE 2021-01-21
# df.loc[行1:行2,列1:列2]:按列名选取连续的列。冒号前后留空代表开口。
df.loc["Jack":"Janne","AdmissionDate":"StudentID"]
.dataframe tbody tr th:only-of-type { vertical-align: middle }
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }

AdmissionDate StudentID
Name
Jack 2021-01-25 7
Shyam 2021-01-22 1
Mohan 2021-01-20 3
Janne 2021-01-18 2

3.2 iloc索引器

iloc索引器与loc索引器的使用几乎相同,唯一不同的是,iloc索引器中只能使用原始索引,不能使用自定义索引。

注意:原始索引初值从0开始,切片前闭后开。自定义索引切片为闭区间

df.iloc[1:3,1:2]
.dataframe tbody tr th:only-of-type { vertical-align: middle }
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }

StudentID
Name
Shyam 1
Mohan 3
带步长的索引
df.iloc[::2]

【python-数据分析】pandas数据提取的更多相关文章

  1. Python数据分析--Pandas知识点(三)

    本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) Python数据分析--Pandas知识点(二) 下面将是在知识点一, ...

  2. Python数据分析--Pandas知识点(二)

    本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) 下面将是在知识点一的基础上继续总结. 13. 简单计算 新建一个数据表 ...

  3. python数据分析笔记——数据加载与整理]

    [ python数据分析笔记——数据加载与整理] https://mp.weixin.qq.com/s?__biz=MjM5MDM3Nzg0NA==&mid=2651588899&id ...

  4. Python之pandas数据加载、存储

    Python之pandas数据加载.存储 0. 输入与输出大致可分为三类: 0.1 读取文本文件和其他更好效的磁盘存储格式 2.2 使用数据库中的数据 0.3 利用Web API操作网络资源 1. 读 ...

  5. Python数据分析-Pandas(Series与DataFrame)

    Pandas介绍: pandas是一个强大的Python数据分析的工具包,是基于NumPy构建的. Pandas的主要功能: 1)具备对其功能的数据结构DataFrame.Series 2)集成时间序 ...

  6. python 数据分析--pandas

    接下来pandas介绍中将学习到如下8块内容:1.数据结构简介:DataFrame和Series2.数据索引index3.利用pandas查询数据4.利用pandas的DataFrames进行统计分析 ...

  7. Python数据分析Pandas库方法简介

    Pandas 入门 Pandas简介 背景:pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观.它旨在成为在Python中进行实际, ...

  8. Python数据分析_Pandas01_数据框的创建和选取

    主要内容: 创建数据表 查看数据表 数据表索引.选取部分数据 通过标签选取.loc 多重索引选取 位置选取.iloc 布尔索引 Object Creation 新建数据 用list建series序列 ...

  9. Python数据分析 Pandas模块 基础数据结构与简介(一)

    pandas 入门 简介 pandas 组成 = 数据面板 + 数据分析工具 poandas 把数组分为3类 一维矩阵:Series 把ndarray强大在可以存储任意数据类型可以专门处理时间数据 二 ...

  10. Python数据分析Pandas库之熊猫(10分钟二)

    pandas 10分钟教程(二) 重点发法 分组 groupby('列名') groupby(['列名1','列名2',.........]) 分组的步骤 (Splitting) 按照一些规则将数据分 ...

随机推荐

  1. 阿里云常用产品汇总及解释-copy

    1. 场景描述 最近博客更新的少,跟朋友一起做些事情,最近主要给朋友做些售前工作,阿里云的产品线是真多,好多英文缩写,需要做沟通,系统汇总了一下,记录下,有需要的朋友拿走不谢. 2. 解决方案 从下面 ...

  2. w3cschool-Apache Storm 教程

    https://www.w3cschool.cn/apache_storm/ Apache Storm教程Apache Storm简介Apache Storm核心概念Apache Storm集群架构A ...

  3. 基于Pamion的流实数仓架构

    目录 1. 背景 2. 目标 3. Pamion 的概念和设计 3.1 架构 3.2 统一存储 3.3 基础概念 3.3.1 文件布局 3.3.2 Snapshot 3.3.3 Manifest 文件 ...

  4. Linux 开发环境常用配置

    记录下我个人 Linux 开发环境常用配置,后续可以简单写个小脚本可以把一系列安装配置操作自动化一把. zsh install & conf https://blog.csdn.net/amo ...

  5. uniapp实现头部、底部固定,中间滚动的布局

    参考地址:https://blog.csdn.net/lll_liuhui/article/details/87923041 <template> <view class=" ...

  6. 对比使用DeepSeek与文新一言,了解DeepSeek的关键技术论文

    DeepSeek是国内大模型技术的新秀,最近也在业界和媒体界火爆出圈,所以想学习一下其技术. 大模型时代,学习知识,当然首先想到利用大模型,由于在过去一年,对DeepSeek使用不多,所以想和文新一言 ...

  7. .NET 进程 stackoverflow异常后,还可以接收 TCP 连接请求吗?

    昨天线上有几个进程因为 StackOverFlowException 导致进程 Crash 了,但是 TCP 请求还是可以连接,具体可不可以连接一个出现StackOverFlowException的微 ...

  8. AAAT 笔记(P5649)

    实际上去掉主函数不长于线段树 3. 对于 LCT 每个点的虚儿子.用 splay 把它们串起来(称为新 splay,虽然是共用的). 具体来说,设 \(1\le x\le n\) 是原 LCT 的 s ...

  9. mac安装NTFS工具

    1.插上硬盘,输入diskutil list 查看磁盘列表找到磁盘名称 2.更改 /etc/fstab文件 LABEL=MyData none ntfs rw,auto,nobrowse ntfs r ...

  10. 支付宝 v3 自签名如何实现

    今天在看文档的时候,发现支付宝新出了一个 v3 版本的接口调用方式,感觉有点意思,花了点时间研究了下这个版本要怎么实现自签名,大家有兴趣可以看看. 什么是支付宝 API v3 版本? 官网上给的解释是 ...