import pandas as pd

1. 直接索引

df = pd.DataFrame({'AdmissionDate': ['2021-01-25','2021-01-22','2021-01-20',

                        '2021-01-18','2021-01-17','2021-01-17','2021-01-21'],

                     'StudentID': [7,1,3,2,6,3,4],

                     'Name': ['Jack','Shyam','Mohan','Janne','Lucky','Abhinav','Danny'],

                     'Stream':['CSE','ECE','Civil','Mechanical','CSE','IT','EEE']

                   })
df.set_index("Name",inplace=True)
# 选取某一列或者某几列
print(df["AdmissionDate"])
print(df[["AdmissionDate","StudentID"]]) # 选取多列时,多个列要放到一个list中
Name
Jack 2021-01-25
Shyam 2021-01-22
Mohan 2021-01-20
Janne 2021-01-18
Lucky 2021-01-17
Abhinav 2021-01-17
Danny 2021-01-21
Name: AdmissionDate, dtype: object
AdmissionDate StudentID
Name
Jack 2021-01-25 7
Shyam 2021-01-22 1
Mohan 2021-01-20 3
Janne 2021-01-18 2
Lucky 2021-01-17 6
Abhinav 2021-01-17 3
Danny 2021-01-21 4
# 按行编号选取连续的行
df[1:3] # df[start:end], [start,end)闭开区间
.dataframe tbody tr th:only-of-type { vertical-align: middle }
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }

AdmissionDate StudentID Stream
Name
Shyam 2021-01-22 1 ECE
Mohan 2021-01-20 3 Civil
# 按行时间索引选取连续的行
df["AdmissionDate"] = pd.to_datetime(df["AdmissionDate"])
df.set_index("AdmissionDate",inplace=True)
# df["2021-01-01":"2021-01-20"]  # 将被弃用
df.sort_index().loc["2021-01-01":"2021-01-20",:] # 推荐写法
.dataframe tbody tr th:only-of-type { vertical-align: middle }
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }

StudentID Stream
AdmissionDate
2021-01-17 6 CSE
2021-01-17 3 IT
2021-01-18 2 Mechanical
2021-01-20 3 Civil

2. 布尔索引

df = pd.DataFrame({'AdmissionDate': ['2021-01-25','2021-01-22','2021-01-20',

                        '2021-01-18','2021-01-17','2021-01-17','2021-01-21'],

                     'StudentID': [7,1,3,2,6,3,4],

                     'Name': ['Jack','Shyam','Mohan','Janne','Lucky','Abhinav','Danny'],

                     'Stream':['CSE','ECE','Civil','Mechanical','CSE','IT','EEE']

                   })
df["AdmissionDate"] = pd.to_datetime(df["AdmissionDate"])
df.set_index("Name",inplace=True)
df
.dataframe tbody tr th:only-of-type { vertical-align: middle }
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }

AdmissionDate StudentID Stream
Name
Jack 2021-01-25 7 CSE
Shyam 2021-01-22 1 ECE
Mohan 2021-01-20 3 Civil
Janne 2021-01-18 2 Mechanical
Lucky 2021-01-17 6 CSE
Abhinav 2021-01-17 3 IT
Danny 2021-01-21 4 EEE
# 选取满足某一条件的行
df[df["StudentID"]==2]
.dataframe tbody tr th:only-of-type { vertical-align: middle }
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }

AdmissionDate StudentID Stream
Name
Janne 2021-01-18 2 Mechanical
# 选取满足多个条件的行
# 注意:索引列表中,可以使用& |操作符,但不能使用and or not等关键字
from datetime import datetime
df[(df["StudentID"]>=3) & (df["AdmissionDate"]>="2021-01-20")] # 注意:索引列表中,各布尔条件必须用圆括号扩起来
2021-01-20 00:00:00
.dataframe tbody tr th:only-of-type { vertical-align: middle }
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }

AdmissionDate StudentID Stream
Name
Jack 2021-01-25 7 CSE
Mohan 2021-01-20 3 Civil
Danny 2021-01-21 4 EEE
df[(df["StudentID"]>=3) | (df["AdmissionDate"]>="2021-01-20")]
.dataframe tbody tr th:only-of-type { vertical-align: middle }
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }

AdmissionDate StudentID Stream
Name
Jack 2021-01-25 7 CSE
Shyam 2021-01-22 1 ECE
Mohan 2021-01-20 3 Civil
Lucky 2021-01-17 6 CSE
Abhinav 2021-01-17 3 IT
Danny 2021-01-21 4 EEE

3. 索引器索引

Dataframe的loc和iloc属性

  • loc属性:

    • 以列名和行名作为参数,当只有一个参数时,默认是行名,即抽取整行数据,包括所有列
  • iloc属性:
    • 以行和列位置索引,作为参数。当只有一个参数时,默认是行索引,即抽取整行数据,包括所有列
df = pd.DataFrame({'AdmissionDate': ['2021-01-25','2021-01-22','2021-01-20',

                        '2021-01-18','2021-01-17','2021-01-17','2021-01-21'],

                     'StudentID': [7,1,3,2,6,3,4],

                     'Name': ['Jack','Shyam','Mohan','Janne','Lucky','Abhinav','Danny'],

                     'Stream':['CSE','ECE','Civil','Mechanical','CSE','IT','EEE']

                   })
df["AdmissionDate"] = pd.to_datetime(df["AdmissionDate"])
df.set_index("Name",inplace=True)
df
.dataframe tbody tr th:only-of-type { vertical-align: middle }
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }

AdmissionDate StudentID Stream
Name
Jack 2021-01-25 7 CSE
Shyam 2021-01-22 1 ECE
Mohan 2021-01-20 3 Civil
Janne 2021-01-18 2 Mechanical
Lucky 2021-01-17 6 CSE
Abhinav 2021-01-17 3 IT
Danny 2021-01-21 4 EEE

3.1 loc索引器

# 选取一行, loc["行索引名称"]
df.loc["Jack"]
AdmissionDate    2021-01-25 00:00:00
StudentID 7
Stream CSE
Name: Jack, dtype: object
# df.loc[['行1,行2'],['列1,列2']]:选取行列组合
df.loc[["Jack","Janne"],["StudentID","Stream"]]
.dataframe tbody tr th:only-of-type { vertical-align: middle }
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }

StudentID Stream
Name
Jack 7 CSE
Janne 2 Mechanical
# df.loc[(df['列']>条件)]:按条件选取列满足一定条件的行。
df.loc[df["StudentID"]>=2,["Stream","AdmissionDate"]]
.dataframe tbody tr th:only-of-type { vertical-align: middle }
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }

Stream AdmissionDate
Name
Jack CSE 2021-01-25
Mohan Civil 2021-01-20
Janne Mechanical 2021-01-18
Lucky CSE 2021-01-17
Abhinav IT 2021-01-17
Danny EEE 2021-01-21
# df.loc[行1:行2,列1:列2]:按列名选取连续的列。冒号前后留空代表开口。
df.loc["Jack":"Janne","AdmissionDate":"StudentID"]
.dataframe tbody tr th:only-of-type { vertical-align: middle }
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }

AdmissionDate StudentID
Name
Jack 2021-01-25 7
Shyam 2021-01-22 1
Mohan 2021-01-20 3
Janne 2021-01-18 2

3.2 iloc索引器

iloc索引器与loc索引器的使用几乎相同,唯一不同的是,iloc索引器中只能使用原始索引,不能使用自定义索引。

注意:原始索引初值从0开始,切片前闭后开。自定义索引切片为闭区间

df.iloc[1:3,1:2]
.dataframe tbody tr th:only-of-type { vertical-align: middle }
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }

StudentID
Name
Shyam 1
Mohan 3
带步长的索引
df.iloc[::2]

【python-数据分析】pandas数据提取的更多相关文章

  1. Python数据分析--Pandas知识点(三)

    本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) Python数据分析--Pandas知识点(二) 下面将是在知识点一, ...

  2. Python数据分析--Pandas知识点(二)

    本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) 下面将是在知识点一的基础上继续总结. 13. 简单计算 新建一个数据表 ...

  3. python数据分析笔记——数据加载与整理]

    [ python数据分析笔记——数据加载与整理] https://mp.weixin.qq.com/s?__biz=MjM5MDM3Nzg0NA==&mid=2651588899&id ...

  4. Python之pandas数据加载、存储

    Python之pandas数据加载.存储 0. 输入与输出大致可分为三类: 0.1 读取文本文件和其他更好效的磁盘存储格式 2.2 使用数据库中的数据 0.3 利用Web API操作网络资源 1. 读 ...

  5. Python数据分析-Pandas(Series与DataFrame)

    Pandas介绍: pandas是一个强大的Python数据分析的工具包,是基于NumPy构建的. Pandas的主要功能: 1)具备对其功能的数据结构DataFrame.Series 2)集成时间序 ...

  6. python 数据分析--pandas

    接下来pandas介绍中将学习到如下8块内容:1.数据结构简介:DataFrame和Series2.数据索引index3.利用pandas查询数据4.利用pandas的DataFrames进行统计分析 ...

  7. Python数据分析Pandas库方法简介

    Pandas 入门 Pandas简介 背景:pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观.它旨在成为在Python中进行实际, ...

  8. Python数据分析_Pandas01_数据框的创建和选取

    主要内容: 创建数据表 查看数据表 数据表索引.选取部分数据 通过标签选取.loc 多重索引选取 位置选取.iloc 布尔索引 Object Creation 新建数据 用list建series序列 ...

  9. Python数据分析 Pandas模块 基础数据结构与简介(一)

    pandas 入门 简介 pandas 组成 = 数据面板 + 数据分析工具 poandas 把数组分为3类 一维矩阵:Series 把ndarray强大在可以存储任意数据类型可以专门处理时间数据 二 ...

  10. Python数据分析Pandas库之熊猫(10分钟二)

    pandas 10分钟教程(二) 重点发法 分组 groupby('列名') groupby(['列名1','列名2',.........]) 分组的步骤 (Splitting) 按照一些规则将数据分 ...

随机推荐

  1. 阿里IM技术分享(五):闲鱼亿级IM消息系统的及时性优化实践

    本文由阿里闲鱼技术团队有攸分享,原题"向消息延迟说bybye:闲鱼消息及时到达方案",有修订和改动,感谢作者的分享. 1.引言 IM消息作为闲鱼用户重要的交易咨询工具,核心目标有两 ...

  2. 变分推断(VI)、随机梯度变分推断(SGVI/SGVB)、变分自编码器(VAE)串讲

    参考资料: VI参考:PRML Chapter 10. SGVI原文:Auto-Encoding Variational Bayes -- Kingma. VAE参考1:Tutorial on Var ...

  3. 项目PMP之五项目范围管理

    项目PMP之五--项目范围管理   一.定义:确保项目做且只做所需的工作:范围包括产品范围(特性和功能)和项目范围(交付产品所需完成的工作) 适应型生命周期:相关方持续参与,应对大量变更(敏捷),实时 ...

  4. java代码之美(3)

    Map中的computeIfAbsent方法 Map接口的实现类如HashMap,ConcurrentHashMap,HashTable等继承了此方法,通过此方法可以在特定需求下,让你的代码更加简洁. ...

  5. fopen在VS中不安全的问题

    问题 fopen函数哎VS中使用,报错: error C4996: 'fopen': This function or variable may be unsafe. Consider using f ...

  6. 一个简单的大转盘抽奖程序(附.NetCore Demo源码)

    最近闲下来在做一些demo,现在讲一下做的一个简单的大转盘抽奖demo,前端lottery,layui,后端.net core,sqlsugar,数据库用的mysql 1.前端实现: 前端用的是基于开 ...

  7. 3 x 2 + 1 !安 全 能 力 权 威 认 可 !

    近日,由XOps大会组委会主办的"2024第三届XOps产业创新发展论坛"在北京召开.大会主论坛公布了2024上半年XOps最新评估结果,天翼云顺利通过ITU DevOps国际标准 ...

  8. 使用yarn安装依赖包出现“There appears to be trouble with your network connection. Retrying...”超时的提醒

    我们在使用yarn安装依赖包文件的时候,可能会出现"There appears to be trouble with your network connection. Retrying... ...

  9. RestClient 通过拦截器实现请求加密

    今天我发现了一个关于请求加密的有效写法,特此分享给大家.如果你的加密需求是将请求参数也包含在内,通常情况下,我们需要先将请求体转换成 JSON 格式或其他对象类型,再使用字符串的形式进行加密操作.以下 ...

  10. 五分钟搭建属于你的AI助手:Ollama+DeepSeek+AnythingLLM深度整合教程

    作者简介 微信公众号:密码应用技术实战 博客园首页:https://www.cnblogs.com/informatics/ GitHub地址:https://github.com/warm3snow ...