【python-数据分析】pandas数据提取
import pandas as pd
1. 直接索引
df = pd.DataFrame({'AdmissionDate': ['2021-01-25','2021-01-22','2021-01-20',
'2021-01-18','2021-01-17','2021-01-17','2021-01-21'],
'StudentID': [7,1,3,2,6,3,4],
'Name': ['Jack','Shyam','Mohan','Janne','Lucky','Abhinav','Danny'],
'Stream':['CSE','ECE','Civil','Mechanical','CSE','IT','EEE']
})
df.set_index("Name",inplace=True)
# 选取某一列或者某几列
print(df["AdmissionDate"])
print(df[["AdmissionDate","StudentID"]]) # 选取多列时,多个列要放到一个list中
Name
Jack 2021-01-25
Shyam 2021-01-22
Mohan 2021-01-20
Janne 2021-01-18
Lucky 2021-01-17
Abhinav 2021-01-17
Danny 2021-01-21
Name: AdmissionDate, dtype: object
AdmissionDate StudentID
Name
Jack 2021-01-25 7
Shyam 2021-01-22 1
Mohan 2021-01-20 3
Janne 2021-01-18 2
Lucky 2021-01-17 6
Abhinav 2021-01-17 3
Danny 2021-01-21 4
# 按行编号选取连续的行
df[1:3] # df[start:end], [start,end)闭开区间
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
| AdmissionDate | StudentID | Stream | |
|---|---|---|---|
| Name | |||
| Shyam | 2021-01-22 | 1 | ECE |
| Mohan | 2021-01-20 | 3 | Civil |
# 按行时间索引选取连续的行
df["AdmissionDate"] = pd.to_datetime(df["AdmissionDate"])
df.set_index("AdmissionDate",inplace=True)
# df["2021-01-01":"2021-01-20"] # 将被弃用
df.sort_index().loc["2021-01-01":"2021-01-20",:] # 推荐写法
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
| StudentID | Stream | |
|---|---|---|
| AdmissionDate | ||
| 2021-01-17 | 6 | CSE |
| 2021-01-17 | 3 | IT |
| 2021-01-18 | 2 | Mechanical |
| 2021-01-20 | 3 | Civil |
2. 布尔索引
df = pd.DataFrame({'AdmissionDate': ['2021-01-25','2021-01-22','2021-01-20',
'2021-01-18','2021-01-17','2021-01-17','2021-01-21'],
'StudentID': [7,1,3,2,6,3,4],
'Name': ['Jack','Shyam','Mohan','Janne','Lucky','Abhinav','Danny'],
'Stream':['CSE','ECE','Civil','Mechanical','CSE','IT','EEE']
})
df["AdmissionDate"] = pd.to_datetime(df["AdmissionDate"])
df.set_index("Name",inplace=True)
df
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
| AdmissionDate | StudentID | Stream | |
|---|---|---|---|
| Name | |||
| Jack | 2021-01-25 | 7 | CSE |
| Shyam | 2021-01-22 | 1 | ECE |
| Mohan | 2021-01-20 | 3 | Civil |
| Janne | 2021-01-18 | 2 | Mechanical |
| Lucky | 2021-01-17 | 6 | CSE |
| Abhinav | 2021-01-17 | 3 | IT |
| Danny | 2021-01-21 | 4 | EEE |
# 选取满足某一条件的行
df[df["StudentID"]==2]
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
| AdmissionDate | StudentID | Stream | |
|---|---|---|---|
| Name | |||
| Janne | 2021-01-18 | 2 | Mechanical |
# 选取满足多个条件的行
# 注意:索引列表中,可以使用& |操作符,但不能使用and or not等关键字
from datetime import datetime
df[(df["StudentID"]>=3) & (df["AdmissionDate"]>="2021-01-20")] # 注意:索引列表中,各布尔条件必须用圆括号扩起来
2021-01-20 00:00:00
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
| AdmissionDate | StudentID | Stream | |
|---|---|---|---|
| Name | |||
| Jack | 2021-01-25 | 7 | CSE |
| Mohan | 2021-01-20 | 3 | Civil |
| Danny | 2021-01-21 | 4 | EEE |
df[(df["StudentID"]>=3) | (df["AdmissionDate"]>="2021-01-20")]
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
| AdmissionDate | StudentID | Stream | |
|---|---|---|---|
| Name | |||
| Jack | 2021-01-25 | 7 | CSE |
| Shyam | 2021-01-22 | 1 | ECE |
| Mohan | 2021-01-20 | 3 | Civil |
| Lucky | 2021-01-17 | 6 | CSE |
| Abhinav | 2021-01-17 | 3 | IT |
| Danny | 2021-01-21 | 4 | EEE |
3. 索引器索引
Dataframe的loc和iloc属性
- loc属性:
- 以列名和行名作为参数,当只有一个参数时,默认是行名,即抽取整行数据,包括所有列
- iloc属性:
- 以行和列位置索引,作为参数。当只有一个参数时,默认是行索引,即抽取整行数据,包括所有列
df = pd.DataFrame({'AdmissionDate': ['2021-01-25','2021-01-22','2021-01-20',
'2021-01-18','2021-01-17','2021-01-17','2021-01-21'],
'StudentID': [7,1,3,2,6,3,4],
'Name': ['Jack','Shyam','Mohan','Janne','Lucky','Abhinav','Danny'],
'Stream':['CSE','ECE','Civil','Mechanical','CSE','IT','EEE']
})
df["AdmissionDate"] = pd.to_datetime(df["AdmissionDate"])
df.set_index("Name",inplace=True)
df
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
| AdmissionDate | StudentID | Stream | |
|---|---|---|---|
| Name | |||
| Jack | 2021-01-25 | 7 | CSE |
| Shyam | 2021-01-22 | 1 | ECE |
| Mohan | 2021-01-20 | 3 | Civil |
| Janne | 2021-01-18 | 2 | Mechanical |
| Lucky | 2021-01-17 | 6 | CSE |
| Abhinav | 2021-01-17 | 3 | IT |
| Danny | 2021-01-21 | 4 | EEE |
3.1 loc索引器
# 选取一行, loc["行索引名称"]
df.loc["Jack"]
AdmissionDate 2021-01-25 00:00:00
StudentID 7
Stream CSE
Name: Jack, dtype: object
# df.loc[['行1,行2'],['列1,列2']]:选取行列组合
df.loc[["Jack","Janne"],["StudentID","Stream"]]
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
| StudentID | Stream | |
|---|---|---|
| Name | ||
| Jack | 7 | CSE |
| Janne | 2 | Mechanical |
# df.loc[(df['列']>条件)]:按条件选取列满足一定条件的行。
df.loc[df["StudentID"]>=2,["Stream","AdmissionDate"]]
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
| Stream | AdmissionDate | |
|---|---|---|
| Name | ||
| Jack | CSE | 2021-01-25 |
| Mohan | Civil | 2021-01-20 |
| Janne | Mechanical | 2021-01-18 |
| Lucky | CSE | 2021-01-17 |
| Abhinav | IT | 2021-01-17 |
| Danny | EEE | 2021-01-21 |
# df.loc[行1:行2,列1:列2]:按列名选取连续的列。冒号前后留空代表开口。
df.loc["Jack":"Janne","AdmissionDate":"StudentID"]
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
| AdmissionDate | StudentID | |
|---|---|---|
| Name | ||
| Jack | 2021-01-25 | 7 |
| Shyam | 2021-01-22 | 1 |
| Mohan | 2021-01-20 | 3 |
| Janne | 2021-01-18 | 2 |
3.2 iloc索引器
iloc索引器与loc索引器的使用几乎相同,唯一不同的是,iloc索引器中只能使用原始索引,不能使用自定义索引。
注意:原始索引初值从0开始,切片前闭后开。自定义索引切片为闭区间
df.iloc[1:3,1:2]
\3c pre>\3c code>.dataframe tbody tr th { vertical-align: top }
.dataframe thead th { text-align: right }
| StudentID | |
|---|---|
| Name | |
| Shyam | 1 |
| Mohan | 3 |
带步长的索引
df.iloc[::2]

【python-数据分析】pandas数据提取的更多相关文章
- Python数据分析--Pandas知识点(三)
本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) Python数据分析--Pandas知识点(二) 下面将是在知识点一, ...
- Python数据分析--Pandas知识点(二)
本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) 下面将是在知识点一的基础上继续总结. 13. 简单计算 新建一个数据表 ...
- python数据分析笔记——数据加载与整理]
[ python数据分析笔记——数据加载与整理] https://mp.weixin.qq.com/s?__biz=MjM5MDM3Nzg0NA==&mid=2651588899&id ...
- Python之pandas数据加载、存储
Python之pandas数据加载.存储 0. 输入与输出大致可分为三类: 0.1 读取文本文件和其他更好效的磁盘存储格式 2.2 使用数据库中的数据 0.3 利用Web API操作网络资源 1. 读 ...
- Python数据分析-Pandas(Series与DataFrame)
Pandas介绍: pandas是一个强大的Python数据分析的工具包,是基于NumPy构建的. Pandas的主要功能: 1)具备对其功能的数据结构DataFrame.Series 2)集成时间序 ...
- python 数据分析--pandas
接下来pandas介绍中将学习到如下8块内容:1.数据结构简介:DataFrame和Series2.数据索引index3.利用pandas查询数据4.利用pandas的DataFrames进行统计分析 ...
- Python数据分析Pandas库方法简介
Pandas 入门 Pandas简介 背景:pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观.它旨在成为在Python中进行实际, ...
- Python数据分析_Pandas01_数据框的创建和选取
主要内容: 创建数据表 查看数据表 数据表索引.选取部分数据 通过标签选取.loc 多重索引选取 位置选取.iloc 布尔索引 Object Creation 新建数据 用list建series序列 ...
- Python数据分析 Pandas模块 基础数据结构与简介(一)
pandas 入门 简介 pandas 组成 = 数据面板 + 数据分析工具 poandas 把数组分为3类 一维矩阵:Series 把ndarray强大在可以存储任意数据类型可以专门处理时间数据 二 ...
- Python数据分析Pandas库之熊猫(10分钟二)
pandas 10分钟教程(二) 重点发法 分组 groupby('列名') groupby(['列名1','列名2',.........]) 分组的步骤 (Splitting) 按照一些规则将数据分 ...
随机推荐
- IM开发干货分享:浅谈IM系统中离线消息、历史消息的最佳实践
本文由融云技术团队原创分享,原题"IM 消息数据存储结构设计",内容有修订. 1.引言 在如今的移动互联网时代,IM类产品已是我们生活中不可或缺的组成部分.像微信.钉钉.QQ等是典 ...
- 前端学习openLayers配合vue3(图层中心点的偏移)
有了上一步的学习,我们知道了如何创建一个地图,现在我们来尝试更改一下图层的中心点 关键代码 let view = map.getView();//获取视图层 let center = view.get ...
- python SQLAlchemy ORM——从零开始学习 02简单的增删查改
02 简单的增删查改 前情提要:承接了01中的engine以及User类 2-1 了解会话机制 个人理解 在SQLAlchemy 增删查改中是依赖会话(Session)这个机制进行操作的,我个人的理解 ...
- c# Polygon 画多边形,
//随机多边形:using System; using System.Collections.Generic; using System.Linq; using System.Text; using ...
- Redis的分布式锁详解
Redis实现的分布式锁 # 对资源key加锁,key不存在时创建,并且设置,10秒自动过期 SET key value EX 10 NX # 删除key DEL key NX的作用 NX参数是为了保 ...
- [车联网/以太网] SOME/IP 协议
概述: SOME/IP 协议 车载以太网协议栈总共可划分为5层: 物理层 数据链路层 网络层 传输层 应用层 其中本文所要描述的SOME/IP就是一种应用层协议. SOME/IP协议内容按照AUTOS ...
- .net core2.2版本下载地址
下载地址: https://download.visualstudio.microsoft.com/download/pr/279de74e-f7e3-426b-94d8-7f31d32a129c/e ...
- android主线程与子线程
创建子线程创建子线程 更多关于java线程的文章可以查看这两篇 线程1 创建线程的方法 在android中穿件子线程的方案很简单 创建子线程的几种方法 ///////第一种/////// class ...
- HTTPS 证书自动化运维:告别手动管理,迎接自动化时代
1. 引言 随着互联网的发展,网络安全变得越来越重要.HTTPS(Hypertext Transfer Protocol Secure)通过使用 SSL/TLS 协议加密数据传输,确保了用户与网站之间 ...
- 独立开发经验谈:如何通过 Docker 让潜在客户快速体验你的系统
我在业余时间开发了一款自己的独立产品:升讯威在线客服与营销系统.陆陆续续开发了几年,从一开始的偶有用户尝试,到如今线上环境和私有化部署均有了越来越多的稳定用户,在这个过程中,我也积累了不少如何开发运营 ...