Python数据科学手册-Pandas数据处理之简介

llcl 2024-09-05 00:33:01 原文

Pandas是在Numpy基础上建立的新程序库，提供了一种高效的DataFrame数据结构

本质是带行标签和列标签、支持相同类型数据和缺失值的多维数组

增强版的Numpy结构化数组

行和列不在只是简单的整数索引，还可以带上标签，

三个基本数据结构

Series DataFrame Index

Series

Series将一组数据和一组索引绑定在一起

可以通过values 和 index属性获取数据，

与Numpy数据的区别：Numpy数组通过隐式定义的整数索引获取数值，Pandas 的Series用显示定义的索引与数值关联

Series是特殊的字典

字典是一种将任意键映射到一组任意值的数据结构

Series对象是一种将类型键映射到一组类型值的数据结构，类型至关重要。

因为有类型信息，所以比Python字典更高效

可以直接使用Python字典创建一个Series对象

和字典不同，Series对象还支持数组形式的操作

创建Series对象

pd.Series(data, index=index)

index是一个可选参数，data参数支持多种数据类型，可以是列表或 Numpy数组， index默认值为整数序列

data可以是个标量，创建对象是会重复填充到每个索引上。

data可以是字典，索引是默认的，不排序，老版本的好像对index进行排序了。

每一种形式都可以通过显示指定索引筛选需要的结果

Pandas的DataFrame对象

也可以作为一个通用型的Numpy数组，也可以看做特殊的Python字典

DataFrame ：通用的Numpy数组

Series是有灵活索引的一维数组， DataFrame是一种既有灵活的行索引，又有灵活列名的二维数组。

DataFrame也可以看成是若干个Series对象。。索引相同。

index属性获取索引标签

DataFrame还有一个columns属性，是存放列标签的Index对象:

DataFrame ：特殊的字典

字典是一个键映射一个值，而DataFrame是一个列名映射一个Series的数据。

创建DataFrame对象

1）通过单个Series对象创建。DataFrame是一组Series对象的集合

2）通过字典列表创建。任何元素是字典的列表都可以变成DataFrame

3)通过Series对象常见，开始介绍那样子。

4）通过Numpy二维数组创建

5)通过Numpy结构化数组创建

Pandas的Index对象

Series 和 DataFrame 对象都使用便于引用和调整的显示索引。

Pandas的Index对象是一个很有趣的数据结构。可以将它看作是一个不可变数组或有序集合，

1）将Index看作不可变数组

如果修改索引值会报错。对象的不可变性，使得多个DataFrame和数组之间进行索引共享是更加安全

2）将Index看作有序集合

Pandas对象被设计用于实现多操作。如连接数据集。并集交集差集

不过好像不推荐用这种方式了。哈哈

使用对象方法

Python数据科学手册-Pandas数据处理之简介的更多相关文章

Python数据科学手册-Pandas:向量化字符串操作、时间序列
向量化字符串操作 Series 和 Index对象的str属性. 可以正确的处理缺失值方法列表正则表达式. Method Description match() Call re.match() ...
Python数据科学手册-Pandas:累计与分组
简单累计功能 Series sum() 返回一个统计值 DataFrame sum.默认对每列进行统计设置axis参数,对每一行进行统计 describe()可以计算每一列的若干常用统计值. 获 ...
Python数据科学手册-Pandas:数值运算方法
Numpy 的基本能力之一是快速对每个元素进行运算 Pandas 继承了Numpy的功能,也实现了一些高效技巧. 对于1元运算,(函数,三角函数)保留索引和列标签对于2元运算,(加法,乘法),Pan ...
Python数据科学手册-Pandas:数据取值与选择
Numpy数组取值切片[:,1:5], 掩码操作arr[arr>0], 花哨的索引 arr[0, [1,5]],Pandas的操作类似 Series数据选择方法 Series对象与一维Nump ...
Python数据科学手册-Pandas:层级索引
一维数据和二维数据分别使用Series 和 DataFrame 对象存储. 多维数据:数据索引超过一俩个键. Pandas提供了Panel 和 Panel4D对象解决三维数据和四维数据. ...
Python数据科学手册-Pandas:合并数据集
将不同的数据源进行合并 , 类似数据库 join merge . 工具函数 concat / append pd.concat() 简易合并合并高维数据默认按行合并. axis=0 ,试试 axi ...
100天搞定机器学习|day45-53 推荐一本豆瓣评分9.3的书：《Python数据科学手册》
<Python数据科学手册>共五章,每章介绍一到两个Python数据科学中的重点工具包.首先从IPython和Jupyter开始,它们提供了数据科学家需要的计算环境:第2章讲解能提供nda ...
Python数据科学手册
Python数据科学手册(高清版)PDF 百度网盘链接:https://pan.baidu.com/s/1KurSdjNWiwMac3o3iLrzBg 提取码:qogy 复制这段内容后打开百度网盘手 ...
Matplotlib 使用 - 《Python 数据科学手册》学习笔记
一.引入 import matplotlib as mpl import matplotlib.pyplot as plt 二.配置 1.画图接口 Matplotlib 有两种画图接口: (1)一个是 ...

随机推荐

Java 常用Set集合和常用Map集合
目录常用Set集合 Set集合的特点 HashSet 创建对象常用方法遍历常用Map集合 Map集合的概述 HashMap 创建对象常用方法遍历 HashMap的key去重原理常用Set ...
Linux快捷方式创建模板
1.创建快捷方式文件 sudo gedit /usr/share/applications/Navicat.desktop 模板: [Desktop Entry] Name=Navicat Exec= ...
002面试题_Switch...case的数据
1.byte 2.short 3.int 4.char 5.String 6.枚举
jdbc 11: 封装自己的jdbc工具类
jdbc连接mysql,封装自己的jdbc工具类 package com.examples.jdbc.utils; import java.sql.*; import java.util.Resour ...
C#基础-面向对象详解
面向对象详解一.什么是面向对象 1>面向对象是一种程序设计思想 2>面向过程和面向对象是什么? 例如要把大象放冰箱怎么做? 面向过程:打开冰箱门->把大象扔进去->关上冰箱门 ...
网易云UI模仿-->侧边栏
侧边栏效果图界面分解可以看到从上到下的流式布局.需要一个Column来容纳,并且在往上滑动的过程中顶部的个人信息是不会动的.所以接下来需要将剩余部分占满使用Flexibel组件. 实现个人信息 ...
css基础06
精灵图就是只要导入一张照片(这张照片里面有很多很多的小图标和照片),然后通过background-position来移动位置,使网页显示出对应图片或者图标.一般都是负值. 下载然后导入项目里. 不同浏 ...
linux常见命令搜集
查找根目录下txt和pdf文件 find / \( -name "*.txt" -o -name "*.pdf" \) -print 正则查找根目录下所有的tx ...
针对多个球体的World类
World类其他都一样的,就修改build函数就行了,以后测试所有代码,都是基于两个或多个球体的,不再重复阐述. void World::build() { vp.set_hres(200); vp. ...
django中的静态文件
静态文件 1.什么是静态文件在django中静态文件是指那些图片.css样式.js样式.视频.音频等静态资源. 2.为什么要配置静态文件这些静态文件往往不需要频繁的进行变动,如果我们将这些静态文件 ...