Python库-Pandas

Pandas是基于NumPy的一种数据分析工具，提供了大量使我们快速便捷处理数据的函数和方法。

中文官网地址：https://www.pypandas.cn

Pandas基于两种数据类型：Series数组与DataFrame数据表。

Series对象（带索引index的一维数组）

import pandas as pd

from pandas import Series,DataFrame

import numpy as np


#创建Series数组

list1 = [1,2,3,4]

sel = Series(list1) #默认索引为从0开始的序列

sel = Series(data = [1,2,3,4],index = list('abcd')) #创建Series对象并创建索引

print(sel.values)#.values 拿到series中数据

print(sel.index)# .index 拿到series中索引

print(list(sel.iteritems()))#.iteritems()拿到series中键值对

#Series结构类似字典

#将字典转换为Series

dic = {"red":"100","black":"400","green":"300"}

se2 = Series(dic)

#修改Series索引值

se1.index = list('dcba')  #直接修改原Series的索引

#.reindex 返回一个新的Series 重新排序 缺失值用nan代替

se2 = se1.reindex(['a','b','c','d','e'])

#Series值的获取，可通过索引和下标两种方式。

print(se1['b']) #通过index值获取

print(sel[1]) #通过下标

#通过切片获取值

print(se1[0:2]) #通过下标，左包含右不包含。

print(se1['a':'c']) #通过索引，左右都包含。

DataFrame对象（DataFrame是一种二维数据表结构，分为若干列和行，行索引index，列索引columns）

DataFrame的创建

df1 = DataFrame(np.random.randint(0,10,(4,4)),index = [1,2,3,4],columns = ['a','b','c','d']) #通过二维数组创建，指定参数Data，index和columns。

#通过字典创建DataFrame

dict = {

'province':['Guangzhou','Beijing','Shanghai','Fujian'],

'pop':[1.3,2.5,1.1,0.7],

'year':[2018,2018,2018,2018]

}

df2 = DataFrame(dict,index = [1,2,3,4])#字典中的key为列索引。

DataFrame中常用属性和方法

print(df.shape) #行数和列数

print(df.index.tolist()) #获取行索引

print(df.columns.tolist()) #获取列索引

print(df.ndim)#获取维度

print(df.info()) #.info()方法展示概述

print(df.head(2)) #显示头几行

print(df.tail(1)) #显示后几行

获取DataFrame数据

#获取DataFrame列

print(df['pop']) #获取列，每列都是Series对象

print(df[['pop','year']]) #获取多列

#获取DataFrame行

print(df[0:2]) #通过行下标切片的方式获取行

#通过loc和iloc方法获取数据

#.loc通过索引获取数据

#.loc获取列，切片方式。

df.loc[:,'pop'] #获取单列

df.loc[:,'pop':'province'] #通过切片获取连续列

#.loc获取行

df.loc[1] #获取单行

df.loc[1,:] #获取单行

df.loc[1:3,] #获取连续行，左右都包含。

#.iloc通过位置下标获取数据

df.iloc[0:2,0:2]

DataFrame修改index和columns

df = DataFrame(np.arange(9).reshape(3,3),index = ['bj','sh','gz'],columns = ['a','b','c'])

df.index = ['beijing','shanghai','guangzhou'] #直接修改属性值

df1 = df.rename(index = {'bj':"beijing"},columns = {'a':'A'}) #通过.rename方法修改index和columns

DataFrame中将列转换为行索引

df1 = DataFrame({"x":range(5),"y":range(5),'s':list("abcde"),"z":[1,2,3,4,5]})

#result = df1.set_index('s',drop = False) #将s列转换为行索引drop = False 保留作为索引的列

result = df1.set_index('s')

result.index.name = None #通常将数据库中数据取出后 将id作为行索引

print(result)

   s  x  y  z

0  a  0  0  1

1  b  1  1  2

2  c  2  2  3

3  d  3  3  4

4  e  4  4  5

   x  y  z

a  0  0  1

b  1  1  2

c  2  2  3

d  3  3  4

e  4  4  5

DataFrame中添加列

#在末尾直接添加列

df = pd.DataFrame([['snow','m',22],['tyrion','m',32],['sansa','f',18],['arya','f',14]],columns = ['name','gender','age']

df['score'] = [80,98,67,90] #在末尾添加一列

#通过添加列索引的方法添加列

column_name = df.columns.tolist() #将列名转换为列表

column_name.insert(2,'city') #在列表指定位置插入新的列索引

df = df.reindex(columns = column_name)#通过.reindex方法更新索引

df['city'] = ['beijing','shanxi','hubei','aomen'] #添加数据

#通过DataFrame中.insert方法添加列

df.insert(2,'score',[80,90,67,90]) #dataframe 提供insert方法 在指定位置添加列

DataFrame中添加行

#通过.append方法添加行

df = pd.DataFrame([['snow','m',22],['tyrion','m',32],['sansa','f',18],['arya','f',14]],columns = ['name','gender','age']

row = pd.DataFrame({'name':'fy','gender':'m','age':23},index = [0]) #生成带添加的行

df = df.append(row,ignore_index = True) #ignore_index = True 按照原来的索引

DataFrame创建多层索引

#1
df = pd.DataFrame(np.random.randint(0,150,size = (6,4)),

columns = ['zs','ls','ww','zl'],

index = [['a','a','b','b','c','c'],['期中','期末','期中','期末','期中','期末']])

#2

class1 = ['a','a','b','b','c','c']

class2 = ['期中','期末','期中','期末','期中','期末']

m_index2 = pd.MultiIndex.from_arrays([class1,class2])

df2 = pd.DataFrame(np.random.randint(0,150,(6,4)),index = m_index2)

#3

class2 = ['a','b','c']

class1 = ['期中','期末']

m_index2 = pd.MultiIndex.from_product([class1,class2])

df3 = pd.DataFrame(np.random.randint(0,150,(6,4)),index = m_index2)

        0    1    2   3

期中 a   79   22    5   2

   b   47   44   25  80

   c   40   61  131  60

期末 a  127   46  144  44

   b   24  128  110  81

   c   79  133   33  18

Tips:Pandas内容很多，还包括时间序列和分组聚合等，在实例中熟悉。

2020-04-04 16：28

Python库-Pandas的更多相关文章

python库pandas
由于在机器学习中经常以矩阵的方式来表现数据,那么我们就需要一种数据结构来存储和处理矩阵.pandas库就是这样一个工具. 本文档是一个学习笔记,记录一些常用的命令,原文:http://www.cnbl ...
python库pandas简介
pandas是基于numpy的数据分析模块,提供了大量标准模型和高效操作大型数据集所需要的工具. pandas主要提供了3种数据结构:1.Series,带标签的一维数组:2.DataFrame,带标签 ...
顶级Python库
绝不能错过的24个顶级Python库 Python有以下三个特点: · 易用性和灵活性 · 全行业高接受度:Python无疑是业界最流行的数据科学语言 · 用于数据科学的Python库的数量优势事实 ...
Python数据分析库pandas基本操作
Python数据分析库pandas基本操作2017年02月20日 17:09:06 birdlove1987 阅读数:22631 标签: python 数据分析 pandas 更多个人分类: Pyt ...
Python 数据处理库 pandas 入门教程
Python 数据处理库 pandas 入门教程2018/04/17 · 工具与框架 · Pandas, Python 原文出处: 强波的技术博客 pandas是一个Python语言的软件包,在我们使 ...
教程 | 一文入门Python数据分析库Pandas
首先要给那些不熟悉 Pandas 的人简单介绍一下,Pandas 是 Python 生态系统中最流行的数据分析库.它能够完成许多任务,包括: 读/写不同格式的数据选择数据的子集跨行/列计算寻找并 ...
Python 数据处理库pandas教程（最后附上pandas_datareader使用实例）
0 简单介绍 pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库.本文是对它的一个入门教程. pandas提供了快速,灵活和富有 ...
python重要的第三方库pandas模块常用函数解析之DataFrame
pandas模块常用函数解析之DataFrame 关注公众号"轻松学编程"了解更多. 以下命令都是在浏览器中输入. cmd命令窗口输入:jupyter notebook 打开浏览器 ...
11个并不广为人知，但值得了解的Python库
这是一篇译文,文中提及了一些不常见但是有用的Python库原文地址:http://blog.yhathq.com/posts/11-python-libraries-you-might-not-kn ...

随机推荐

死磕Lambda表达式（三）：更简洁的Lambda
我们都是阴沟里的虫子,但总还是得有人仰望星空.--<三体> 在之前的文章中介绍了Lambda表达式的基本语法和正确使用姿势,这次我来介绍一些Lambda更简洁的用法. 欢迎关注微信公众号: ...
Python - 变量的作用域
变量作用域 Python能够改变变量作用域的代码段是 def . class . lamda. if/elif/else.try/except/finally.for/while 并不能涉及变量作用域 ...
Java并发编程学习前期知识下篇
Java并发编程学习前期知识下篇通过上一篇<Java并发编程学习前期知识上篇>我们知道了在Java并发中的可见性是什么?volatile的定义以及JMM的定义.我们先来看看几个大厂真实的 ...
[C++]那些年被虐的STL
首先很感谢**P1135奇怪的电梯 **[2.14补充:此题已被AC!然后将被我花式虐[From语]哈哈哈哈哈哈哈哈哈哈好嗨哟感觉人生已经到达了巅峰感觉人生已经到达了高潮]这道题了!在做这道题的我大致 ...
国际惯例，Hello World。
c语言: #include<stdio.h> int main() { printf("Hello World!\n"); ; } C++: #include<i ...
Django redis的使用
一简介 redis是一个key-value存储系统.和Memcached类似,它支持存储的value类型相对更多,包括string(字符串).list(链表).set(集合).zset(sorted ...
Django模型层ORM学习笔记
一. 铺垫 1. 连接Django自带数据库sqlite3 之前提到过Django自带一个叫做sqlite3的小型数据库,当我们做本地测试时,可以直接在sqlite3上测试.不过该数据库是小型的,在有 ...
CF1326C Permutation Partitions 题解，
原题链接简要题意: 给定一个 \(1\) ~ \(n\) 的置换,将数组分为 \(k\) 个区间,使得每个区间的最大值之和最大.求这个值,和分区的方案数. 关键在于 \(1\) ~ \(n\) 的置 ...
【codeforces】Codeforces Round #606 E. Two Fairs——图论
题目链接题意给你一张无向图,求出有多少对点对(x, y)满足从点x到点y的所有路径必同时经过点a和点b 分析单点首先考虑假如点a和点b是同一个点的情况我从任意的一点出发,把所有与点a/b相连 ...
控制台报错Cause: org.xml.sax.SAXParseException; lineNumber: 4; columnNumber: 78; 元素类型 "select" 必须后跟属性规范 ">" 或 "/>"
首先我的控制台报错是这样的,我找了一下原因看到是第四行的错误: 它说元素select后面必须跟属性规范">""/>"但是我把我眼睛都快丑瞎了都没发现 ...

Python库-Pandas

Python库-Pandas的更多相关文章

随机推荐

热门专题