03pandas

一.pandas简述

1）pandas是一个开源的，BSD许可的库，为Python编程语言提供高性能，易于使用的数据结构和数据分析工具。

2）numpy能够帮助我们处理数值，但是pandas除了处理数值之外(基于numpy)，还能够帮助我们处理其他类型的数据

二.pandas的数据类型

1.Series

1)Series是一种类似于一维数组的对象，由一组数据（各种NumPy数据类型）以及一组与之对应的索引（数据标签）组成。

l 类似一维数组的对象

l 由数据和索引组成

² 索引(index)在左，数据(values)在右

² 索引是自动创建的

2)创建

ser_obj = pd.Series(np.arange(10),index=list(string.ascii_uppercase[:10]))

3)切片和索引

切片：直接传入strat end或步长即可

索引：一个的时候直接传入序号或者index，多个的时候传入序号或者index的列表

4）索引和值

l 获取索引 t.index

l 获取值 t.values

2.DataFrame

2.1简介

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同类型的值。DataFrame既有行索引也有列索引，它可以被看做是由Series组成的字典（共用同一个索引），数据是以二维结构存放的。

l 类似多维数组/表格数据 (如，excel, R中的data.frame)

l 每列数据可以是不同的类型

l 索引包括列索引和行索引

2.2操作

通过ndarray构建DataFrame

代码：

import numpy as np

# 通过ndarray构建DataFrame

array = np.random.randn(5,4)

print(array)

df_obj = pd.DataFrame(array)

print(df_obj.head())

输出：

[[ 0.83500594 -1.49290138 -0.53120106 -0.11313932]

 [ 0.64629762 -0.36779941  0.08011084  0.60080495]

 [-1.23458522  0.33409674 -0.58778195 -0.73610573]

 [-1.47651414  0.99400187  0.21001995 -0.90515656]

 [ 0.56669419  1.38238348 -0.49099007  1.94484598]]

          0         1         2         3

0  0.835006 -1.492901 -0.531201 -0.113139

1  0.646298 -0.367799  0.080111  0.600805

2 -1.234585  0.334097 -0.587782 -0.736106

3 -1.476514  0.994002  0.210020 -0.905157

4  0.566694  1.382383 -0.490990  1.944846

2.通过dict构建dataframe

代码：

# 通过dict构建DataFrame

dict_data = {'A': 1,

             'B': pd.Timestamp(''),

             'C': pd.Series(1, index=list(range(4)),dtype='float32'),

             'D': np.array([3] * 4,dtype='int32'),

             'E': ["Python","Java","C++","C"],

             'F': 'ITCast' }

#print dict_data

df_obj2 = pd.DataFrame(dict_data)

print(df_obj2)

输出：

   A          B    C  D       E       F

0  1 2017-04-26  1.0  3  Python  ITCast

1  1 2017-04-26  1.0  3    Java  ITCast

2  1 2017-04-26  1.0  3     C++  ITCast

3  1 2017-04-26  1.0  3       C  ITCas

3.通过列索引获取列数据（Series类型）

df_obj[col_idx] 或 df_obj.col_idx

4.增加列数据

df_obj[new_col_idx] = data

5.删除列

del df_obj[col_idx]

2.3基础属性

2.4整体情况查询

2.5排序

df.sort_values(by="Count_AnimalName",ascending=False)

ascending参数默认为true，即升序排列

2.6取行、取列

1）取某一列df[" Count_AnimalName "]

2）取行取列df[:100][" Count_AnimalName "]

2.7 loc取行取列

1) df.loc 通过标签索引行数据

2) df.iloc 通过位置获取行数据

赋值更改数据：

2.8布尔索引

2.9字符串方法

三.数据处理

1) 判断数据是否为NaN：pd.isnull(df),pd.notnull(df)

2) 处理缺失数据

l 方式1：删除NaN所在的行列dropna (axis=0, how='any', inplace=False)

l 方式2：填充数据，t.fillna(t.mean()),t.fiallna(t.median()),t.fillna(0)

3) 处理为0的数据：t[t==0]=np.nan

当然并不是每次为0的数据都需要处理

计算平均值等情况，nan是不参与计算的，但是0会

四.数据合并

1.join

默认情况下他是把行索引相同的数据合并到一起

2.merge

按照指定的列把数据按照一定的方式合并到一起

1) 默认的合并方式inner，并集

2) merge outer，交集，NaN补全

3) merge left，左边为准，NaN补全

4) merge right，右边为准，NaN补全

五.分组和聚合

1）groupby方法

grouped = df.groupby(by="columns_name")

grouped是一个DataFrameGroupBy对象，是可迭代的

grouped中的每一个元素是一个元组

元组里面是（索引(分组的值)，分组之后的DataFrame）

2）DataFrameGroupBy对象有很多经过优化的方法

六.索引和复合索引

简单的索引操作：

l 获取index：df.index

l 指定index ：df.index = ['x','y']

l 重新设置index : df.reindex(list("abcedf"))

l 指定某一列作为index ：df.set_index("Country",drop=False)

l 返回index的唯一值：df.set_index("Country").index.unique()

七.时间序列

1.使用

pd.date_range(start=起始时间, end=“”, periods=生成个数, freq='D')

start和end以及freq配合能够生成start和end范围内以频率freq的一组时间索引

start和periods以及freq配合能够生成从start开始的频率为freq的periods个时间索引

2.关于freq频率的更多缩写

3. 使用pandas提供的方法把时间字符串转化为时间序列

df["timeStamp"] = pd.to_datetime(df["timeStamp"],format="")

format参数大部分情况下可以不用写，但是对于pandas无法格式化的时间字符串，我们可以使用该参数，比如包含中文

4.重采样

重采样：指的是将时间序列从一个频率转化为另一个频率进行处理的过程，将高频率数据转化为低频率数据为降采样，低频率转化为高频率为升采样

pandas提供了一个resample的方法来帮助我们实现频率转化

5.periodIndex

periods=pd.PeriodIndex(year=data["year"],month=data["month"],day=data["day"],hour=data["hour"],freq="H")

之前所学习的DatetimeIndex可以理解为时间戳，那么现在我们要学习的PeriodIndex可以理解为时间段。

七.数据重构

1.stack

l 将行索引转换为列索引，完成层级索引

l DataFrame->Seriees

示例代码：

import numpy as np

import pandas as pd

df_obj = pd.DataFrame(np.random.randint(0,10, (5,2)), columns=['data1', 'data2'])

print(df_obj)

stacked = df_obj.stack()

print(stacked)

运行结果：

# print(df_obj)

   data1  data2

0      7      9

1      7      8

2      8      9

3      4      1

4      1      2

# print(stacked)

0  data1    7

   data2    9

1  data1    7

   data2    8

2  data1    8

   data2    9

3  data1    4

   data2    1

4  data1    1

   data2    2

dtype: int64

2. unstack

l 将层级索引展开

l Series->DataFrame

l 认操作内层索引，即level=-1

示例代码：

# 默认操作内层索引

print(stacked.unstack())

# 通过level指定操作索引的级别

print(stacked.unstack(level=0))

运行结果：

# print(stacked.unstack())

   data1  data2

0      7      9

1      7      8

2      8      9

3      4      1

4      1      2

# print(stacked.unstack(level=0))

       0  1  2  3  4

data1  7  7  8  4  1

data2  9  8  9  1  2

八.数据转换

1.处理重复数据

1） duplicated() 返回布尔型Series表示每行是否为重复行

2） drop_duplicates() 过滤重复行

l 默认判断全部列 df_obj.drop_duplicates()

l 可指定按某些列判断 df_obj.drop_duplicates('data2')

2.数据替换

replace根据值的内容进行替换

示例代码：

# 单个值替换单个值

print(ser_obj.replace(1, -100))

# 多个值替换一个值

print(ser_obj.replace([6, 8], -100))

# 多个值替换多个值

print(ser_obj.replace([4, 7], [-100, -200]))

03pandas的更多相关文章

随机推荐

POJ2365【几何】
因为给出的点已经是顺时针了, 整个长度=相邻点距离+一个圆周长: C++ac代码-G++wa-因为标准不一样.G++用f //#include <bits/stdc++.h> #inclu ...
hdoj4027【线段树】
题意: 给你一个序列,然后给出m个命令, 每个命令有两种:①:在区间内实现开方:②:求一个区间和: 思路: 一开始没思路啊,这个开方又不像加加减减一起来就好了,开方只能自己玩啊,但是仔细一想一个数也才 ...
java实训：异常（try-catch执行顺序与自定义异常）
关键字: try:执行可能产生异常的代码 catch:捕获异常 finally:无论是否发生异常代码总能执行 throws:声明方法可能要抛出的各种异常 throw:手动抛出自定义异常用 try-c ...
Java Web中实现设置多个域名跨域访问
添加以下设置可允许所有域名跨域访问: response.setHeader("Access-Control-Allow-Origin","*"); 但在实际应用 ...
HDU 6183 Color it(动态开点线段树)
题目原网址:http://acm.hdu.edu.cn/showproblem.php?pid=6183 题目中文翻译: Time Limit: 20000/10000 MS (Java/Others ...
RobotFramework自动化测试框架（2）- RobotFramework语法
RobotFramework测试用例是由四部分组成的,下面就从这四个部分简单介绍语法: 关键字表 *** Keywords *** 设置表 *** Settings *** 变量表 *** Varia ...
关于long long int和__int64用%I64d和%lld输出在不同编译语言下的正确性
http://blog.csdn.net/febr2/article/details/52068357 这个网址最下面
spring mvc No mapping found for HTTP request with URI [/web/test.do] in DispatcherServlet with name 'spring'
原因: spring-servlet.xml 中 <context:component-scan base-package="com.test.controller" /&g ...
Java | 基础归纳 | java时间格式处理总结
https://www.cnblogs.com/edwardlauxh/archive/2010/03/21/1918615.html https://blog.csdn.net/xsj_blog/a ...
跟我一起玩Win32开发（23）：渐变颜色填充
GradientFill函数可以对特定的矩形区域或者三角形区域进行渐变颜色的填充.我们先来看看GradientFill函数到底长得什么样子,帅不帅. BOOL GradientFill( _In_ ...

03pandas

一.pandas简述

二.pandas的数据类型

1.Series

2.DataFrame

2.1简介

2.2操作

2.3基础属性

2.4整体情况查询

2.5排序

2.6取行、取列

2.7 loc取行取列

2.8布尔索引

2.9字符串方法

三.数据处理

四.数据合并

1.join

2.merge

五.分组和聚合

六.索引和复合索引

七.时间序列

1.使用

2.关于freq频率的更多缩写

3. 使用pandas提供的方法把时间字符串转化为时间序列

4.重采样

5.periodIndex

七.数据重构

1.stack

2. unstack

八.数据转换

1.处理重复数据

2.数据替换

03pandas的更多相关文章

随机推荐

热门专题