Python的Pandas库简述

pandas 是 python 的数据分析处理库
import pandas as pd

1、读取CSV、TXT文件

foodinfo = pd.read_csv("pandas_study.csv", encoding = "utf-8")

2、查看前N条、后N条信息

foodinfo.head(N)

foodinfo.tail(N)

3、查看数据框的格式，是DataFrame还是ndarray

print(type(foodinfo))

# 结果：<class 'pandas.core.frame.DataFrame'>

4、查看有哪些列

foodinfo.columns

5、查看有几行几列

foodinfo.shape

6、打印某一行、某几行数据

foodinfo.loc[0]

foodinfo.loc[0:2]

foodinfo.loc[[2, 5, 10]]    #注意里面是一个数组

7、打印某一列、某几列数据

foodinfo["dti"]

foodinfo[["int_rate", "dti"]]    #注意里面是一个数组

# 或者：

columns = ["int_rate", "dti"]

foodinfo[columns]

8、打印所有列的数据类型

foodinfo.dtypes

9、对列的一些相关操作

col_columns = foodinfo.columns.tolist()

new_columus = []

for c in col_columns:

if c.endswith("s"):

new_columus.append(c)

print(c)

foodinfo[new_columus]

10、加减乘除：将每行都乘以100（加减乘除一样）

foodinfo[["int_rate", "dti"]] * 100

11、增加一列

new_col = foodinfo["int_rate"] * 100

foodinfo["new_col"]= new_col

12、列之间的运算

foodinfo["dti"] * foodinfo["int_rate"]

13、查看列的最大值、最小值、平均值

foodinfo["int_rate"].max()

foodinfo["int_rate"].min()

foodinfo["int_rate"].mean()

14、按某个字段排序 - 升序

# inplace是否新建一个dataframe，True不需要

foodinfo.sort_values("int_rate_one", inplace = True)

# 按某个字段排序 - 降序

foodinfo.sort_values("int_rate_one", inplace = True, ascending = False)

15、查看数据框的一些属性：最大、最小、均值、四分位数等

foodinfo.describe()

16、空值相关的操作

pin = foodinfo["pin"]

pin_isnull = pd.isnull(pin) # 查看所有空值

pin_isnull_list = foodinfo[pin_isnull] # 找出所有为空值的行

len(pin_isnull_list)        # 空值的个数

17、缺失值相关操作

# 简单的处理办法就是过滤掉null值

books = foodinfo["life_cycle_books"]

book_isnull = pd.isnull(books)

book_list_isnull = foodinfo["life_cycle_books"][book_isnull == False]

mean = sum(book_list_isnull) / len(book_list_isnull)    # 计算平均值

18、根据条件打印某列数据

foodinfo[foodinfo["life_cycle_books"] == 1]

19、数据透视表

import numpy as np

# index：要透视的列

# values：要比较的关系列

# aggfunc：具体的关系，默认值：np.mean

data_foodinfo = foodinfo.pivot_table(index = ["life_cycle_books", "potential_value_books"], values = "risk_level", aggfunc = np.mean)

print(data_foodinfo)

20、删除缺失值

# 所有行

na_foodinfo = foodinfo.dropna(axis = 1)

# 可以指定列

na_foodinfo = foodinfo.dropna(axis = 0, subset = ["life_cycle_books", "potential_value_books"])

21、自由取数据如：取80行 life_cycle_books列

foodinfo.loc[80, "life_cycle_books"]

22、重新排索引

foodinfo.reset_index(drop = True)

23、自定义函数：返回空值个数

def count_null_columns(column):

    column_null = pd.isnull(column)

    list_null = column[column_null]

    count_null = len(list_null)

    return count_null

foodinfo.apply(count_null_columns)

24、Series

# pandas 三种数据结构

# Series

# DataFrame

# Panel

from pandas import Series

25、Series显示某一列数据

series_name = taitan["Name"]

series_name.values

26、定位某行某列

series_name = taitan["Name"]

series_age = taitan["Age"]

series_custom = Series(series_age.values, index = series_name)

series_custom[["Ahlin, Mrs. Johan (Johanna Persdotter Larsson)", "Asplund, Mrs. Carl Oscar (Selma Augusta Emilia Johansson)"]]

# 说明：series_custom[""] 按列取 series_custom[[""]] 按行取

27、取5-10行数据，和上面一样：

series_custom[5: 10]

28、index变换

old_index = series_custom.index.tolist()

sort_index = sorted(old_index)

new_index = series_custom.reindex(sort_index)

print(new_index)

29、Series按索引和值排序的函数

sc1 = series_custom.sort_index()

print(sc1)

sc2 = series_custom.sort_values()

print(sc2)

30、Series 过滤

series_custom > 0.5

series_custom[series_custom > 0.5]

series_custom[(series_custom > 0.5) & (series_custom < 0.9)]

# 注：&、| 都是单符号

31、DataFrame

# Series是一行数据，DataFrame是多行数据

# DataFrame 可以看成由多个 Series 组成的

df = pd.read_csv("titanic_train.csv")

32、DataFrame的索引变换

# drop 是否新创建一个DF，True否 False是（表示还要保留Name这一列，否则一会无法进行计算）

df_name = df.set_index("Name", drop = False)

33、DataFrame查看某一类型的数据

types = df_name.dtypes

float_columns = types[types.values == "float64"].index

df_name[float_columns]

34、DataFrame求方差

float_df = df_name[float_columns]

float_df.apply(lambda x: np.std(x))

Python的Pandas库简述的更多相关文章

Python之Pandas库常用函数大全（含注释）
前言:本博文摘抄自中国慕课大学上的课程<Python数据分析与展示>,推荐刚入门的同学去学习,这是非常好的入门视频. 继续一个新的库,Pandas库.Pandas库围绕Series类型和D ...
Python数据分析Pandas库方法简介
Pandas 入门 Pandas简介背景:pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观.它旨在成为在Python中进行实际, ...
Python的Numpy库简述
numpy 是 python 的科学计算库import numpy as np 1.使用numpy读取txt文件 # dtype = "str":指定数据格式 # delimite ...
Python的Matplotlib库简述
Matplotlib 库是 python 的数据可视化库import matplotlib.pyplot as plt 1.字符串转化为日期 unrate = pd.read_csv("un ...
Python之Pandas库学习（二）：数据读写
1. I/O API工具读取函数写入函数 read_csv to_csv read_excel to_excel read_hdf to_hdf read_sql to_sql read_json ...
Python之Pandas库学习（一）：简介
官方文档 1. 安装Pandas windos下cmd:pip install pandas 导入pandas包:import pandas as pd 2. Series对象带索引的一维数组创建 ...
python的pandas库学习笔记
导入: import pandas as pd from pandas import Series,DataFrame 1.两个主要数据结构:Series和DataFrame (1)Series是一种 ...
Python数据分析Pandas库之熊猫(10分钟二)
pandas 10分钟教程(二) 重点发法分组 groupby('列名') groupby(['列名1','列名2',.........]) 分组的步骤 (Splitting) 按照一些规则将数据分 ...
Python数据分析Pandas库之熊猫(10分钟一)
pandas熊猫10分钟教程排序 df.sort_index(axis=0/1,ascending=False/True) df.sort_values(by='列名') import numpy ...

随机推荐

RasterEdge.DocImageSDK9.8.7 破解版
RasterEdge.DocImageSDK9.8.7 破解版本人破解了 RasterEdge.DocImageSDK9.8.7 ,有需要的同学请联系本人.
混合模式为什么成为占有率最高的app开发技术
在企业移动战略布局中,app已成为连接业务与用户最主要的载体,同样其开发技术目前也处于十分成熟的阶段,而从技术实现的角度去考量,很多从业者可能并不知道,越是大企业.越是IT预算多的企业,他们的移动ap ...
zabbix自动发现主机并加入组绑定模板
在被监控主机多的情况下,怎样将这些主机加入zabbix server进行监控呢?下面将介绍下zabbix自动发现功能 1.创建自动发现规则创建“规则名称,配置ip范围及检查方式”,点击“增加”,完成 ...
记录jq控制select 选中状态
$("#categoryId option[value='"+ data.category_id +"']").attr("selected" ...
类Unix如何查看mysql的配置文件my.cnf
mysql 配置文件 my.cnf是MySQL启动时加载的配置文件,一般会放在MySQL的安装目录中,用户也可以放在其他目录加载. 安装MySQL后,系统中会有多个my.cnf文件,有些是用户测试的. ...
php之运算符
运算符优先级相同,运算符的结合方向决定了该如何运算, 一.运算符优先级组合方向运算符附加信息无 clone new clone和new 左 [ array 右 ** 算术运算符右 ++ -- ...
iOS-静态库，动态库，framework，bundle浅析(四)
1. 创建bundle,如图,点击 + ,弹出选择框, macOS 下的Framework & Library ,点击bundle,输入bundle的名字,然后点击 finish. 图 ...
tst
select count(*) from student where age>18 group by 性别 having count(*)>2 order by age where过滤的是 ...
九九乘法表python3写入文件中
写入文件代码如下: with open("e:\\test01.txt","w+",encoding="utf-8") as wq: for ...
js中属性类型：数据属性与访问器属性
js中属性类型分为两种:数据属性和访问器属性在js中,对象都是由名值对构成的,名:就是我们所说的属性名,值就是属性对应的值(基本值.对象.方法). ECMA-262第5版定义了只有内部才用的特性,描 ...

Python的Pandas库简述

Python的Pandas库简述的更多相关文章

随机推荐

热门专题