Python的Pandas库简述
pandas 是 python 的数据分析处理库
import pandas as pd
1、读取CSV、TXT文件
foodinfo = pd.read_csv("pandas_study.csv", encoding = "utf-8")
2、查看前N条、后N条信息
foodinfo.head(N)
foodinfo.tail(N)
3、查看数据框的格式,是DataFrame还是ndarray
print(type(foodinfo))
# 结果:<class 'pandas.core.frame.DataFrame'>
4、查看有哪些列
foodinfo.columns
5、查看有几行几列
foodinfo.shape
6、打印某一行、某几行数据
foodinfo.loc[0]
foodinfo.loc[0:2]
foodinfo.loc[[2, 5, 10]] #注意里面是一个数组
7、打印某一列、某几列数据
foodinfo["dti"]
foodinfo[["int_rate", "dti"]] #注意里面是一个数组
# 或者:
columns = ["int_rate", "dti"]
foodinfo[columns]
8、打印所有列的数据类型
foodinfo.dtypes
9、对列的一些相关操作
col_columns = foodinfo.columns.tolist()
new_columus = [] for c in col_columns:
if c.endswith("s"):
new_columus.append(c)
print(c) foodinfo[new_columus]
10、加减乘除:将每行都乘以100(加 减 乘 除 一样)
foodinfo[["int_rate", "dti"]] * 100
11、增加一列
new_col = foodinfo["int_rate"] * 100
foodinfo["new_col"]= new_col
12、列之间的运算
foodinfo["dti"] * foodinfo["int_rate"]
13、查看列的最大值、最小值、平均值
foodinfo["int_rate"].max()
foodinfo["int_rate"].min()
foodinfo["int_rate"].mean()
14、按某个字段排序 - 升序
# inplace是否新建一个dataframe,True不需要
foodinfo.sort_values("int_rate_one", inplace = True) # 按某个字段排序 - 降序
foodinfo.sort_values("int_rate_one", inplace = True, ascending = False)
15、查看数据框的一些属性:最大、最小、均值、四分位数等
foodinfo.describe()
16、空值相关的操作
pin = foodinfo["pin"]
pin_isnull = pd.isnull(pin) # 查看所有空值
pin_isnull_list = foodinfo[pin_isnull] # 找出所有为空值的行
len(pin_isnull_list) # 空值的个数
17、缺失值相关操作
# 简单的处理办法就是过滤掉null值
books = foodinfo["life_cycle_books"]
book_isnull = pd.isnull(books)
book_list_isnull = foodinfo["life_cycle_books"][book_isnull == False]
mean = sum(book_list_isnull) / len(book_list_isnull) # 计算平均值
18、根据条件打印某列数据
foodinfo[foodinfo["life_cycle_books"] == 1]
19、数据透视表
import numpy as np
# index:要透视的列
# values:要比较的关系列
# aggfunc:具体的关系,默认值:np.mean
data_foodinfo = foodinfo.pivot_table(index = ["life_cycle_books", "potential_value_books"], values = "risk_level", aggfunc = np.mean)
print(data_foodinfo)
20、删除缺失值
# 所有行
na_foodinfo = foodinfo.dropna(axis = 1)
# 可以指定列
na_foodinfo = foodinfo.dropna(axis = 0, subset = ["life_cycle_books", "potential_value_books"])
21、自由取数据 如:取80行 life_cycle_books列
foodinfo.loc[80, "life_cycle_books"]
22、重新排索引
foodinfo.reset_index(drop = True)
23、自定义函数:返回空值个数
def count_null_columns(column):
column_null = pd.isnull(column)
list_null = column[column_null]
count_null = len(list_null)
return count_null
foodinfo.apply(count_null_columns)
24、Series
# pandas 三种数据结构
# Series
# DataFrame
# Panel
from pandas import Series
25、Series显示某一列数据
series_name = taitan["Name"]
series_name.values
26、定位某行某列
series_name = taitan["Name"]
series_age = taitan["Age"]
series_custom = Series(series_age.values, index = series_name)
series_custom[["Ahlin, Mrs. Johan (Johanna Persdotter Larsson)", "Asplund, Mrs. Carl Oscar (Selma Augusta Emilia Johansson)"]]
# 说明:series_custom[""] 按列取 series_custom[[""]] 按行取
27、取5-10行数据,和上面一样:
series_custom[5: 10]
28、index变换
old_index = series_custom.index.tolist()
sort_index = sorted(old_index)
new_index = series_custom.reindex(sort_index)
print(new_index)
29、Series按索引和值排序的函数
sc1 = series_custom.sort_index()
print(sc1)
sc2 = series_custom.sort_values()
print(sc2)
30、Series 过滤
series_custom > 0.5
series_custom[series_custom > 0.5]
series_custom[(series_custom > 0.5) & (series_custom < 0.9)]
# 注:&、| 都是单符号
31、DataFrame
# Series是一行数据,DataFrame是多行数据
# DataFrame 可以看成由多个 Series 组成的
df = pd.read_csv("titanic_train.csv")
32、DataFrame的索引变换
# drop 是否新创建一个DF,True否 False是(表示还要保留Name这一列,否则一会无法进行计算)
df_name = df.set_index("Name", drop = False)
33、DataFrame查看某一类型的数据
types = df_name.dtypes
float_columns = types[types.values == "float64"].index
df_name[float_columns]
34、DataFrame求方差
float_df = df_name[float_columns]
float_df.apply(lambda x: np.std(x))
Python的Pandas库简述的更多相关文章
- Python之Pandas库常用函数大全(含注释)
前言:本博文摘抄自中国慕课大学上的课程<Python数据分析与展示>,推荐刚入门的同学去学习,这是非常好的入门视频. 继续一个新的库,Pandas库.Pandas库围绕Series类型和D ...
- Python数据分析Pandas库方法简介
Pandas 入门 Pandas简介 背景:pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观.它旨在成为在Python中进行实际, ...
- Python的Numpy库简述
numpy 是 python 的科学计算库import numpy as np 1.使用numpy读取txt文件 # dtype = "str":指定数据格式 # delimite ...
- Python的Matplotlib库简述
Matplotlib 库是 python 的数据可视化库import matplotlib.pyplot as plt 1.字符串转化为日期 unrate = pd.read_csv("un ...
- Python之Pandas库学习(二):数据读写
1. I/O API工具 读取函数 写入函数 read_csv to_csv read_excel to_excel read_hdf to_hdf read_sql to_sql read_json ...
- Python之Pandas库学习(一):简介
官方文档 1. 安装Pandas windos下cmd:pip install pandas 导入pandas包:import pandas as pd 2. Series对象 带索引的一维数组 创建 ...
- python的pandas库学习笔记
导入: import pandas as pd from pandas import Series,DataFrame 1.两个主要数据结构:Series和DataFrame (1)Series是一种 ...
- Python数据分析Pandas库之熊猫(10分钟二)
pandas 10分钟教程(二) 重点发法 分组 groupby('列名') groupby(['列名1','列名2',.........]) 分组的步骤 (Splitting) 按照一些规则将数据分 ...
- Python数据分析Pandas库之熊猫(10分钟一)
pandas熊猫10分钟教程 排序 df.sort_index(axis=0/1,ascending=False/True) df.sort_values(by='列名') import numpy ...
随机推荐
- phpcms v9 的表单向导功能的使用方法 附多个案例
本文主要介绍phpcms v9的表单向导功能是如何使用的,并副多个案例讲解: 先介绍一下v9 的表单向导如何使用 表单向导做的很实用,生成一个表单,常用的是把它作为一个留言板,或者在招聘栏目作为一个供 ...
- 洛谷P1192 台阶问题【记忆化搜索】
题目:https://www.luogu.org/problemnew/show/P1192 题意: 给定n和k,一个人一次可以迈1~k步,问走n步有多少种方案. 思路: 本来傻乎乎上来就递归,显然会 ...
- Linux之文档与目录结构 目录的相关操作 Linux的文件系统
Linux之文档与目录结构 Linux文件系统结构 Linux目录结构的组织形式和Windows有很大的不同.首先Linux没有“盘(C盘.D盘.E盘)”的概念.已经建立文件系统的硬盘分区被挂载到 ...
- web标准 浏览器介绍 开发工具介绍 HTML介绍 HTML颜色介绍 规范 HTML结构详解 {前端之前端初识}
前端之前端初识 前端初识 本节目录 一 web标准 二 浏览器介绍 三 开发工具介绍 四 HTML介绍 五 HTML颜色介绍 六 规范 七 HTML结构详解 一 web标准 web准备介绍: 1. ...
- 关于Linux一些问题和答案
1.怎样切换输入法? 2.怎样安装KDE? $sudo apt-get install kubuntu-desktop 3.安装KDE以后,怎样切回到默认的gnome? 注销,返回到登录界面,在“登录 ...
- shell之awk面试小案例
[root@chavinking mnt]# cat textfile chavinking 1 2 3 4 5 6 nope 1 2 3 4 5 6 [root@chavinking mnt]# c ...
- 网关 整理 fastcgi wsgi
https://www.cnblogs.com/hzhtracy/p/4365938.html 网关协议学习:CGI.FastCGI.WSGI.uWSGI 一直对这四者的概念和区别很模糊,现在就特 ...
- ms sql server读取xml文件存储过程-sp_xml_preparedocument
最近要在存储过程中读取xml中节点的值,然后进行sql操作: 要使用到的系统存储过程如下:sp_xml_preparedocument create procedure [dbo].[pro_Test ...
- mysql设置指定ip访问,用户权限相关操作
基础语法GRANT priv_type ON database.table TO user[IDENTIFIED BY [PASSWORD] 'password'] [,user [IDENTIFIE ...
- 转:HashMap实现原理分析(面试问题:两个hashcode相同 的对象怎么存入hashmap的)
原文地址:https://www.cnblogs.com/faunjoe88/p/7992319.html 主要内容: 1)put 疑问:如果两个key通过hash%Entry[].length得 ...