Python数据分析Pandas库之熊猫(10分钟二)
pandas 10分钟教程(二)
重点发法
分组 groupby('列名') groupby(['列名1','列名2',.........])
分组的步骤
(Splitting) 按照一些规则将数据分为不同的组,拆分
(Applying) 对于每组数据分别执行一个函数.'应用,申请'
(Combining) 将结果组合到一个数据结构, '组合/合并'
import pandas as pd
#根据A分组后求和
df.groupby('A').sum()
#分组,指定具体列的出来函数 #reset_index 重置索引
df.group(by=['列1','列2',....]).agg({'列名':['max','min']}).reset_index()
#agg/apply:指定具体的处理函数,,,可以 写自定义函数
分组后的统计方法
size() = count()
max(),min(),mean() 最大最小,平均数
std()
median() 中位数
frist() ,last() 第一个和最后一个非NA值
prod 非NA值得积
以上统计函数,除了count()外,都会自动过滤非数字列!!!!
排重:duplicated
检查重复的数据:df.duplicated()
检查重复指定列名:df.duplicated(['列1','列2',....])
删除重复数据:df.drop_duolicates()
删除时指定保留的数据: df.drop_duplicates(['列1',.......],keep='frist/last')
keep:保存
frist:第一个,last:最后一个
数据透视表(和groupby()类似)
df.pibot_table(df,index=['列1','列2',...],values='列名',aggfunc=np.mean/sum)
index : 需要排序的列
values : 需要统计的列
aggfunc : 执行的统计函数,不写默认统计平均值
分组替换: Categories 分组/分类,
实现第二列分组比替换数据:
df['新列名'] = df['B'].astype('category');转化为分类/分组类型
分配列名: df['新列名'].cat.set_categories((值1,值2,.......))
重新设置: df['新列名'] = df['新列名'].cat_set_categories([值一,值二,...])
读写文件
HDF5: 存储打数据,方便和其他语言对接,
to_hdf()
read_hdf()
表格:excel
read_excel('path',sheet_name='子页名')
to_excel(path)
Python数据分析Pandas库之熊猫(10分钟二)的更多相关文章
- Python数据分析Pandas库之熊猫(10分钟一)
pandas熊猫10分钟教程 排序 df.sort_index(axis=0/1,ascending=False/True) df.sort_values(by='列名') import numpy ...
- Python数据分析Pandas库方法简介
Pandas 入门 Pandas简介 背景:pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观.它旨在成为在Python中进行实际, ...
- Python数据分析Pandas库数据结构(一)
pandas数据结构 1.生成一维矩阵模拟数据 import pandas as pdimport numpy as nps = pd.Series([1,2,3,4,np.nan,9,9])s2 = ...
- Python数据分析 Pandas模块 基础数据结构与简介(二)
重点方法 分组:groupby('列名') groupby(['列1'],['列2'........]) 分组步骤: (spiltting)拆分 按照一些规则将数据分为不同的组 (Applying)申 ...
- Python数据分析--Pandas知识点(二)
本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) 下面将是在知识点一的基础上继续总结. 13. 简单计算 新建一个数据表 ...
- Python数据分析--Pandas知识点(三)
本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) Python数据分析--Pandas知识点(二) 下面将是在知识点一, ...
- Python的Pandas库简述
pandas 是 python 的数据分析处理库import pandas as pd 1.读取CSV.TXT文件 foodinfo = pd.read_csv("pandas_study. ...
- Python之Pandas库常用函数大全(含注释)
前言:本博文摘抄自中国慕课大学上的课程<Python数据分析与展示>,推荐刚入门的同学去学习,这是非常好的入门视频. 继续一个新的库,Pandas库.Pandas库围绕Series类型和D ...
- Python数据分析-Pandas(Series与DataFrame)
Pandas介绍: pandas是一个强大的Python数据分析的工具包,是基于NumPy构建的. Pandas的主要功能: 1)具备对其功能的数据结构DataFrame.Series 2)集成时间序 ...
随机推荐
- Go九九乘法表
package main import "fmt" func main(){ ; i < ; i ++ { k ++ ; j ++ { { fmt.Printf(" ...
- Reward List 赏金列表
博主昨晚正在刷题,突然手机语音大声提示“微信支付收款到账”,把博主吓了一跳,打开一看,居然收到了第一笔打赏,还是博主最喜欢的数字,老开心了-感谢网友对于博主工作的认可与支持,多谢多谢!不管大家是物质打 ...
- postman上传图片时已经添加cookie,但仍显示未登陆
postman上传图片时,已经添加过cookie,但是返回的结果是用户未登陆,如下图所示: 我的解决办法是:清楚cookie code中的cookie 最终的结果如下:成功
- C++———库函数cstring及string方法解读
1.string与cstring区别 <string>是C++标准库头文件.包含了拟容器class std::string的声明(不过class string事实上只是basic_stri ...
- python中剔除字典重复项,可以使用集合(set)。
使用集合(set)剔除字典中的重复项(value). 1)具体例子: #甲乙丙丁使用的编程语言programming_languages = { '甲':'java', '乙':'python', ' ...
- 2019OO第一单元总结
第一次作业 (你没看错,就一个类...) 通过正则表达式处理输入的字符串,提取出每一项的系数和指数,在输出的时候,应当考虑到合并同类项和正项提前的问题,使得最终的输出最短. 我第一次作业的代码超级难看 ...
- [strongswan] strongswan METHOD宏
使用METHOD宏的函数定义: METHOD(message_t, get_message_id, uint32_t, private_message_t *this) { return this-& ...
- bug和注意事项
bug: 1.新增角色,在选择权限树的时候,如果不选择根目录下的第一个节点,保存后,权限树会打不开. 2.文档页面有两个大字段,即ueditor编辑器的时候,保存后回显会有问题 不过一个页面有两个大文 ...
- 查看历史会话等待事件对应的session信息
此处以enq: TX - row lock contention等待时间为例. 查看snap_id对应时间 select to_char(s.startup_time,'dd Mon "at ...
- python基础3 条件判断 if嵌套
if单向判断: stonenumber=6#为宝石数量赋值 if stonenumber>=6: #条件:如果你拥有的宝石数量大于等于6个 print('你拥有了毁灭宇宙的力量') #结果:显示 ...