pandas 10分钟教程(二)

重点发法

  • 分组 groupby('列名') groupby(['列名1','列名2',.........])

  • 分组的步骤

  1. (Splitting) 按照一些规则将数据分为不同的组,拆分

  2. (Applying) 对于每组数据分别执行一个函数.'应用,申请'

  3. (Combining) 将结果组合到一个数据结构, '组合/合并'

import pandas as pd
#根据A分组后求和
df.groupby('A').sum()
#分组,指定具体列的出来函数   #reset_index 重置索引
df.group(by=['列1','列2',....]).agg({'列名':['max','min']}).reset_index()

#agg/apply:指定具体的处理函数,,,可以 写自定义函数

分组后的统计方法

  1. size() = count()

  2. max(),min(),mean() 最大最小,平均数

  3. std()

  4. median() 中位数

  5. frist() ,last() 第一个和最后一个非NA值

  6. prod 非NA值得积

以上统计函数,除了count()外,都会自动过滤非数字列!!!!

  • 排重:duplicated

    1. 检查重复的数据:df.duplicated()

    2. 检查重复指定列名:df.duplicated(['列1','列2',....])

    3. 删除重复数据:df.drop_duolicates()

    4. 删除时指定保留的数据: df.drop_duplicates(['列1',.......],keep='frist/last')

      • keep:保存

      • frist:第一个,last:最后一个

  • 数据透视表(和groupby()类似)

    1. df.pibot_table(df,index=['列1','列2',...],values='列名',aggfunc=np.mean/sum)

      • index : 需要排序的列

      • values : 需要统计的列

      • aggfunc : 执行的统计函数,不写默认统计平均值

  • 分组替换: Categories 分组/分类,

    1. 实现第二列分组比替换数据:

      • df['新列名'] = df['B'].astype('category');转化为分类/分组类型

      • 分配列名: df['新列名'].cat.set_categories((值1,值2,.......))

      • 重新设置: df['新列名'] = df['新列名'].cat_set_categories([值一,值二,...])

  • 读写文件

    1. HDF5: 存储打数据,方便和其他语言对接,

      • to_hdf()

      • read_hdf()

    2. 表格:excel

      • read_excel('path',sheet_name='子页名')

      • to_excel(path)

Python数据分析Pandas库之熊猫(10分钟二)的更多相关文章

  1. Python数据分析Pandas库之熊猫(10分钟一)

    pandas熊猫10分钟教程 排序 df.sort_index(axis=0/1,ascending=False/True) df.sort_values(by='列名') import numpy ...

  2. Python数据分析Pandas库方法简介

    Pandas 入门 Pandas简介 背景:pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观.它旨在成为在Python中进行实际, ...

  3. Python数据分析Pandas库数据结构(一)

    pandas数据结构 1.生成一维矩阵模拟数据 import pandas as pdimport numpy as nps = pd.Series([1,2,3,4,np.nan,9,9])s2 = ...

  4. Python数据分析 Pandas模块 基础数据结构与简介(二)

    重点方法 分组:groupby('列名') groupby(['列1'],['列2'........]) 分组步骤: (spiltting)拆分 按照一些规则将数据分为不同的组 (Applying)申 ...

  5. Python数据分析--Pandas知识点(二)

    本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) 下面将是在知识点一的基础上继续总结. 13. 简单计算 新建一个数据表 ...

  6. Python数据分析--Pandas知识点(三)

    本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) Python数据分析--Pandas知识点(二) 下面将是在知识点一, ...

  7. Python的Pandas库简述

    pandas 是 python 的数据分析处理库import pandas as pd 1.读取CSV.TXT文件 foodinfo = pd.read_csv("pandas_study. ...

  8. Python之Pandas库常用函数大全(含注释)

    前言:本博文摘抄自中国慕课大学上的课程<Python数据分析与展示>,推荐刚入门的同学去学习,这是非常好的入门视频. 继续一个新的库,Pandas库.Pandas库围绕Series类型和D ...

  9. Python数据分析-Pandas(Series与DataFrame)

    Pandas介绍: pandas是一个强大的Python数据分析的工具包,是基于NumPy构建的. Pandas的主要功能: 1)具备对其功能的数据结构DataFrame.Series 2)集成时间序 ...

随机推荐

  1. java文件与流课后作业

    1,编写一个程序,指定一个文件夹,能自动计算出其总容量, 2,编写一个文件加解密程序,通过命令行完成加解密工作3,编写一个文件分割工具,能把一个大文件分割成多个小的文件.并且能再次把它们合并起来得到完 ...

  2. ab 站点压力测试工具

    ab--压力测试工具 前端时间由于需要测试一个网站的高并发的情况,使用到了一个ab测试工具,下面是我自己的体验及参考网上别人的博客所写,希望对大家有所帮助. ab工具简介 ab 全称:apache b ...

  3. mysql字符集校对

    常用的两种 utf8_general_ci 按照普通的字母顺序,而且不区分大小写(比如:a B c D)utf8_bin 按照二进制排序(比如:A排在a前面,B D a c) ci是 case ins ...

  4. 第一次OO阶段性总结

    作业一 在第一次作业发布的时候对这次作业比较掉以轻心,因为之前在暑假的时候上过先导课,对面向对象的编程思想和java的语法都比较熟悉,加上有其他的事物分心,所以到了最后一天才开始着手写代码,轻视作业的 ...

  5. 邮件服务器安装--Postfix + Dovecot + Squirrelmail--CentOS 6.4

    英文原文链接 : http://www.unixmen.com/install-postfix-mail-server-with-dovecot-and-squirrelmail-on-centos- ...

  6. MySQL执行计划复习

    MySQL执行计划分析 Ⅰ.认识执行计划的每个字段 (root@localhost) [(none)]> desc select 1; +----+-------------+-------+- ...

  7. Head First Python-Python简单处理文件

    前面介绍了自定义格式化输出列表函数printList(),下面再介绍下格式化列表项及列表项的排序. 这里有一组列表数据,记录运动员跑步时间的,要求按照时间大小进行排序.这里每项数据记录的时间格式不一样 ...

  8. OO第一单元总结与心得体会

    一.结构度量 1. UML类图 第一次作业 第二次作业 第三次作业 2. 复杂度分析 (1)方法复杂度 ​ ev, iv, v这几栏,分别代指基本复杂度(Essential Complexity (e ...

  9. Python——开发一个自动化微信投票器【附代码实例方法】

    一个研究Python实践,最近研究一个投票的东东,主要是想测试利用Python实现刷微信投票. 本文纯粹为了记录一下 webdriver直接操作页面按钮的方法: #!/usr/bin/python # ...

  10. 一键启动frida server的cmd脚本

    和以前写过的在pc直接操作的手机端的sqlite的脚本类似,需要用到重定向的命令 frida-server_helper.bat su /data/local/tmp/frida-server fri ...