pandas用法之前我总是把他想的无比复杂。其实也是比较简单的,这个东西在做数据统计的时候还是挺好用的。

然后这里列举几个比较好用的几段代码。偏向数据透视类型pivot的,导出方式是直接在IDE 生成。

import pandas as pd
df = pd.read_excel(r'C:\Users\yjiang3\Desktop\VBA\22.xlsx')
pd.pivot_table(df,index=["DocumentTypeName","DocumentId"])#选取不同的索引
#如果第一个索引在excel里有大量的重复,就会只生成一个 然后对应不同的下一个索引

然后这个index就是索引, 里面的DocumentTypeName 会自动成为一列。

import numpy as np
import pandas as pd
df = pd.read_excel(r'C:\Users\yjiang3\Desktop\VBA\22.xlsx')
pd.pivot_table(df,index=["DataAnalyst","CountryId"],values=["ShareClassCount"],columns=["ProcessStatusName"],aggfunc=[np.sum],fill_value=0)

然后这个这一组pivot数据结构,先加上索引,计算shareclasscout,(这里要用到numpy 不然算不出来)然后多添加一列columns索引,aggfunc计算之和。

fill_value 设置为零,虽然不知道是什么意思。

import pandas as pd
path = r'C:\Users\yjiang3\Desktop\VBA\22.xlsx'
data = pd.DataFrame(pd.read_excel(path))
result = data.loc[data['DataAnalyst'] == 'Skylar.Yin@morningstar.com'] print(result)

然后来个筛选项:

import pandas as pd
path = r'C:\Users\yjiang3\Desktop\VBA\22.xlsx'
data = pd.DataFrame(pd.read_excel(path))
result = data.loc[data['DataAnalyst'] == 'Skylar.Yin@morningstar.com']
print(result)

来个小总结:

关于pandas的一些用法的更多相关文章

  1. Pandas之groupby( )用法笔记

    groupby官方解释 DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True ...

  2. Pandas中Loc用法总结

    摘自:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.loc.html 具体用法,假设数据源为: > ...

  3. pandas Timestamp的用法

    (Timestamp('2018-08-01 00:00:00'), <class 'pandas._libs.tslibs.timestamps.Timestamp'>) 注意这里面的T ...

  4. numpy和pandas和matplotlib用法

    numpy result = [ [0, 10, 20, 30, 40], [10, 23, 33, 43, 53], [20, 83, 23, 55, 33], [30, 93, 44, 22, 5 ...

  5. python3 pandas DataFrame常见用法

    df = pandas.read_clipboard() df 获取索引和值 df.index df.values DataFrame的values属性将数据以二维ndarray形式返回,dtype类 ...

  6. pandas的DataFrame用法

    用来生成DataFrame数据 1.说明: class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=F ...

  7. Py修行路 Pandas 模块基本用法

    pandas 安装方法:pip3 install pandas pandas是一个强大的Python数据分析的工具包,它是基于NumPy构建的模块. pandas的主要功能: 具备对其功能的数据结构D ...

  8. Pandas的基本用法

    Pandas是使用python进行数据分析不可或缺的第三方库.我们已经知道,NumPy的ndarray数据结构能够很好地进行数组运算,但是当我们需要进行为数据添加标签,处理缺失值,对数据分组,创建透视 ...

  9. pandas.Series函数用法

    class pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False) e.g., ...

  10. python之pandas模块高级用法

    一 agg,聚合,可以使用内置的函数 >>> import pandas as pd >>> import numpy as np >>> pp ...

随机推荐

  1. windows下BAT实现守护进程

    通过bat守护特定exe @echo off :start choice /t 5 /d y /n >nul tasklist|find /i "程序名称.exe" if E ...

  2. 【SHELL】记一个没啥用的脚本

    因为最近Terraria更新了嘛,然后又想开服了,但是捏,我原来的UbuntuServer系统因为没有界面,而且我新购置了一台3D打印机,需要软件界面去操作,所以原先的系统就格了,重装win10,然后 ...

  3. MySQL中的sql优化

    目标: 掌握SQL调优的原则 掌握SQL调优的基本逻辑 掌握优秀SQL的编写方案 掌握何为慢SQL以及检测方案 SQL优化原则 1.减少数据量(表中数据太多可以分表,例如超过500万数据  双11一个 ...

  4. git常见问题集合

    注1:问题总结来自于实际使用,关于搜到的资料链接一并粘贴; 场景1:GIT本地代码处于detached HEAD的情况(又称游离状态)的解决办法; 问题:有时候git由于一些操作的问题出现了detac ...

  5. Excel error - the macros in this project are disabled, please refer to the online help or documentation of the host application to determine how to enable macros.

    alt+F11 进入vba界面,F5运行macro后报错. Sub 合并当前工作簿下的所有工作表() Application.ScreenUpdating = False For j = 1 To S ...

  6. mybatis 一级、二级缓存机制

    MyBatis 提供了对缓存的支持,分为一级缓存和二级缓存 一级缓存是 SqlSession 级别的缓存.在操作数据库时需要构造 SqlSession 对象,在对象中有一个数据结构(HashMap)用 ...

  7. Spring UnitTest

    demo:https://files.cnblogs.com/files/netact/spring01.zip 首先说一下Spring IOC的运行机制,同过xml或者annotation()来将p ...

  8. svn 报 is not a working copy 错误

    当时提交代码 svn  报 is not a working copy ,上网查找问题  要我重新拉代码下来 然后放进修改的代码重新提交,我觉得很不合理,我看了下我提交的代码文件有80多个,我在想是否 ...

  9. Qt中的线程编程

    在基于操作系统的程序设计中,在处理多任务时,可以有多种方法,但效率较高的当属线程方式,下面就来讨论一下在Qt中如何实现线程编程. 先来说一下什么是线程.线程(thread)是操作系统能够进行运算调度的 ...

  10. java第七周学习情况

    这个星期 主要是在搞学校在暑期安排的实验报告b 怎么说来着 才知道这个消息几天  这是对学习不上心的体现啊 题目也有点多 慢慢做呗 而Java这边还是看些相关知识呗 说实话 已经学不太懂了 不过没关系 ...