pandas中的数值计算及统计基础

 import pandas as pd

 import numpy as np

 df = pd.DataFrame({

     'key1': [4, 5, 3, np.nan, 2],

     'key2': [1, 2, np.nan, 4, 5],

     'key3': [1, 2, 3, 'j', 'k']

 }, index=['a', 'b', 'c', 'd', 'e'])

 print(df)

 print(df['key1'].dtype,df['key2'].dtype,df['key3'].dtype)

 print('-------')

 '''

    key1  key2 key3

 a   4.0   1.0    1

 b   5.0   2.0    2

 c   3.0   NaN    3

 d   NaN   4.0    j

 e   2.0   5.0    k

 float64 float64 object

 -------

 '''

 # 计算每一列的均值 df.mean()

 # 只统计数字列，默认忽略nan。

 print(df.mean())

 '''

 key1    3.5

 key2    3.0

 dtype: float64

 '''

 # 不忽略nan值计算均值

 # skipna默认为True，如果为False，有NaN的列统计结果仍为NaN

 m3 = df.mean(skipna=False)

 print(m3)

 '''

 key1   NaN

 key2   NaN

 dtype: float64

 '''

 # 计算单一列的均值

 print('计算单一列的均值',df['key2'].mean())

 '''

 计算单一列的均值 3.0

 '''

 df2 = pd.DataFrame({

     'key1': [1, 3, 5],

     'key2': [2, 4, 6],

     'key3': [3, 5, 7]

 }, index=['a', 'b', 'c'])

 # print(df2)

 # print('--------df2')

 # 计算df2每一行的均值并将其结果添加到新的列

 df2['mean'] = df2.mean(axis=1)

 print(df2)

 '''

    key1  key2  key3  mean

 a     1     2     3   2.0

 b     3     4     5   4.0

 c     5     6     7   6.0

 '''

 # 统计非NaN值的数量  count()

 print(df)

 print('-'*6)

 print(df.count())

 '''

    key1  key2 key3

 a   4.0   1.0    1

 b   5.0   2.0    2

 c   3.0   NaN    3

 d   NaN   4.0    j

 e   2.0   5.0    k

 ------

 key1    4

 key2    4

 key3    5

 dtype: int64

 '''

 # 统计

 print(df)

 print('-' * 6)

 print('df的最小值',df.min())

 print('df的最大值',df.max())

 print('df的key2列的最大值',df['key2'].max())

 print('统计df的分位数，参数q确定位置',df.quantile(q=0.75))

 print('对df求和',df.sum())

 print('求df的中位数，median(),50%分位数',df.median())

 print('求df的标准差，std()',df.std())

 print('求df的方差，var()',df.var())

 print('求skew样本的偏度,skew()',df.skew())

 print('求kurt样本的峰度，kurt()',df.kurt())

 print('df累计求和，cumsum()',df['key2'].cumsum())

 print('df累计求积，cumprod()',df['key2'].cumprod())

 print('求df的累计最大值，cummax()', df['key2'].cummax())

 print('求df的累计最小值，cummin()', df['key2'].cummin())

 '''

    key1  key2 key3

 a   4.0   1.0    1

 b   5.0   2.0    2

 c   3.0   NaN    3

 d   NaN   4.0    j

 e   2.0   5.0    k

 ------

 df的最小值 key1    2.0

 key2    1.0

 dtype: float64

 df的最大值 key1    5.0

 key2    5.0

 dtype: float64

 df的key2列的最大值 5.0

 统计df的分位数，参数q确定位置 key1    4.25

 key2    4.25

 Name: 0.75, dtype: float64

 对df求和 key1    14.0

 key2    12.0

 dtype: float64

 求df的中位数，median(),50%分位数 key1    3.5

 key2    3.0

 dtype: float64

 求df的标准差，std() key1    1.290994

 key2    1.825742

 dtype: float64

 求df的方差，var() key1    1.666667

 key2    3.333333

 dtype: float64

 求skew样本的偏度,skew() key1    0.0

 key2    0.0

 dtype: float64

 求kurt样本的峰度，kurt() key1   -1.2

 key2   -3.3

 dtype: float64

 df累计求和，cumsum() a     1.0

 b     3.0

 c     NaN

 d     7.0

 e    12.0

 Name: key2, dtype: float64

 df累计求积，cumprod() a     1.0

 b     2.0

 c     NaN

 d     8.0

 e    40.0

 Name: key2, dtype: float64

 求df的累计最大值，cummax() a    1.0

 b    2.0

 c    NaN

 d    4.0

 e    5.0

 Name: key2, dtype: float64

 求df的累计最小值，cummin() a    1.0

 b    1.0

 c    NaN

 d    1.0

 e    1.0

 Name: key2, dtype: float64

 '''

 # 唯一值 ：unique()

 s = pd.Series(list('kjdhsakjdhjfh'))

 sq = s.unique()

 print(s)

 print(sq)

 print('sq的类型：',type(sq))

 print('对sq进行重新排序：',pd.Series(sq).sort_values())

 '''

 0     k

 1     j

 2     d

 3     h

 4     s

 5     a

 6     k

 7     j

 8     d

 9     h

 10    j

 11    f

 12    h

 dtype: object

 ['k' 'j' 'd' 'h' 's' 'a' 'f']

 sq的类型： <class 'numpy.ndarray'>

 对sq进行重新排序： 5    a

 2    d

 6    f

 3    h

 1    j

 0    k

 4    s

 dtype: object

 '''

 # 对某一列进行值的计数，只能对一列，不能对Dataframe

 print(df['key2'].value_counts())

 # 判断Dataframe中的每个元素是否都是在某个列表中

 print(df)

 df_isin = df.isin([1,3])

 print(df_isin)

 '''

    key1  key2 key3

 a   4.0   1.0    1

 b   5.0   2.0    2

 c   3.0   NaN    3

 d   NaN   4.0    j

 e   2.0   5.0    k

     key1   key2   key3

 a  False   True   True

 b  False  False  False

 c   True  False   True

 d  False  False  False

 e  False  False  False

 '''

pandas中的数值计算及统计基础的更多相关文章

Pandas中DateFrame修改列名
Pandas中DateFrame修改列名在做数据挖掘的时候,想改一个DataFrame的column名称,所以就查了一下,总结如下: 数据如下: >>>import pandas ...
pandas中的分组技术
目录 1 分组操作 1.1 按照列进行分组 1.2 按照字典进行分组 1.3 根据函数进行分组 1.4 按照list组合 1.5 按照索引级别进行分组 2 分组运算 2.1 agg 2 ...
数据分析面试题之Pandas中的groupby
昨天晚上,笔者有幸参加了一场面试,有一个环节就是现场编程!题目如下: 示例数据如下,求每名学生(ID)对应的成绩(score)最高的那门科目(class)与ID,用Python实现: 这个题目 ...
python – 基于pandas中的列中的值从DataFrame中选择行
如何从基于pandas中某些列的值的DataFrame中选择行?在SQL中我将使用: select * from table where colume_name = some_value. 我试图看看 ...
pandas中的空值处理
1.空值 1.1 有两种丢失数据: None: Python自带的数据类型不能参与到任何计算中 np.nan: float类型能参与计算,但结果总是nan # None+2 # 报错 # np.n ...
Pandas中关于accessor的骚操作
来自:Python那些事 pandas中accessor功能很强大,可以将它理解为一种属性接口,通过它获得额外的方法. 下面用代码和实例理解一下: import pandas as pd pd.Ser ...
分位函数（四分位数）概念与pandas中的quantile函数
p分位函数(四分位数)概念与pandas中的quantile函数函数原型 DataFrame.quantile(q=0.5, axis=0, numeric_only=True, interpola ...
Python之Pandas中Series、DataFrame
Python之Pandas中Series.DataFrame实践 1. pandas的数据结构Series 1.1 Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一 ...
Pandas中DataFrame修改列名
Pandas中DataFrame修改列名:使用 rename df = pd.read_csv('I:/Papers/consumer/codeandpaper/TmallData/result01- ...

随机推荐

Windows版本redis高可用方案探究
目录 Windows版本redis高可用方案探究前言搭建redis主从配置主redis-28380 配置从redis-23381 配置从redis-23382 将redis部署为服务启动red ...
Jmeter JDBC Request 查询语句中有汉字查询结果为空的解决方法
搜索接口我会校验返回值,查询JDBC Request 查询语句有中文字的时候查询会有问题. 解决方法很简单,在JDBC Connection Configuration的Database URL里加一 ...
angularjs学习第七天笔记（系统指令学习）
您好,接着在昨天对简单指令学习了解以后,今天开始学习了解angularjs中的系统指令系统指令大部分都是以ng开始,这也是为什么在自定义指令命名时不要以ng开始的原因所在系统指令在学习了分成两个部 ...
【Java】包，jar包的扫描
包扫描在框架中应用很广泛,在spring中,通过给自己的类加注解的方式,利用spring的包扫描,完成依赖注入. package com.test.package_scanner.core; impo ...
log4j.appender.file.DatePattern
DailyRollingFileAppender是日志记录软件包Log4J中的一个Appender,它能够按一定的频度滚动日志记录文件. 我们可以按下面的方式配置DailyRollingFileApp ...
webpack4 系列教程(二): 编译 ES6
今天介绍webpack怎么编译ES6的各种函数和语法.敲黑板:这是webpack4版本哦, 有一些不同于webpack3的地方. >>> 本节课源码 >>> 所有课 ...
ORM作业
使用之前学到过的操作实现下面的查询操作:1. 查询平均成绩大于60分的同学的id和平均成绩:2. 查询所有同学的id.姓名.选课的数量.总成绩; 3. 查询姓“李”的老师的个数: 4. 查询没学过“李 ...
自定义SharePoint2013 master page
SharePoint uses templates to define and render the pages that a site displays. The structure of a Sh ...
Linux常用基本命令：三剑客命令之-awk数组用法
AWK的数组用法跟javascript类似. 1,定义数组 awk 'BEGIN{a[0]="zhangsan";a[1]="lisi";print a[0]} ...
Linux常用基本命令：三剑客命令之-awk动作用法(1)
1,多个动作,怎么写? ghostwu@dev:~/linux/awk$ cat host.txt name ip地址 host1 192.168.1.1 host2 192.177.81.1 hos ...

pandas中的数值计算及统计基础

pandas中的数值计算及统计基础的更多相关文章

随机推荐

热门专题