001_python实现数据分析

一、

# coding:utf8

# !/usr/bin/python

# import numpy as np

import pandas as pd

import np

def example2():

    '''

    Describing a numeric ``Series``.

    :return:

    '''

    s = pd.Series([1, 2, 3])

    print s.describe()

    '''

    count    3.0

    mean     2.0

    std      1.0

    min      1.0

    25%      1.5

    50%      2.0

    75%      2.5

    max      3.0

    dtype: float64

    '''

def example3():

    '''

    Describing a categorical ``Series``.

    :return:

    '''

    s = pd.Series(['a', 'a', 'b', 'c'])

    print s.describe()

    '''

    count     4

    unique    3

    top       a

    freq      2

    dtype: object

    '''

def example4():

    '''

    Describing a timestamp ``Series``.

    :return:

    '''

    s = pd.Series([

        np.datetime64("2000-01-01"),

        np.datetime64("2010-01-01"),

        np.datetime64("2010-01-01")

        ])

    print s.describe()

    '''

    count                       3

    unique                      2

    top       2010-01-01 00:00:00

    freq                        2

    first     2000-01-01 00:00:00

    last      2010-01-01 00:00:00

    dtype: object

    '''

def example5():

    '''

    Describing a ``DataFrame``. By default only numeric fields are returned.

    :return:

    '''

    df = pd.DataFrame({'categorical': pd.Categorical(['d', 'e', 'f']),

                       'numeric': [1, 2, 3],

                        'object': ['a', 'b', 'c']})

    print df.describe()

    '''

    #Describing all columns of a ``DataFrame`` regardless of data type.

    print df.describe(include='all')

    #Describing a column from a ``DataFrame`` by accessing it as an attribute.

    print df.numeric.describe()

    #Including only numeric columns in a ``DataFrame`` description.

    print df.describe(include=[np.number])

    #Including only string columns in a ``DataFrame`` description.

    print df.describe(include=[np.object])

    #Including only categorical columns from a ``DataFrame`` description.

    print df.describe(include=['category'])

    #Excluding numeric columns from a ``DataFrame`` description.

    print df.describe(exclude=[np.number])

    #Excluding object columns from a ``DataFrame`` description.

    print df.describe(exclude=[np.object])

    '''

def example1():

    dic1={'000':{'a':1,'b':2,'c':3},'001':{'d':4,'e':5,'f':6}}

    df2=pd.DataFrame(dic1)

    # print df2.describe()

    '''

           000  001

    count  3.0  3.0

    mean   2.0  5.0

    std    1.0  1.0

    min    1.0  4.0

    25%    1.5  4.5

    50%    2.0  5.0

    75%    2.5  5.5

    max    3.0  6.0

    '''

    print "返回非NAN数据项数量=>count()\n{count}\n".format(count = df2.describe().count())

    print "返回中位数,等价第50位百分位数的值=>median()\n{median}\n".format(median = df2.describe().median())

    print "返回数据的众值=>mode()\n{mode}\n".format(mode = df2.describe().mode())

    print "返回数据的标准差(描述离散度)=>std()\n{std}\n".format(std = df2.describe().std())

    print "返回方差=>var()\n{var}\n".format(var = df2.describe().var())

    print "偏态系数(skewness,表示数据分布的对称程度)=>skew()\n{skew}\n".format(skew = df2.describe().skew())

def main():

    example1()

if __name__ == '__main__':

    main()

输出=>

返回非NAN数据项数量=>count()

000    8

001    8

dtype: int64

返回中位数,等价第50位百分位数的值=>median()

000    2.00

001    4.75

dtype: float64

返回数据的众值=>mode()

   000  001

0  1.0  5.0

1  2.0  NaN

2  3.0  NaN

返回数据的标准差(描述离散度)=>std()

000    0.801784

001    1.603567

dtype: float64

返回方差=>var()

000    0.642857

001    2.571429

dtype: float64

偏态系数(skewness,表示数据分布的对称程度)=>skew()

000    0.000000

001   -1.299187

dtype: float64

001_python实现数据分析的更多相关文章

利用Python进行数据分析基础系列随笔汇总
一共 15 篇随笔,主要是为了记录数据分析过程中的一些小 demo,分享给其他需要的网友,更为了方便以后自己查看,15 篇随笔,每篇内容基本都是以一句说明加一段代码的方式, 保持简单小巧,看起来也清晰 ...
利用Python进行数据分析(10) pandas基础: 处理缺失数据
数据不完整在数据分析的过程中很常见. pandas使用浮点值NaN表示浮点和非浮点数组里的缺失数据. pandas使用isnull()和notnull()函数来判断缺失情况. 对于缺失数据一般处理 ...
利用Python进行数据分析(12) pandas基础: 数据合并
pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法c ...
利用Python进行数据分析(5) NumPy基础: ndarray索引和切片
概念理解索引即通过一个无符号整数值获取数组里的值. 切片即对数组里某个片段的描述. 一维数组一维数组的索引一维数组的索引和Python列表的功能类似: 一维数组的切片一维数组的切片语法格式为a ...
利用Python进行数据分析(9) pandas基础: 汇总统计和计算
pandas 对象拥有一些常用的数学和统计方法. 例如,sum() 方法,进行列小计: sum() 方法传入 axis=1 指定为横向汇总,即行小计: idxmax() 获取最大值对应的索 ...
利用Python进行数据分析(8) pandas基础: Series和DataFrame的基本操作
一.reindex() 方法:重新索引针对 Series 重新索引指的是根据index参数重新进行排序. 如果传入的索引值在数据里不存在,则不会报错,而是添加缺失值的新行. 不想用缺失值,可以用 ...
利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍
一.pandas 是什么 pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析.它提供了大量高级的数据结构和对数据处理的方法. pandas 有两个主要的数据结构 ...
利用Python进行数据分析(4) NumPy基础: ndarray简单介绍
一.NumPy 是什么 NumPy 是 Python 科学计算的基础包,它专为进行严格的数字处理而产生.在之前的随笔里已有更加详细的介绍,这里不再赘述. 利用 Python 进行数据分析(一)简单介绍 ...
利用Python进行数据分析(3) 使用IPython提高开发效率
一.IPython 简介 IPython 是一个交互式的 Python 解释器,而且它更加高效. 它和大多传统工作模式(编辑 -> 编译 -> 运行)不同的是, 它采用的工作模式是:执 ...

随机推荐

class基本使用
console.log(` 1.创建一个空对象 2.让this 指向刚刚创建好的空对象 3.执行构造函数内的代码 (为相关的属性和方法赋值) 4.返回创建好的对象`) // 1.创建一个空对象 // ...
知名区块链人脸识别公司iFace Chain [爱妃链] 支招，如何防止钱包数字币被盗...
最近众多钱包发行方跑路频发,让非常多的用户蒙受巨大经济损失,知名区块链人脸识别公司iFace Chain [爱妃链] 前日做客某区块链媒体为网友支招,如何防止钱包数字币被盗. 那么,用户怎么降低Tok ...
android学习笔记--检测是否为wifi环境
ConnectivityManager cm = (ConnectivityManager) getSystemService(Context.CONNECTIVITY_SERVICE); // 获取 ...
mysql的学习笔记(七)
1.自定义函数,函数可以返回任意类型的值,同样可接说这些类型的参数. CREATE FUNCTION function_name RETURNS {STRING|INTER|REAL|DECIMAL} ...
.NET Core微服务之基于IdentityServer建立授权与验证服务
Tip: 此篇已加入.NET Core微服务基础系列文章索引一.IdentityServer的预备知识要学习IdentityServer,事先得了解一下基于Token的验证体系,这是一个庞大的主题 ...
SpringBoot入门教程(十一)过滤器和拦截器
在做web开发的时候,过滤器(Filter)和拦截器(Interceptor)很常见,通俗的讲,过滤器可以简单理解为“取你所想取”,忽视掉那些你不想要的东西:拦截器可以简单理解为“拒你所想拒”,关心你 ...
java8的函数式接口
函数式接口就是在java8里允许你为一个接口(只有一个实现的,声明为FunctionalInterface注解的)实现一个匿名的对象,大叔感觉它与.net平台的委托很类似,一个方法里允许你接收一个方 ...
nodejs 开发企业微信第三方应用入门教程
最近公司要开发企业微信端的 Worktile,以前做的是企业微信内部应用,所以只适用于私有部署客户,而对于公有云客户就无法使用,所有就准备开发企业微信的第三方应用,本文主要介绍在调研阶段遇到的山珍海味 ...
Linux用户和权限管理看了你就会用啦
前言只有光头才能变强回顾前面: 看完这篇Linux基本的操作就会了没想到上一篇能在知乎获得千赞呀,Linux也快期末考试了,也有半个月没有写文章了.这篇主要将Linux下的用户和权限知识点再整理 ...
搞懂Redis到底快在哪里
前言 Redis是一种基于键值对(Key-Value)的NoSQL数据库,Redis的Value可以由String,hash,list,set,zset,Bitmaps,HyperLogLog等多种数 ...

001_python实现数据分析

001_python实现数据分析的更多相关文章

随机推荐

热门专题