001_python实现数据分析
一、
# coding:utf8
# !/usr/bin/python
# import numpy as np
import pandas as pd
import np def example2():
'''
Describing a numeric ``Series``.
:return:
'''
s = pd.Series([1, 2, 3])
print s.describe()
'''
count 3.0
mean 2.0
std 1.0
min 1.0
25% 1.5
50% 2.0
75% 2.5
max 3.0
dtype: float64
'''
def example3():
'''
Describing a categorical ``Series``.
:return:
'''
s = pd.Series(['a', 'a', 'b', 'c'])
print s.describe()
'''
count 4
unique 3
top a
freq 2
dtype: object
'''
def example4():
'''
Describing a timestamp ``Series``.
:return:
'''
s = pd.Series([
np.datetime64("2000-01-01"),
np.datetime64("2010-01-01"),
np.datetime64("2010-01-01")
])
print s.describe()
'''
count 3
unique 2
top 2010-01-01 00:00:00
freq 2
first 2000-01-01 00:00:00
last 2010-01-01 00:00:00
dtype: object
'''
def example5():
'''
Describing a ``DataFrame``. By default only numeric fields are returned.
:return:
'''
df = pd.DataFrame({'categorical': pd.Categorical(['d', 'e', 'f']),
'numeric': [1, 2, 3],
'object': ['a', 'b', 'c']})
print df.describe()
'''
#Describing all columns of a ``DataFrame`` regardless of data type.
print df.describe(include='all')
#Describing a column from a ``DataFrame`` by accessing it as an attribute.
print df.numeric.describe()
#Including only numeric columns in a ``DataFrame`` description.
print df.describe(include=[np.number])
#Including only string columns in a ``DataFrame`` description.
print df.describe(include=[np.object])
#Including only categorical columns from a ``DataFrame`` description.
print df.describe(include=['category'])
#Excluding numeric columns from a ``DataFrame`` description.
print df.describe(exclude=[np.number])
#Excluding object columns from a ``DataFrame`` description.
print df.describe(exclude=[np.object])
'''
def example1():
dic1={'000':{'a':1,'b':2,'c':3},'001':{'d':4,'e':5,'f':6}}
df2=pd.DataFrame(dic1)
# print df2.describe()
'''
000 001
count 3.0 3.0
mean 2.0 5.0
std 1.0 1.0
min 1.0 4.0
25% 1.5 4.5
50% 2.0 5.0
75% 2.5 5.5
max 3.0 6.0
'''
print "返回非NAN数据项数量=>count()\n{count}\n".format(count = df2.describe().count())
print "返回中位数,等价第50位百分位数的值=>median()\n{median}\n".format(median = df2.describe().median())
print "返回数据的众值=>mode()\n{mode}\n".format(mode = df2.describe().mode())
print "返回数据的标准差(描述离散度)=>std()\n{std}\n".format(std = df2.describe().std())
print "返回方差=>var()\n{var}\n".format(var = df2.describe().var())
print "偏态系数(skewness,表示数据分布的对称程度)=>skew()\n{skew}\n".format(skew = df2.describe().skew()) def main():
example1()
if __name__ == '__main__':
main()
输出=>
返回非NAN数据项数量=>count()
000 8
001 8
dtype: int64
返回中位数,等价第50位百分位数的值=>median()
000 2.00
001 4.75
dtype: float64
返回数据的众值=>mode()
000 001
0 1.0 5.0
1 2.0 NaN
2 3.0 NaN
返回数据的标准差(描述离散度)=>std()
000 0.801784
001 1.603567
dtype: float64
返回方差=>var()
000 0.642857
001 2.571429
dtype: float64
偏态系数(skewness,表示数据分布的对称程度)=>skew()
000 0.000000
001 -1.299187
dtype: float64
001_python实现数据分析的更多相关文章
- 利用Python进行数据分析 基础系列随笔汇总
一共 15 篇随笔,主要是为了记录数据分析过程中的一些小 demo,分享给其他需要的网友,更为了方便以后自己查看,15 篇随笔,每篇内容基本都是以一句说明加一段代码的方式, 保持简单小巧,看起来也清晰 ...
- 利用Python进行数据分析(10) pandas基础: 处理缺失数据
数据不完整在数据分析的过程中很常见. pandas使用浮点值NaN表示浮点和非浮点数组里的缺失数据. pandas使用isnull()和notnull()函数来判断缺失情况. 对于缺失数据一般处理 ...
- 利用Python进行数据分析(12) pandas基础: 数据合并
pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法c ...
- 利用Python进行数据分析(5) NumPy基础: ndarray索引和切片
概念理解 索引即通过一个无符号整数值获取数组里的值. 切片即对数组里某个片段的描述. 一维数组 一维数组的索引 一维数组的索引和Python列表的功能类似: 一维数组的切片 一维数组的切片语法格式为a ...
- 利用Python进行数据分析(9) pandas基础: 汇总统计和计算
pandas 对象拥有一些常用的数学和统计方法. 例如,sum() 方法,进行列小计: sum() 方法传入 axis=1 指定为横向汇总,即行小计: idxmax() 获取最大值对应的索 ...
- 利用Python进行数据分析(8) pandas基础: Series和DataFrame的基本操作
一.reindex() 方法:重新索引 针对 Series 重新索引指的是根据index参数重新进行排序. 如果传入的索引值在数据里不存在,则不会报错,而是添加缺失值的新行. 不想用缺失值,可以用 ...
- 利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍
一.pandas 是什么 pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析.它提供了大量高级的数据结构和对数据处理的方法. pandas 有两个主要的数据结构 ...
- 利用Python进行数据分析(4) NumPy基础: ndarray简单介绍
一.NumPy 是什么 NumPy 是 Python 科学计算的基础包,它专为进行严格的数字处理而产生.在之前的随笔里已有更加详细的介绍,这里不再赘述. 利用 Python 进行数据分析(一)简单介绍 ...
- 利用Python进行数据分析(3) 使用IPython提高开发效率
一.IPython 简介 IPython 是一个交互式的 Python 解释器,而且它更加高效. 它和大多传统工作模式(编辑 -> 编译 -> 运行)不同的是, 它采用的工作模式是:执 ...
随机推荐
- gulp源码解析(一)—— Stream详解
作为前端,我们常常会和 Stream 有着频繁的接触.比如使用 gulp 对项目进行构建的时候,我们会使用 gulp.src 接口将匹配到的文件转为 stream(流)的形式,再通过 .pipe() ...
- Linux常用命令速查-用户管理
◆ 用户组 ◆ 查看当前用户所属的用户组 1 groups 查看所有用户组 123456789 [root@node2 ~]# cat /etc/group root:x:0:bin:x:1:daem ...
- Java数据结构和算法 - 数组
Q: 数组的创建? A: Java中有两种数据类型,基本类型和对象类型,在许多编程语言中(甚至面向对象语言C++),数组也是基本类型.但在Java中把数组当做对象来看.因此在创建数组时,必须使用new ...
- Caused by: org.springframework.beans.factory.NoSuchBeanDefinitionException: No qualifying bean of type 'com.thinkplatform.dao.UserLogDao' available: expected at least 1 bean which qualifies as autowi
我出错的问题是: 检查:
- springcloud之hystrix熔断器-Finchley.SR2版
本篇和大家分享的是springcloud-hystrix熔断器,其主要功能是对某模块调用失败做断路和降级,简单点就当某个模块程序出问题了并达到某阈值就限制后面请求,并降级的方式提供一个默认返回数据.最 ...
- 【Android Studio安装部署系列】三十二、Android模拟器Genymotion安装使用教程详解
版权声明:本文为HaiyuKing原创文章,转载请注明出处! 一.注册\登录 打开Genymotion官网,https://www.genymotion.com/ ,首先点击右上角的Sign in进行 ...
- 我的那些年(9)~我来团队了,Mvc兴起了
回到目录 我的那些年(9)~我来团队了,Mvc兴起了 在一次后出办事后直接去面试了 面试就是答卷子 六里桥一个好地址 搬回老家了 在老婆的建议下学驾照了 拿到大专毕业证了 买车了 愉一切可以愉的时间学 ...
- 使用 ASP.NET Core MVC 创建 Web API(二)
使用 ASP.NET Core MVC 创建 Web API 使用 ASP.NET Core MVC 创建 Web API(一) 六.添加数据库上下文 数据库上下文是使用Entity Framewor ...
- h2engine游戏服务器设计之聊天室示例
游戏服务器设计之聊天室示例 简介 h2engine引擎建群以后,有热心网友向我反馈,想尝试h2engine但是没有服务器开发经验觉得无从入手,希望我能提供一个简单明了的示例.由于前一段时间工作实在忙碌 ...
- Docker最全教程——数据库容器化之持久保存数据(十一)
上一节我们讲述了SQL Server容器化实践(注意,SQL Server现在也支持跨平台),本节将讲述如何持久保存数据,并且接下来将逐步讲解其他数据库(MySql.Redis.Mongodb等等)的 ...