pandas-Notes2

#coding = utf-8

import pandas as pd

import numpy as np

import  matplotlib as plt

dates = pd.date_range('20170601', periods=6)

# make a random 6*4 matrix

df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))

print df

# statistic basics. exclude missing data in general

# mean. mean of cols as default

print df.mean()

'''

A   -0.640908

B   -0.216183

C    0.316962

D   -0.634263

dtype: float64

'''

# mean of rows

print df.mean(1)

# move down

s = pd.Series([1, 3, 5, np.nan, 6, 8], index=dates).shift(2)

#print s

'''

2017-06-01    NaN

2017-06-02    NaN

2017-06-03    1.0

2017-06-04    3.0

2017-06-05    5.0

2017-06-06    NaN

Freq: D, dtype: float64

'''

# df-s. pandas will make Series into DataFrame

# df will change

print df

print df.sub(s, axis='index')

# cumulate by rows. default is by cols

print df.apply(np.cumsum, axis=1)

# apply lambda

print df.apply(lambda x: x.max() - x.min())

s = pd.Series(np.random.randint(0, 7, size=10))

# there are duplicate values

# value_counts behaves like histogram

print s.value_counts()

# string methods

# s.str.lower() means to lowercase

print df

# first 3 rows. index by rows in default

print df[:3]

# concat. use list as parameter

pieces = [df[:3], df[4:]]

print pd.concat(pieces)

# join.

left = pd.DataFrame({'key':['1', '2'], 'lvar':['leftVar1', 'leftVar2']})

right = pd.DataFrame({'key':['1', '2'], 'rvar':['rightVar1', 'rightVar2']})

print left

print right

# merge by same key value

print pd.merge(left, right, on='key')

'''

  key      lvar       rvar

0   1  leftVar1  rightVar1

1   2  leftVar2  rightVar2

'''

# append. add a row to the tail

# ignore_index = False, the index will be appended too. If True, then all index will be 0...n (int)

print df.append(df.iloc[3], ignore_index=False)

# group

df1 = pd.DataFrame({'A' : ['f', 'b', 'f', 'f', 'b'],

                    'B' : ['1', '2', '2', '1', '2'],

                    'C' : np.random.randn(5)})

# use sum()

print df1.groupby(['A', 'B']).sum()

# stack unstack means transformation between matrix and DataFrame

# pivot_table means group by index and cols, use values. if there's function, execute it

# pivot_table(df, values='D', index=['A', 'B'], columnes=['C'])

# time series for time

# categoricals

# declare as category

s1 = pd.Series(['A', 'B', 'B', 'C', 'A', 'E']).astype("category")

# set category. Must same number of unique levels

s1.cat.categories = ["good", "bad", 'A', 'B']

print s1

# df.sort_values(by="categoryName")

# df.groupby("categoryName").size()

# plot

df2 = pd.DataFrame(np.random.randn(1000, 4), columns=['A','B','C','D'])

df2 = df2.cumsum()

# four lines, four colors. with legend.

df2.plot()

#plt.pyplot.show()

# file in & out

df2.to_csv("df2.csv")

df3 = pd.read_csv("df2.csv")

print df3.head(3)

#df2.to_hdf("df2.h5", 'df')

#pd.read_hdf('df2.h5', 'df')

# need module openpyxl...

df2.to_excel('df2.xlsx', sheet_name='sheet1')

pd.read_excel('df2.xlsx', 'sheet1', index_col=None, na_values=['NA'])

pandas-Notes2的更多相关文章

pandas基础-Python3
未完 for examples: example 1: # Code based on Python 3.x # _*_ coding: utf-8 _*_ # __Author: "LEM ...
10 Minutes to pandas
摘要一.创建对象二.查看数据三.选择和设置四.缺失值处理五.相关操作六.聚合七.重排(Reshaping) 八.时间序列九.Categorical类型十.画图十一 ...
利用Python进行数据分析(15) pandas基础: 字符串操作
字符串对象方法 split()方法拆分字符串: strip()方法去掉空白符和换行符: split()结合strip()使用: "+"符号可以将多个字符串连接起来: join( ...
利用Python进行数据分析(10) pandas基础: 处理缺失数据
数据不完整在数据分析的过程中很常见. pandas使用浮点值NaN表示浮点和非浮点数组里的缺失数据. pandas使用isnull()和notnull()函数来判断缺失情况. 对于缺失数据一般处理 ...
利用Python进行数据分析(12) pandas基础: 数据合并
pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法c ...
利用Python进行数据分析(9) pandas基础: 汇总统计和计算
pandas 对象拥有一些常用的数学和统计方法. 例如,sum() 方法,进行列小计: sum() 方法传入 axis=1 指定为横向汇总,即行小计: idxmax() 获取最大值对应的索 ...
利用Python进行数据分析(8) pandas基础: Series和DataFrame的基本操作
一.reindex() 方法:重新索引针对 Series 重新索引指的是根据index参数重新进行排序. 如果传入的索引值在数据里不存在,则不会报错,而是添加缺失值的新行. 不想用缺失值,可以用 ...
利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍
一.pandas 是什么 pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析.它提供了大量高级的数据结构和对数据处理的方法. pandas 有两个主要的数据结构 ...
pandas.DataFrame对行和列求和及添加新行和列
导入模块: from pandas import DataFrame import pandas as pd import numpy as np 生成DataFrame数据 df = DataFra ...
pandas.DataFrame排除特定行
使用Python进行数据分析时,经常要使用到的一个数据结构就是pandas的DataFrame 如果我们想要像Excel的筛选那样,只要其中的一行或某几行,可以使用isin()方法,将需要的行的值以列 ...

随机推荐

[USACO07JAN]平衡的阵容Balanced Lineup
[USACO07JAN]平衡的阵容Balanced Lineup 题目描述 For the daily milking, Farmer John's N cows (1 ≤ N ≤ 50,000) a ...
Linux mount实际使用
查看所有文件系统(设备):fdisk -l 1.当要重新挂载一个文件系统时(设备):可以直接 #mount -o remount,rw /dev/sdb9/(文件系统) /mnt/sdb9/(目录) ...
Spring 设计原则
Spring 框架有四大原则(Spring所有的功能和设计和实现都基于四大原则): 1. 使用POJO进行轻量级和最小侵入式开发. 2. 通过依赖注入和基本接口编程实现松耦合. 3. 通过AOP和基于 ...
AngularJS（八）：http服务
本文也同步发表在我的公众号“我的天空” http服务之前我们的示例都是在本地获取模拟数据,在实际应用中,所有的项目都将不可避免的从后台获取数据,我们都是通过Ajax来实现与服务器的通信.在Angul ...
rest_framework之视图
写一个出版社的增删改查restful接口 models from django.db import models # Create your models here. from django.db i ...
手机QQ访问时，html页面在QQ中自定义预览和自定义分享
手机QQ访问时,html页面在QQ中自定义预览和自定义分享有一天,产品说要做个自定义预览和分享功能,于是很快在微信上实现了,可是不知道在QQ上怎么实现,查看了很多网站,最后才找到了解决方案,于是想和 ...
企业数字化转型与SAP云平台
我们生活在一个数字化时代.信息领域里发展迅猛的数字技术和成本不断降低的硬件设备,正以前所未有的方式改变着我们工作和生活的方式. Digital Mesh 美国一家著名的从事信息技术研究和提供咨询服务的 ...
VB SMTP用户验证发送mail
转自 http://www.jishuzh.com/program/vb-smtp%E7%94%A8%E6%88%B7%E9%AA%8C%E8%AF%81%E5%8F%91%E9%80%81mail. ...
Verilog设计分频器（面试必看）
分频器是指使输出信号频率为输入信号频率整数分之一的电子电路.在许多电子设备中如电子钟.频率合成器等,需要各种不同频率的信号协同工作,常用的方法是以稳定度高的晶体振荡器为主振源,通过变换得到所需要的各种 ...
C++容器类-list
C++ 表(List容器类) 一.概念头文件:#include <list> 又叫链表,是一种双线性链表,只能顺序访问(从前往后或从后往前) 他不支持随机访问. 二.方法 #includ ...

pandas-Notes2

pandas-Notes2的更多相关文章

随机推荐

热门专题