python之pandas&&DataFrame

1.Series Series是一个一维数组

pandas会默认从0开始作为Series的index

>>> test = pd.Series(['num0','num1','num2','num3'])

>>> test

0    num0

1    num1

2    num2

3    num3

dtype: object

也可以自己指定index

>>> test = pd.Series(['num0','num1','num2','num3'],index=['A','B','C','D'])

>>> test

A    num0

B    num1

C    num2

D    num3

dtype: object

Series还可以用dictionary来构造一个Series

>>> cities = {'beijing':55000,'shanghai':60000,'shenzhen':20000,'guangzhou':25000,'suzhou':None}

>>> test = pd.Series(cities)

>>> test

beijing      55000.0

guangzhou    25000.0

shanghai     60000.0

shenzhen     20000.0

suzhou           NaN

dtype: float64

>>> print type(test)

<class 'pandas.core.series.Series'>

>>> test['beijing']

55000.0

>>> test[['beijing','shanghai','shenzhen']]

beijing     55000.0

shanghai    60000.0

shenzhen    20000.0

dtype: float64

2.DataFrame DataFrame是一个二维的数组 DataFrame可以由一个dictionary构造得到

创建DataFrame

>>> data = {'city':['beijing','shanghai','guangzhou','shenzhen','hangzhou','chognqing'],'years':[2010,2011,2012,2013,2014,2015],'population':[2100,2300,2400,2500,

>>> print data

{'city': ['beijing', 'shanghai', 'guangzhou', 'shenzhen', 'hangzhou', 'chognqing'], 'population': [2100, 2300, 2400, 2500, 2600, 2600], 'years': [2010, 2011, 2012, 2013, 2014, 2015]}

>>> pd.DataFrame(data)

        city  population  years

0    beijing        2100   2010

1   shanghai        2300   2011

2  guangzhou        2400   2012

3   shenzhen        2500   2013

4   hangzhou        2600   2014

5  chognqing        2600   2015

调整列的排序和行的名称

>>> pd.DataFrame(data,columns= ['years','city','population'])

   years       city  population

0   2010    beijing        2100

1   2011   shanghai        2300

2   2012  guangzhou        2400

3   2013   shenzhen        2500

4   2014   hangzhou        2600

5   2015  chognqing        2600

>>> pd.DataFrame(data,columns= ['years','city','population'],index = ['A','B','C','D','E','F'])

   years       city  population

A   2010    beijing        2100

B   2011   shanghai        2300

C   2012  guangzhou        2400

D   2013   shenzhen        2500

E   2014   hangzhou        2600

F   2015  chognqing        2600

>>>

DataFrame的每一个列,每一行都是一个Series

>>> mmap = pd.DataFrame(data,columns= ['years','city','population'],index = ['A','B','C','D','E','F'])

>>> print mmap

   years       city  population

A   2010    beijing        2100

B   2011   shanghai        2300

C   2012  guangzhou        2400

D   2013   shenzhen        2500

E   2014   hangzhou        2600

F   2015  chognqing        2600

>>> type(mmap)

<class 'pandas.core.frame.DataFrame'>

>>> type(mmap['city'])

<class 'pandas.core.series.Series'>

>>>

>>> mmap.ix['C']

years              2012

city          guangzhou

population         2400

Name: C, dtype: object

>>> type(mmap.ix['C'])

<class 'pandas.core.series.Series'>

DataFrame的赋值操作

>>> mmap['population']['A']

2100

>>> mmap['population']['A'] = 2000

__main__:1: SettingWithCopyWarning:

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy

>>> mmap['population']['A']

2000

>>> mmap['years'] = 2017

>>> mmap

   years       city  population

A   2017    beijing        2000

B   2017   shanghai        2300

C   2017  guangzhou        2400

D   2017   shenzhen        2500

E   2017   hangzhou        2600

F   2017  chognqing        2600

>>>

赋值操作

>>> mmap.years = np.arange(6)

>>> mmap

   years       city  population

A      0    beijing        2000

B      1   shanghai        2300

C      2  guangzhou        2400

D      3   shenzhen        2500

E      4   hangzhou        2600

F      5  chognqing        2600

>>> val = pd.Series([200,300,400],index=['A','B','C'])

>>> val

A    200

B    300

C    400

dtype: int64

>>> mmap['year] = val

  File "<stdin>", line 1

    mmap['year] = val

                    ^

SyntaxError: EOL while scanning string literal

>>> mmap['year'] = val

>>> mmap

   years       city  population   year

A      0    beijing        2000  200.0

B      1   shanghai        2300  300.0

C      2  guangzhou        2400  400.0

D      3   shenzhen        2500    NaN

E      4   hangzhou        2600    NaN

F      5  chognqing        2600    NaN

>>> mmap['years'] = 2017

>>> mmap

   years       city  population   year

A   2017    beijing        2000  200.0

B   2017   shanghai        2300  300.0

C   2017  guangzhou        2400  400.0

D   2017   shenzhen        2500    NaN

E   2017   hangzhou        2600    NaN

F   2017  chognqing        2600    NaN

>>> mmap.columns

Index([u'years', u'city', u'population', u'year'], dtype='object')

>>> mmap.index

Index([u'A', u'B', u'C', u'D', u'E', u'F'], dtype='object')

python之pandas&&DataFrame的更多相关文章

python之pandas&&DataFrame(二)
简单操作 Python-层次聚类-Hierarchical clustering >>> data = pd.Series(np.random.randn(10),index=[[' ...
Python中pandas dataframe删除一行或一列：drop函数
用法:DataFrame.drop(labels=None,axis=0, index=None, columns=None, inplace=False) 参数说明:labels 就是要删除的行列的 ...
【338】Pandas.DataFrame
Ref: Pandas Tutorial: DataFrames in Python Ref: pandas.DataFrame Ref: Pandas:DataFrame对象的基础操作 Ref: C ...
Python之Pandas中Series、DataFrame
Python之Pandas中Series.DataFrame实践 1. pandas的数据结构Series 1.1 Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一 ...
Python pandas DataFrame操作
1. 从字典创建Dataframe >>> import pandas as pd >>> dict1 = {'col1':[1,2,5,7],'col2':['a ...
Python之Pandas中Series、DataFrame实践
Python之Pandas中Series.DataFrame实践 1. pandas的数据结构Series 1.1 Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一 ...
如何通过Elasticsearch Scroll快速取出数据，构造pandas dataframe — Python多进程实现
首先,python 多线程不能充分利用多核CPU的计算资源(只能共用一个CPU),所以得用多进程.笔者从3.7亿数据的索引,取200多万的数据,从取数据到构造pandas dataframe总共大概用 ...
Python时间处理，datetime中的strftime/strptime+pandas.DataFrame.pivot_table(像groupby之类的操作）
python中datetime模块非常好用,提供了日期格式和字符串格式相互转化的函数strftime/strptime 1.由日期格式转化为字符串格式的函数为: datetime.datetime.s ...
python中pandas里面的dataframe数据的筛选小结
pandas大家用的都很多,像我这种用的不够熟练,也不够多的就只能做做笔记,尽量留下点东西吧. 筛选行: a. 按照列的条件筛选 df = pandas.DataFrame(...) # suppos ...

随机推荐

Codeforces 744C. Hongcow Buys a Deck of Cards（状压DP）
这题的难点在于状态的设计首先显然是个状压,需要一维表示卡的状态,另一维如果设计成天数,难以知道当前的钱数,没法确定是否能够购买新的卡,如果设计成钱数,会发现状态数过多,空间与时间都无法承受.但是可以 ...
selenium - Select类 - 下拉框
WebDriver提供了Select类来处理下拉框. 如百度搜索设置的下拉框,如下图: from selenium import webdriver from selenium.webdriver.s ...
C#中调用Dll动态链接库
C#中调用Dll动态链接库起始受限于语言的不同,我们有的时候可能会用别人提供的函数及方法或者其他的什么原因.反正就是要调!!! 恰巧别人所使用的的语言跟自己又不是一样的这个时候想要调用别人的函 ...
php优秀网摘
1.thinkphp的目录结构设计经验总结说明:thinkphp3.2.3对类没有深刻的认识,对项目规模和架构有很糟糕的影响.这里写的目录结构和设计模式相当于对3.2添加了面向对象架构.第二个链接是 ...
js-之闭包的理解
说说你对闭包的理解? 答:闭包是能够读取其它函数内部变量的函数.本质上闭包是将函数内部和函数外部连接起来的一座桥梁.由于js的链式作用域,因为函数也是对象,函数内部访问函数外部的变量就类似于子对象一级 ...
z-index详细攻略
概念 z-index 属性设置元素的堆叠顺序.拥有更高堆叠顺序的元素总是会处于堆叠顺序较低的元素的前面. 层级关系的比较 1. 对于同级元素,默认(或position:static)情况下文档流后面的 ...
DLL初试
环境: VC++6.0 步骤: 1.建立一个WIN32 DYNAMIC-LINK LIBRARY工程,编写CPP文件,文件内容例如: #include "stdafx.h" #in ...
每个Web开发者都需要具备的9个软技能
对于一份工作,你可能专注于修炼自己的内功,会在不自觉中忽视软技能.硬技能决定你是否能得到工作,而软技能能够表明你是否适合这份工作和适应工作环境等.所有的公司都有属于自己的文化,并努力将这些文化传承下去 ...
你知道吗？.NET Framework 4.5 五个很棒的特性
简介自.NET 4.5发布已经过了差不多1年了.但是随着最近微软大多数的发布,与.NET开发者交流的问题显示,开发者仅知道一到两个特性,其他的特性仅仅停留在MSDN并以简单的文档形式存在着. 比如说 ...
Lua的各种资源2
Lua Directory This page is a top level directory of all Lua content at this wiki, grouped by top ...

python之pandas&&DataFrame

python之pandas&&DataFrame的更多相关文章

随机推荐

热门专题