1,创建Series

1.1,通过iterable创建Series

Series接收参数是Iterable,不能是Iterator

pd.Series(Iterable)

可以多加一个index参数,index可以接收Iterator或者Iterable:

>>> pd.Series(('a', 'b'), index=iter(range(2)))
0 a
1 b
dtype: object

1.2,通过字典创建Series

key是索引:

>>> pd.Series({'a':1, 'b':2})
a 1
b 2
dtype: int64

2,Series常用方法

s = pd.Series([1, 2, 3], index=list('abc'))

Series也能像字典那样遍历:

for index, value in s.items():
print(index, value, end=';') # a 1;b 2;c 3;

和字典一样,Series的in测试默认是index操作,如果想对values操作需加上values:

print('a' in s)   # True
print(1 in s.values) # True

获取series的values组成的列表:

print(s.tolist())   # [1, 2, 3]

  

3,创建DataFrame

3.1,通过iterable组成的列表创建DataFrame

[it1, it2, ..., itN],每个it是一行数据,缺省的index, columns是从0开始的int

>>> pd.DataFrame([(1, 2, 3), [4, 5, 6], range(3, 6), 'abc'])
0 1 2
0 1 2 3
1 4 5 6
2 3 4 5
3 a b c

it长度不等时会自动用NaN或者None填充:

>>> pd.DataFrame([(1, 2), [4, 5], range(3, 6), 'abc'])
0 1 2
0 1 2 None
1 4 5 None
2 3 4 5
3 a b c
>>> pd.DataFrame([(1, 2, 3), [4, 5, 6], range(3, 6), 'ab'])
0 1 2
0 1 2 3.0
1 4 5 6.0
2 3 4 5.0
3 a b NaN

指定index和columns:

>>> pd.DataFrame([(1, 2, 3), [4, 5, 6], range(3, 6), 'abc'], index=range(4), columns=list('ABC'))
A B C
1 1 2 3
2 4 5 6
3 3 4 5
4 a b c

3.2,通过numpy矩阵创建DataFrame

np_data = np.random.random((3, 4))
np_data = np.arange(12).reshape(3, 4)
np_data = np.ones((3, 4))
df = pd.DataFrame(np_data)

3.3,通过“一键多值”创建DataFrame

创建dataframe,键是列名:

>>> pd.DataFrame({'a':[1, 2, 3], 'b': [4, 5, 6]})
a b
0 1 4
1 2 5
2 3 6

可以设置index:

>>> pd.DataFrame({'a':[1, 2, 3], 'b': [4, 5, 6]}, index=list('456'))
a b
4 1 4
5 2 5
6 3 6

创建df时更改columns会出问题:

>>> pd.DataFrame({'a':[1, 2, 3], 'b': [4, 5, 6]}, columns=list('AB'))
Empty DataFrame
Columns: [A, B]
Index: []

这种创建方法可以看做是按列创建df,需要事先建很多列表,最后一次性赋给df

3.4,通过“字典列表”创建DataFrame

pd.DataFrame([{'a':1 , 'b': 4},  {'a':2 , 'b': 5},  {'a':3 , 'b': 6}])
a b
0 1 4
1 2 5
2 3 6

这种方法只需要创建一个列表,然后不停往该列表里添加字典即可,推荐!

3.5,df.loc,df.iloc,df.ix等逐行/逐单元格创建DataFrame

事先创建好dataframe,然后用dfdf.loc,df.iloc,df.ix逐行逐单元格增加数据,例如:

df = pd.DataFrame()
for index, item in enumerate(zip('abcde', range(5))):
df.loc[index, 'A'] = item[0]
df.loc[index, 'B'] = item[1]

效率非常低,不推荐

4,SettingWithCopyWarning

对DataFrame的弱引用对象进行拷贝进行赋值会触发SettingWithCopyWarning。

通过bool序列筛选拿到的是dataframe的弱引用对象。对弱引用对象进行修改时,不会影响到原来的dataframe。

>>>df = pd.DataFrame(np.arange(16).reshape(4, 4), columns=list('ABCD'))
>>>df1 = df[df['B'] > 2]
>>>df1.is_copy
<weakref at 0x08B5F6C0; to 'DataFrame' at 0x00CC5070>
>>>df1['A'] = 0
SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead
>>>df1 # df1会改变
A B C D
1 0 5 6 7
2 0 9 10 11
3 0 13 14 15
>>>df # df不会改变
A B C D
0 0 1 2 3
1 4 5 6 7
2 8 9 10 11
3 12 13 14 15

df1是df的弱引用拷贝,对df1进行赋值会触发SettingWithCopyWarning。

如果df1 = df.copy()不会触发该警告。

另外,如果是获取一个列,则拿到的是视图,并不是弱引用,对该视图进行的修改会反映到源dataframe:

>>>df = pd.DataFrame(np.arange(12).reshape(3, 4), columns=list('ABCD'))
>>>a = df['A']
>>>a.loc[1] = 55
>>>a
A B C D
0 0 1 2 3
1 55 5 6 7
2 8 9 10 11

  

Pandas Series和DataFrame的基本概念的更多相关文章

  1. Pandas Series 与 DataFrame 数据创建

    >>> import pandas as pd >>> import numpy as np >>> print(np.__version__), ...

  2. pandas Series和dataframe

    DataFrame是一个表格型数据结构,与Series不同的是,DataFrame可以含有一组或者有序的列,每列可以使不同的值的类型,它可以被看做成Series的字典.

  3. pandas数组(pandas Series)-(2)

    pandas Series 比 numpy array 要强大很多,体现在很多方面 首先, pandas Series 有一些方法,比如: describe 方法可以给出 Series 的一些分析数据 ...

  4. pandas-21 Series和Dataframe的画图方法

    pandas-21 Series和Dataframe的画图方法 ### 前言 在pandas中,无论是series还是dataframe都内置了.plot()方法,可以结合plt.show()进行很方 ...

  5. 02. Pandas 1|数据结构Series、Dataframe

    1."一维数组"Series Pandas数据结构Series:基本概念及创建 s.index  . s.values # Series 数据结构 # Series 是带有标签的一 ...

  6. Pandas中Series和DataFrame的索引

    在对Series对象和DataFrame对象进行索引的时候要明确这么一个概念:是使用下标进行索引,还是使用关键字进行索引.比如list进行索引的时候使用的是下标,而dict索引的时候使用的是关键字. ...

  7. Python数据分析-Pandas(Series与DataFrame)

    Pandas介绍: pandas是一个强大的Python数据分析的工具包,是基于NumPy构建的. Pandas的主要功能: 1)具备对其功能的数据结构DataFrame.Series 2)集成时间序 ...

  8. pandas学习series和dataframe基础

    PANDAS 的使用 一.什么是pandas? 1.python Data Analysis Library 或pandas 是基于numpy的一种工具,该工具是为了解决数据分析人物而创建的. 2.p ...

  9. 利用Python进行数据分析(8) pandas基础: Series和DataFrame的基本操作

    一.reindex() 方法:重新索引 针对 Series   重新索引指的是根据index参数重新进行排序. 如果传入的索引值在数据里不存在,则不会报错,而是添加缺失值的新行. 不想用缺失值,可以用 ...

随机推荐

  1. 我的第三篇博客(激动激动真激动!!!)A-B Problem

    #210. 差(A-B problem) 题目描述 楠楠在网上刷题,感觉第一题:求两数的和(A+B Problem)太无聊了,于是增加了一题:A-B Problem,难倒了一群小朋友,哈哈. 题目是这 ...

  2. spark-shell的Scala的一些方法详解

    Tom,DataBase,80 Tom,Algorithm,50 Tom,DataStructure,60 Jim,DataBase,90 Jim,Algorithm,60 Jim,DataStruc ...

  3. Java基础(Java补码)

    原码,反码,补码是java数值运算的基础,在计算机程序中,数值运算是基于二进制的,也就是说底层是二进制运算.而数值有正数与负数,二进制只有0和1,如何表示负数,如何进行正负数的运算,这就是原反补的意义 ...

  4. SQL的优化整理

    1,对查询进行优化,要尽量避免全表扫描,首先应考虑在进行条件判断的字段上创建索引 (注意:如果一张数据表中的数据更新频率太高,更新数据之后需要重新创索引,这个过程很耗费性能,所以更新频率高的数据表慎用 ...

  5. 基于Nginx 和 uwsgi 搭建 django.

    第一篇博客,不是很懂语法之类的,希望通过多写点东西,记录自己的成长,早点成为一个pyer. 就写下这两天折腾的这个nginx-uwsgi-django. 首先附上官方文档链接 http://uwsgi ...

  6. SpringBoot缓存之redis--最简单的使用方式

    第一步:配置redis 这里使用的是yml类型的配置文件 mybatis: mapper-locations: classpath:mapping/*.xml spring: datasource: ...

  7. 【003:使用SW4STM32不进入中断的原因】

    系统环境: ubuntu 16.04 64bit开发环境:SW4STM32记录时间: 2017年07月01日联系方式: yexiaopeng1992@126.com背景: 在ubuntu下使用ST官方 ...

  8. android 开发设计模式---观察者模式

    情景1 有一种短信服务,比如天气预报服务,一旦你订阅该服务,你只需按月付费,付完费后,每天一旦有天气信息更新,它就会及时向你发送最新的天气信息. 情景2 杂志的订阅,你只需向邮局订阅杂志,缴纳一定的费 ...

  9. 【转】Windons+jenkins,构建java程序,提示C:\Windows\TEMP\jenkins5037773887088486383.bat Access is denied

    坑1: !!!前提:已设置本机电脑的账号密码, 解决方法:搜索程序services.msc-- 找到Jenkins-- 右键“属性”--登录--此账户--输入本机的账号密码--保存-- 停止Jenki ...

  10. 【转】LNK1123: 转换到 COFF 期间失败: 文件无效或损坏

    用VS2010编译C++项目时出现这样的错误: LNK1123: 转换到 COFF 期间失败: 文件无效或损坏 方案一:(这个方法比较好,在用qt运行时出现问题也能解决) 复制 C:\Windows\ ...