Pandas Series和DataFrame的基本概念
1,创建Series
1.1,通过iterable创建Series
Series接收参数是Iterable,不能是Iterator
pd.Series(Iterable)
可以多加一个index参数,index可以接收Iterator或者Iterable:
>>> pd.Series(('a', 'b'), index=iter(range(2)))
0 a
1 b
dtype: object
1.2,通过字典创建Series
key是索引:
>>> pd.Series({'a':1, 'b':2})
a 1
b 2
dtype: int64
2,Series常用方法
s = pd.Series([1, 2, 3], index=list('abc'))
Series也能像字典那样遍历:
for index, value in s.items():
print(index, value, end=';') # a 1;b 2;c 3;
和字典一样,Series的in测试默认是index操作,如果想对values操作需加上values:
print('a' in s) # True
print(1 in s.values) # True
获取series的values组成的列表:
print(s.tolist()) # [1, 2, 3]
3,创建DataFrame
3.1,通过iterable组成的列表创建DataFrame
[it1, it2, ..., itN],每个it是一行数据,缺省的index, columns是从0开始的int
>>> pd.DataFrame([(1, 2, 3), [4, 5, 6], range(3, 6), 'abc'])
0 1 2
0 1 2 3
1 4 5 6
2 3 4 5
3 a b c
it长度不等时会自动用NaN或者None填充:
>>> pd.DataFrame([(1, 2), [4, 5], range(3, 6), 'abc'])
0 1 2
0 1 2 None
1 4 5 None
2 3 4 5
3 a b c
>>> pd.DataFrame([(1, 2, 3), [4, 5, 6], range(3, 6), 'ab'])
0 1 2
0 1 2 3.0
1 4 5 6.0
2 3 4 5.0
3 a b NaN
指定index和columns:
>>> pd.DataFrame([(1, 2, 3), [4, 5, 6], range(3, 6), 'abc'], index=range(4), columns=list('ABC'))
A B C
1 1 2 3
2 4 5 6
3 3 4 5
4 a b c
3.2,通过numpy矩阵创建DataFrame
np_data = np.random.random((3, 4))
np_data = np.arange(12).reshape(3, 4)
np_data = np.ones((3, 4))
df = pd.DataFrame(np_data)
3.3,通过“一键多值”创建DataFrame
创建dataframe,键是列名:
>>> pd.DataFrame({'a':[1, 2, 3], 'b': [4, 5, 6]})
a b
0 1 4
1 2 5
2 3 6
可以设置index:
>>> pd.DataFrame({'a':[1, 2, 3], 'b': [4, 5, 6]}, index=list('456'))
a b
4 1 4
5 2 5
6 3 6
创建df时更改columns会出问题:
>>> pd.DataFrame({'a':[1, 2, 3], 'b': [4, 5, 6]}, columns=list('AB'))
Empty DataFrame
Columns: [A, B]
Index: []
这种创建方法可以看做是按列创建df,需要事先建很多列表,最后一次性赋给df
3.4,通过“字典列表”创建DataFrame
pd.DataFrame([{'a':1 , 'b': 4}, {'a':2 , 'b': 5}, {'a':3 , 'b': 6}])
a b
0 1 4
1 2 5
2 3 6
这种方法只需要创建一个列表,然后不停往该列表里添加字典即可,推荐!
3.5,df.loc,df.iloc,df.ix等逐行/逐单元格创建DataFrame
事先创建好dataframe,然后用dfdf.loc,df.iloc,df.ix逐行逐单元格增加数据,例如:
df = pd.DataFrame()
for index, item in enumerate(zip('abcde', range(5))):
df.loc[index, 'A'] = item[0]
df.loc[index, 'B'] = item[1]
效率非常低,不推荐
4,SettingWithCopyWarning
对DataFrame的弱引用对象进行拷贝进行赋值会触发SettingWithCopyWarning。
通过bool序列筛选拿到的是dataframe的弱引用对象。对弱引用对象进行修改时,不会影响到原来的dataframe。
>>>df = pd.DataFrame(np.arange(16).reshape(4, 4), columns=list('ABCD'))
>>>df1 = df[df['B'] > 2]
>>>df1.is_copy
<weakref at 0x08B5F6C0; to 'DataFrame' at 0x00CC5070>
>>>df1['A'] = 0
SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead
>>>df1 # df1会改变
A B C D
1 0 5 6 7
2 0 9 10 11
3 0 13 14 15
>>>df # df不会改变
A B C D
0 0 1 2 3
1 4 5 6 7
2 8 9 10 11
3 12 13 14 15
df1是df的弱引用拷贝,对df1进行赋值会触发SettingWithCopyWarning。
如果df1 = df.copy()不会触发该警告。
另外,如果是获取一个列,则拿到的是视图,并不是弱引用,对该视图进行的修改会反映到源dataframe:
>>>df = pd.DataFrame(np.arange(12).reshape(3, 4), columns=list('ABCD'))
>>>a = df['A']
>>>a.loc[1] = 55
>>>a
A B C D
0 0 1 2 3
1 55 5 6 7
2 8 9 10 11
Pandas Series和DataFrame的基本概念的更多相关文章
- Pandas Series 与 DataFrame 数据创建
>>> import pandas as pd >>> import numpy as np >>> print(np.__version__), ...
- pandas Series和dataframe
DataFrame是一个表格型数据结构,与Series不同的是,DataFrame可以含有一组或者有序的列,每列可以使不同的值的类型,它可以被看做成Series的字典.
- pandas数组(pandas Series)-(2)
pandas Series 比 numpy array 要强大很多,体现在很多方面 首先, pandas Series 有一些方法,比如: describe 方法可以给出 Series 的一些分析数据 ...
- pandas-21 Series和Dataframe的画图方法
pandas-21 Series和Dataframe的画图方法 ### 前言 在pandas中,无论是series还是dataframe都内置了.plot()方法,可以结合plt.show()进行很方 ...
- 02. Pandas 1|数据结构Series、Dataframe
1."一维数组"Series Pandas数据结构Series:基本概念及创建 s.index . s.values # Series 数据结构 # Series 是带有标签的一 ...
- Pandas中Series和DataFrame的索引
在对Series对象和DataFrame对象进行索引的时候要明确这么一个概念:是使用下标进行索引,还是使用关键字进行索引.比如list进行索引的时候使用的是下标,而dict索引的时候使用的是关键字. ...
- Python数据分析-Pandas(Series与DataFrame)
Pandas介绍: pandas是一个强大的Python数据分析的工具包,是基于NumPy构建的. Pandas的主要功能: 1)具备对其功能的数据结构DataFrame.Series 2)集成时间序 ...
- pandas学习series和dataframe基础
PANDAS 的使用 一.什么是pandas? 1.python Data Analysis Library 或pandas 是基于numpy的一种工具,该工具是为了解决数据分析人物而创建的. 2.p ...
- 利用Python进行数据分析(8) pandas基础: Series和DataFrame的基本操作
一.reindex() 方法:重新索引 针对 Series 重新索引指的是根据index参数重新进行排序. 如果传入的索引值在数据里不存在,则不会报错,而是添加缺失值的新行. 不想用缺失值,可以用 ...
随机推荐
- 蓝桥杯近3年决赛题之3(17年b组)
做的时候对了2个小题,一个大题可能会拿点分数. 1. 标题:36进制 对于16进制,我们使用字母A-F来表示10及以上的数字.如法炮制,一直用到字母Z,就可以表示36进制. 36进制中,A表示10,Z ...
- mysql 用行号rownum更新顺序号字段
UPDATE customer SET OrderNo = ( SELECT afterOrder.rowNum FROM ( SELECT @row_number := CASE WHEN @cus ...
- python3.*的一些笔记
因为使用python越来越频繁,有一些细节的东西经常用后一段时间没去用就会忘记,做些简单的笔记吧. 1.break和continue和pass a = 0 while 1: a+=1 if(a%3== ...
- 论文阅读(Weilin Huang——【arXiv2016】Accurate Text Localization in Natural Image with Cascaded Convolutional Text Network)
Weilin Huang——[arXiv2016]Accurate Text Localization in Natural Image with Cascaded Convolutional Tex ...
- 监控单个进程占用cpu与内存的使用情况
#!/bin/bashinterval=1if [ "$1" != "" ]then interval=$1fiecho "检查时间间隔(单位秒):& ...
- php配置可被设定范围
PHP中的每个指令都有其所属的模式,这些模式决定这一个PHP指定在何时何地.是否能被设定.例如有些指令可以在 PHP 脚本中用 ini_set() 来设定,而有些则只能在php.ini 或 httpd ...
- 小程序 components 下的组件引入字体图标时样式不生效
在组件内的样式在引入一遍 字体图标样式, pages 下的组件不受影响,全局引入字体图标样式即刻,不需要再次引入
- MTK-LCM 屏幕使用fbconfig/PanelMaster来调试LCM驱动
屏幕调试是我们做的较多的工作,且以MIPI屏为主,调试时总是会遇到一些参数需要一点一点配的时候,这样的工作其实很是繁琐,在我们确认完硬件没有问题时能不能使用简易的方法来解决这个问题呢 ? MTK已经为 ...
- Java8增强的包装类
为了解决8中基本数据类型的变量不能当成Object 类型变量使用的问题,Java提供了包装类的概念,为8种基本数据类型分别定义了相应的引用类型,并称为基本数据类型的包装类. JDK 1.5提供了自动装 ...
- axure原型设计
在上一个学期的学习中,我们已经初步学习了axure的使用方法,它可以为负责定义需求设计,功能和界面的人员能快速设计出所需产品. 引入:在我们想为软件设计原型的时候,纸质原型很难表达交互的界面,与此同时 ...