Pandas 简介

pandas 是 python 内基于 NumPy 的一种工具，主要目的是为了解决数据分析任务。Pandas 包含了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。

学习 pandas 需要主要掌握的技能包括

汇总和计算描述统计，处理缺失数据，层次化索引；
清理、转换、合并、重塑、groupby 技术；
日期和时间数据类型及工具（日期处理方便地飞起）；

本文参考主要介绍包括 Python科学计算：庖丁解牛之Pandas 和 10 Minutes to pandas。

数据类型

pandas 包含两个主要数据类型为 Series 和 DataFrame，其中 Series 为一位向量，DataFrame 为二维数组。

import numpy as np

import pandas as pd

s = pd.Series([1, 3, 5, np.nan, 6, 8])

利用 NumPy 数组可以构造 DataFrame 数组，如下所示

In [5]: dates = pd.date_range('20130101', periods=6)

In [6]: dates

Out[6]:

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',

               '2013-01-05', '2013-01-06'],

              dtype='datetime64[ns]', freq='D')

In [7]: df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))

In [8]: df

Out[8]:

                   A         B         C         D

2013-01-01  0.469112 -0.282863 -1.509059 -1.135632

2013-01-02  1.212112 -0.173215  0.119209 -1.044236

2013-01-03 -0.861849 -2.104569 -0.494929  1.071804

2013-01-04  0.721555 -0.706771 -1.039575  0.271860

2013-01-05 -0.424972  0.567020  0.276232 -1.087401

2013-01-06 -0.673690  0.113648 -1.478427  0.524988

数据可视化

为了对数据进行可视化，pandas包含了多种方法。基本可视化功能包括：观察头部与底部数据

In [13]: df.head()

Out[13]:

                   A         B         C         D

2013-01-01  0.469112 -0.282863 -1.509059 -1.135632

2013-01-02  1.212112 -0.173215  0.119209 -1.044236

2013-01-03 -0.861849 -2.104569 -0.494929  1.071804

2013-01-04  0.721555 -0.706771 -1.039575  0.271860

2013-01-05 -0.424972  0.567020  0.276232 -1.087401

In [14]: df.tail(3)

Out[14]:

                   A         B         C         D

2013-01-04  0.721555 -0.706771 -1.039575  0.271860

2013-01-05 -0.424972  0.567020  0.276232 -1.087401

2013-01-06 -0.673690  0.113648 -1.478427  0.524988

显示数据索引：

In [15]: df.index

Out[15]:

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',

               '2013-01-05', '2013-01-06'],

              dtype='datetime64[ns]', freq='D')

In [16]: df.columns

Out[16]: Index(['A', 'B', 'C', 'D'], dtype='object')

DataFrame.to_numpy() 可以将数据转化为 NumPy 数组类型。注意，这种方法在 DataFrame 内包含多种数组类型时可能会需要较长的转化时间，因为 NumPy 仅有一种数据类型。此外，DataFrame.to_numpy() 在输出时候不包括索引和标签列。

describe() 可以显示数据的快速统计摘要：

In [19]: df.describe()

Out[19]:

              A         B         C         D

count  6.000000  6.000000  6.000000  6.000000

mean   0.073711 -0.431125 -0.687758 -0.233103

std    0.843157  0.922818  0.779887  0.973118

min   -0.861849 -2.104569 -1.509059 -1.135632

25%   -0.611510 -0.600794 -1.368714 -1.076610

50%    0.022070 -0.228039 -0.767252 -0.386188

75%    0.658444  0.041933 -0.034326  0.461706

max    1.212112  0.567020  0.276232  1.071804

数据转置：

In [20]: df.T

Out[20]:

   2013-01-01  2013-01-02  2013-01-03  2013-01-04  2013-01-05  2013-01-06

A    0.469112    1.212112   -0.861849    0.721555   -0.424972   -0.673690

B   -0.282863   -0.173215   -2.104569   -0.706771    0.567020    0.113648

C   -1.509059    0.119209   -0.494929   -1.039575    0.276232   -1.478427

D   -1.135632   -1.044236    1.071804    0.271860   -1.087401    0.524988

按轴排序：

In [21]: df.sort_index(axis=1, ascending=False)

Out[21]:

                   D         C         B         A

2013-01-01 -1.135632 -1.509059 -0.282863  0.469112

2013-01-02 -1.044236  0.119209 -0.173215  1.212112

2013-01-03  1.071804 -0.494929 -2.104569 -0.861849

2013-01-04  0.271860 -1.039575 -0.706771  0.721555

2013-01-05 -1.087401  0.276232  0.567020 -0.424972

2013-01-06  0.524988 -1.478427  0.113648 -0.673690

按值排序：

In [22]: df.sort_values(by='B')

Out[22]:

                   A         B         C         D

2013-01-03 -0.861849 -2.104569 -0.494929  1.071804

2013-01-04  0.721555 -0.706771 -1.039575  0.271860

2013-01-01  0.469112 -0.282863 -1.509059 -1.135632

2013-01-02  1.212112 -0.173215  0.119209 -1.044236

2013-01-06 -0.673690  0.113648 -1.478427  0.524988

2013-01-05 -0.424972  0.567020  0.276232 -1.087401

数据访问

为了进一步对DataFrame中数据进行操作，需要掌握数据的访问方法。在pandas中，提供了多种数据访问形式。

切片

在DataFrame中选取一个单列时，相当于构造一个Series对象

In [23]: df['A']

Out[23]:

2013-01-01    0.469112

2013-01-02    1.212112

2013-01-03   -0.861849

2013-01-04    0.721555

2013-01-05   -0.424972

2013-01-06   -0.673690

Freq: D, Name: A, dtype: float64

通过 [] 可以对数据部分进行选择，获得仅包含部分索引的切片数据

In [24]: df[0:3]

Out[24]:

                   A         B         C         D

2013-01-01  0.469112 -0.282863 -1.509059 -1.135632

2013-01-02  1.212112 -0.173215  0.119209 -1.044236

2013-01-03 -0.861849 -2.104569 -0.494929  1.071804

In [25]: df['20130102':'20130104']

Out[25]:

                   A         B         C         D

2013-01-02  1.212112 -0.173215  0.119209 -1.044236

2013-01-03 -0.861849 -2.104569 -0.494929  1.071804

2013-01-04  0.721555 -0.706771 -1.039575  0.271860

通过标签切片

DataFrame中也可以通过数据的标签进行选取。

首先，DataFrame中数据标签类似于矩阵的列，但是标签除了数字形式，可以有更加直观的名称，如字符串等。下图展示了DataFrame中按照标签截取的主要方法

同时，也可以按照索引进行切片，在DataFrame中，索引类似矩阵的行号。在调用 loc 进行切片时，只要输入一个参数即可选取特定行

In [26]: df.loc[dates[0]]

Out[26]:

A    0.469112

B   -0.282863

C   -1.509059

D   -1.135632

Name: 2013-01-01 00:00:00, dtype: float64

此时截取后数据为原始数据中第一行索引，类型为 Series 数据。

当然也可以在多轴上选择：

In [27]: df.loc[:, ['A', 'B']]

Out[27]:

                   A         B

2013-01-01  0.469112 -0.282863

2013-01-02  1.212112 -0.173215

2013-01-03 -0.861849 -2.104569

2013-01-04  0.721555 -0.706771

2013-01-05 -0.424972  0.567020

2013-01-06 -0.673690  0.113648

其中第一个标签 : 代表选取所有索引。也可以同时选取索引和标签列：

In [28]: df.loc['20130102':'20130104', ['A', 'B']]

Out[28]:

                   A         B

2013-01-02  1.212112 -0.173215

2013-01-03 -0.861849 -2.104569

2013-01-04  0.721555 -0.706771

当确定数据的索引和标签时候，也可以用 at 命令快速访问，iat 为按照序号索引进行访问，二者对应如下午所示

In [31]: df.at[dates[0], 'A']

Out[31]: 0.4691122999071863

总结来说，在索引或切片 DataFrame时，可以用基于位置的 at 和 loc，二者功能是相似的。

通过编号选取

除了标签，也可以用整数编号对数据某行索引进行选择，与 loc 对应的有 iloc：

In [32]: df.iloc[3]

Out[32]:

A    0.721555

B   -0.706771

C   -1.039575

D    0.271860

Name: 2013-01-04 00:00:00, dtype: float64

通过两个序列编号方法则与 numpy 中数据读取类似

In [33]: df.iloc[3:5, 0:2]

Out[33]:

                   A         B

2013-01-04  0.721555 -0.706771

2013-01-05 -0.424972  0.567020

也可以用列表形式选取索引

In [34]: df.iloc[[1, 2, 4], [0, 2]]

Out[34]:

                   A         C

2013-01-02  1.212112  0.119209

2013-01-03 -0.861849 -0.494929

2013-01-05 -0.424972  0.276232

也可以用整数编号作为索引快速访问数组内容

In [38]: df.iat[1, 1]

Out[38]: -0.17321464905330858

布尔索引

在 DataFrame 中可以用单列值选择数据

In [39]: df[df.A > 0]

Out[39]:

                   A         B         C         D

2013-01-01  0.469112 -0.282863 -1.509059 -1.135632

2013-01-02  1.212112 -0.173215  0.119209 -1.044236

2013-01-04  0.721555 -0.706771 -1.039575  0.271860

也可以用满足布尔条件的DataFrame中选择值

In [40]: df[df > 0]

Out[40]:

                   A         B         C         D

2013-01-01  0.469112       NaN       NaN       NaN

2013-01-02  1.212112       NaN  0.119209       NaN

2013-01-03       NaN       NaN       NaN  1.071804

2013-01-04  0.721555       NaN       NaN  0.271860

2013-01-05       NaN  0.567020  0.276232       NaN

2013-01-06       NaN  0.113648       NaN  0.524988

赋值

当为DataFrame赋值新的列时，将按照索引自动对齐数据。

In [45]: s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range('20130102', periods=6))

In [46]: s1

Out[46]:

2013-01-02    1

2013-01-03    2

2013-01-04    3

2013-01-05    4

2013-01-06    5

2013-01-07    6

Freq: D, dtype: int64

In [47]: df['F'] = s1

按照上面数据读取方法，也可按照索引进行赋值：

In [48]: df.at[dates[0], 'A'] = 0

In [49]: df.iat[0, 1] = 0

In [50]: df.loc[:, 'D'] = np.array([5] * len(df))

缺失数据处理

重新索引时允许更改/删除/添加指定轴上索引，并返回数据的副本

In [55]: df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])

In [56]: df1.loc[dates[0]:dates[1], 'E'] = 1

In [57]: df1

Out[57]:

                   A         B         C  D    F    E

2013-01-01  0.000000  0.000000 -1.509059  5  NaN  1.0

2013-01-02  1.212112 -0.173215  0.119209  5  1.0  1.0

2013-01-03 -0.861849 -2.104569 -0.494929  5  2.0  NaN

2013-01-04  0.721555 -0.706771 -1.039575  5  3.0  NaN

删除缺少数据行可以用 dropna 方法计算

In [58]: df1.dropna(how='any')

Out[58]:

                   A         B         C  D    F    E

2013-01-02  1.212112 -0.173215  0.119209  5  1.0  1.0

也可用 fillna 填充丢失数据

In [59]: df1.fillna(value=5)

Out[59]:

                   A         B         C  D    F    E

2013-01-01  0.000000  0.000000 -1.509059  5  5.0  1.0

2013-01-02  1.212112 -0.173215  0.119209  5  1.0  1.0

2013-01-03 -0.861849 -2.104569 -0.494929  5  2.0  5.0

2013-01-04  0.721555 -0.706771 -1.039575  5  3.0  5.0

数据操作

数据统计

可以用函数对各列或行数据进行统计

In [61]: df.mean()

Out[61]:

A   -0.004474

B   -0.383981

C   -0.687758

D    5.000000

F    3.000000

dtype: float64

In [62]: df.mean(1)

Out[62]:

2013-01-01    0.872735

2013-01-02    1.431621

2013-01-03    0.707731

2013-01-04    1.395042

2013-01-05    1.883656

2013-01-06    1.592306

Freq: D, dtype: float64

函数计算

可以将函数应用于数据计算

In [66]: df.apply(np.cumsum)

Out[66]:

                   A         B         C   D     F

2013-01-01  0.000000  0.000000 -1.509059   5   NaN

2013-01-02  1.212112 -0.173215 -1.389850  10   1.0

2013-01-03  0.350263 -2.277784 -1.884779  15   3.0

2013-01-04  1.071818 -2.984555 -2.924354  20   6.0

2013-01-05  0.646846 -2.417535 -2.648122  25  10.0

2013-01-06 -0.026844 -2.303886 -4.126549  30  15.0

In [67]: df.apply(lambda x: x.max() - x.min())

Out[67]:

A    2.073961

B    2.671590

C    1.785291

D    0.000000

F    4.000000

dtype: float64

字符串方法

Series 在 str 属性中配备了字符串方法，可以对数据每个元素进行操作。

In [71]: s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])

In [72]: s.str.lower()

Out[72]:

0       a

1       b

2       c

3    aaba

4    baca

5     NaN

6    caba

7     dog

8     cat

dtype: object

数据合并

数据结合

pandas 可将 Series 和 DataFrame 对象与各种用于索引和关系的功能组合在一起。

In [73]: df = pd.DataFrame(np.random.randn(10, 4))

In [74]: df

Out[74]:

          0         1         2         3

0 -0.548702  1.467327 -1.015962 -0.483075

1  1.637550 -1.217659 -0.291519 -1.745505

2 -0.263952  0.991460 -0.919069  0.266046

3 -0.709661  1.669052  1.037882 -1.705775

4 -0.919854 -0.042379  1.247642 -0.009920

5  0.290213  0.495767  0.362949  1.548106

6 -1.131345 -0.089329  0.337863 -0.945867

7 -0.932132  1.956030  0.017587 -0.016692

8 -0.575247  0.254161 -1.143704  0.215897

9  1.193555 -0.077118 -0.408530 -0.862495

# break it into pieces

In [75]: pieces = [df[:3], df[3:7], df[7:]]

In [76]: pd.concat(pieces)

Out[76]:

          0         1         2         3

0 -0.548702  1.467327 -1.015962 -0.483075

1  1.637550 -1.217659 -0.291519 -1.745505

2 -0.263952  0.991460 -0.919069  0.266046

3 -0.709661  1.669052  1.037882 -1.705775

4 -0.919854 -0.042379  1.247642 -0.009920

5  0.290213  0.495767  0.362949  1.548106

6 -1.131345 -0.089329  0.337863 -0.945867

7 -0.932132  1.956030  0.017587 -0.016692

8 -0.575247  0.254161 -1.143704  0.215897

9  1.193555 -0.077118 -0.408530 -0.862495

插入

插入时可按照 SQL 样式进行插入

In [77]: left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})

In [78]: right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})

In [79]: left

Out[79]:

   key  lval

0  foo     1

1  foo     2

In [80]: right

Out[80]:

   key  rval

0  foo     4

1  foo     5

In [81]: pd.merge(left, right, on='key')

Out[81]:

   key  lval  rval

0  foo     1     4

1  foo     1     5

2  foo     2     4

3  foo     2     5

另一个类似的示例为

In [82]: left = pd.DataFrame({'key': ['foo', 'bar'], 'lval': [1, 2]})

In [83]: right = pd.DataFrame({'key': ['foo', 'bar'], 'rval': [4, 5]})

In [84]: left

Out[84]:

   key  lval

0  foo     1

1  bar     2

In [85]: right

Out[85]:

   key  rval

0  foo     4

1  bar     5

In [86]: pd.merge(left, right, on='key')

Out[86]:

   key  lval  rval

0  foo     1     4

1  bar     2     5

增加数据

用 append 命令可以增加数据

In [87]: df = pd.DataFrame(np.random.randn(8, 4), columns=['A', 'B', 'C', 'D'])

In [88]: df

Out[88]:

          A         B         C         D

0  1.346061  1.511763  1.627081 -0.990582

1 -0.441652  1.211526  0.268520  0.024580

2 -1.577585  0.396823 -0.105381 -0.532532

3  1.453749  1.208843 -0.080952 -0.264610

4 -0.727965 -0.589346  0.339969 -0.693205

5 -0.339355  0.593616  0.884345  1.591431

6  0.141809  0.220390  0.435589  0.192451

7 -0.096701  0.803351  1.715071 -0.708758

In [89]: s = df.iloc[3]

In [90]: df.append(s, ignore_index=True)

Out[90]:

          A         B         C         D

0  1.346061  1.511763  1.627081 -0.990582

1 -0.441652  1.211526  0.268520  0.024580

2 -1.577585  0.396823 -0.105381 -0.532532

3  1.453749  1.208843 -0.080952 -0.264610

4 -0.727965 -0.589346  0.339969 -0.693205

5 -0.339355  0.593616  0.884345  1.591431

6  0.141809  0.220390  0.435589  0.192451

7 -0.096701  0.803351  1.715071 -0.708758

8  1.453749  1.208843 -0.080952 -0.264610

数据分组

数据分组可将 DataFrame 中功能独立地应用于每个组

In [91]: df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar',

   ....:                          'foo', 'bar', 'foo', 'foo'],

   ....:                    'B': ['one', 'one', 'two', 'three',

   ....:                          'two', 'two', 'one', 'three'],

   ....:                    'C': np.random.randn(8),

   ....:                    'D': np.random.randn(8)})

   ....: 

In [92]: df

Out[92]:

     A      B         C         D

0  foo    one -1.202872 -0.055224

1  bar    one -1.814470  2.395985

2  foo    two  1.018601  1.552825

3  bar  three -0.595447  0.166599

4  foo    two  1.395433  0.047609

5  bar    two -0.392670 -0.136473

6  foo    one  0.007207 -0.561757

7  foo  three  1.928123 -1.623033

In [93]: df.groupby('A').sum()

Out[93]:

            C        D

A

bar -2.802588  2.42611

foo  3.146492 -0.63958

数据重构

首先对 DataFram 数据表进行初始化

In [105]: df = pd.DataFrame({'A': ['one', 'one', 'two', 'three'] * 3,

   .....:                    'B': ['A', 'B', 'C'] * 4,

   .....:                    'C': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,

   .....:                    'D': np.random.randn(12),

   .....:                    'E': np.random.randn(12)})

   .....: 

In [106]: df

Out[106]:

        A  B    C         D         E

0     one  A  foo  1.418757 -0.179666

1     one  B  foo -1.879024  1.291836

2     two  C  foo  0.536826 -0.009614

3   three  A  bar  1.006160  0.392149

4     one  B  bar -0.029716  0.264599

5     one  C  bar -1.146178 -0.057409

6     two  A  foo  0.100900 -1.425638

7   three  B  foo -1.035018  1.024098

8     one  C  foo  0.314665 -0.106062

9     one  A  bar -0.773723  1.824375

10    two  B  bar -1.170653  0.595974

11  three  C  bar  0.648740  1.167115

数据透视表可通过 pivot_table 方法生成数据透视表，其中 values 为表值，index 为透视表索引，columns 为数据列名。

In [107]: pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])

Out[107]:

C             bar       foo

A     B

one   A -0.773723  1.418757

      B -0.029716 -1.879024

      C -1.146178  0.314665

three A  1.006160       NaN

      B       NaN -1.035018

      C  0.648740       NaN

two   A       NaN  0.100900

      B -1.170653       NaN

      C       NaN  0.536826

时间序列

数据类别

数据绘图

当使用 plot 函数时，可以很方便地绘制带有标签的所有列，并在图例中显示对应的标签名：

In [135]: ts = pd.Series(np.random.randn(1000),

   .....:                index=pd.date_range('1/1/2000', periods=1000))

   .....: 

In [136]: ts = ts.cumsum()

In [137]: ts.plot()

Out[137]: <matplotlib.axes._subplots.AxesSubplot at 0x7f24a8b314d0>

数据IO

pandas 可从多种类型文件中获取数据，例如可以写入或读取csv文件

In [143]: df.to_csv('foo.csv')

In [144]: pd.read_csv('foo.csv')

Out[144]:

     Unnamed: 0          A          B         C          D

0    2000-01-01   0.266457  -0.399641 -0.219582   1.186860

1    2000-01-02  -1.170732  -0.345873  1.653061  -0.282953

2    2000-01-03  -1.734933   0.530468  2.060811  -0.515536

3    2000-01-04  -1.555121   1.452620  0.239859  -1.156896

4    2000-01-05   0.578117   0.511371  0.103552  -2.428202

..          ...        ...        ...       ...        ...

995  2002-09-22  -8.985362  -8.485624 -4.669462  31.367740

996  2002-09-23  -9.558560  -8.781216 -4.499815  30.518439

997  2002-09-24  -9.902058  -9.340490 -4.386639  30.105593

998  2002-09-25 -10.216020  -9.480682 -3.933802  29.758560

999  2002-09-26 -11.856774 -10.671012 -3.216025  29.369368

[1000 rows x 5 columns]

写入或读取 HDF5 文件

In [145]: df.to_hdf('foo.h5', 'df')

In [146]: pd.read_hdf('foo.h5', 'df')

Out[146]:

                    A          B         C          D

2000-01-01   0.266457  -0.399641 -0.219582   1.186860

2000-01-02  -1.170732  -0.345873  1.653061  -0.282953

2000-01-03  -1.734933   0.530468  2.060811  -0.515536

2000-01-04  -1.555121   1.452620  0.239859  -1.156896

2000-01-05   0.578117   0.511371  0.103552  -2.428202

...               ...        ...       ...        ...

2002-09-22  -8.985362  -8.485624 -4.669462  31.367740

2002-09-23  -9.558560  -8.781216 -4.499815  30.518439

2002-09-24  -9.902058  -9.340490 -4.386639  30.105593

2002-09-25 -10.216020  -9.480682 -3.933802  29.758560

2002-09-26 -11.856774 -10.671012 -3.216025  29.369368

[1000 rows x 4 columns]

写入或读取 excel 文件

In [147]: df.to_excel('foo.xlsx', sheet_name='Sheet1')

In [148]: pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])

Out[148]:

    Unnamed: 0          A          B         C          D

0   2000-01-01   0.266457  -0.399641 -0.219582   1.186860

1   2000-01-02  -1.170732  -0.345873  1.653061  -0.282953

2   2000-01-03  -1.734933   0.530468  2.060811  -0.515536

3   2000-01-04  -1.555121   1.452620  0.239859  -1.156896

4   2000-01-05   0.578117   0.511371  0.103552  -2.428202

..         ...        ...        ...       ...        ...

995 2002-09-22  -8.985362  -8.485624 -4.669462  31.367740

996 2002-09-23  -9.558560  -8.781216 -4.499815  30.518439

997 2002-09-24  -9.902058  -9.340490 -4.386639  30.105593

998 2002-09-25 -10.216020  -9.480682 -3.933802  29.758560

999 2002-09-26 -11.856774 -10.671012 -3.216025  29.369368

[1000 rows x 5 columns]

Pandas 简介的更多相关文章

python之pandas简介
一. Pandas简介 1.Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的.Pandas 纳入了大量库和 ...
python库pandas简介
pandas是基于numpy的数据分析模块,提供了大量标准模型和高效操作大型数据集所需要的工具. pandas主要提供了3种数据结构:1.Series,带标签的一维数组:2.DataFrame,带标签 ...
Python中的结构化数据分析利器-Pandas简介
Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发tea ...
数据分析工具pandas简介
什么是Pandas? Pandas的名称来自于面板数据(panel data)和Python数据分析(data analysis). Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建 ...
Python数据分析与展示[第三周]（pandas简介与数据创建）
第三周的课程pandas 分析数据 http://pandas.pydata.org import pandas as pd 常与numpy matplotlib 一块定义 d=pd.Series(r ...
数据分析 Pandas 简介和它的的数据结构
本文主要讲Pandas 的Series和DataFrame 的相关属性和操作 1.Series的相关属性和操作# --Series是一种类似于一维数组的对象,只能存放一维数组!由以下两部分组成:# v ...
【划重点】Python pandas简介
一.pandas获取Excel表单的两种方式 import pandas as pd df1 = pd.DataFrame(pd.read_excel(r'C:\Users\ASUS\Desktop\ ...
pandas简介
Python数据分析Pandas库方法简介
Pandas 入门 Pandas简介背景:pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观.它旨在成为在Python中进行实际, ...

随机推荐

2021 从零开始学Git【新版本Git - 8000字详细介绍】
我写的这篇文章,主要是记录自己的学习过程,也希望帮助读者少踩坑(比如不同版本可能命令不兼容等).本文面向git零基础初学者,建议读者按照文中命令自己全部操作一遍(注意运行环境). 我的运行环境:win ...
Sequence Model-week1编程题1（一步步实现RNN与LSTM）
一步步搭建循环神经网络将在numpy中实现一个循环神经网络 Recurrent Neural Networks (RNN) are very effective for Natural Langua ...
CODING 助力江苏高速信息实现组织敏捷与研发敏捷，领跑智慧交通新基建
疫情之下的高速公路管控重任江苏高速公路信息工程有限公司(以下简称:江苏高速信息)成立于 2002 年,是江苏交通控股旗下,专业从事高速公路领域机电系统集成.智能交通软硬件研发.大数据分析运营的高新技 ...
Noip模拟68 2021.10.4
T1 玩水成功在考试的时候注释掉正解,换成了暴力,只因为不敢保证正解思路的正确脑子瓦特了,不知道把暴力打成函数拼在一起,不知道当时咋想的.... 就是你找有没有一个点上面和左面的字符一样, 如果这 ...
热身训练1 Blood Cousins Return
点此看题简要题面: 一棵树上有n个节点,每个节点有对应的名字(名字可重复). 每次询问,求深度比$vi$多$ki$的$vi$的儿子中,有多少种名字分析: Step1: 我们可以懂$DFS$轻松找到 ...
在Vue前端界面中，几种数据表格的展示处理，以及表格编辑录入处理操作。
在Vue前端项目中,我这里主要是基于Vue+Element的开发,大多数情况下,我们利用Element的表格组件就可以满足大多数情况的要求,本篇随笔针对表格的展示和编辑处理,综合性的介绍几款表格组件的 ...
jdk8下载与安装教程
jdk8下载与安装教程下载有两种方式一.网盘下载网盘下载链接 pan.baidu.com/s/1VQAwHS6WDjemDnKDnPIvww 提取码:f5tv二.官网下载如果想自己一步步研究亲自实 ...
写一段java程序来执行linux命令
摘要在日常开发中,程序员需要经常查询服务器日志来排查问题和调试程序.如果是本地调试还好,但项目一旦发布到服务器上,每次查日志就很麻烦,而且日志量巨大,有时我们无法找到我们需要的信息.经常需要借助第三 ...
最近公共祖先牛客网程序员面试金典 C++ Python
最近公共祖先牛客网程序员面试金典 C++ Python 题目描述有一棵无穷大的满二叉树,其结点按根结点一层一层地从左往右依次编号,根结点编号为1.现在有两个结点a,b.请设计一个算法,求出a和b ...
java核心技术第3章 java基本程序设计结构
类名规范:以大写字母开头的名词若由多个单词组成每个单词的第一个字母应大写(驼峰命名法) 与.java文件名相同运行程序:java ClassName(dos命令) 打印语句:System.ou ...

Pandas 简介

Pandas 简介

数据类型

数据可视化

数据访问

切片

通过标签切片

通过编号选取

布尔索引

赋值

缺失数据处理

数据操作

数据统计

函数计算

字符串方法

数据合并

数据结合

插入

增加数据

数据分组

数据重构

时间序列

数据类别

数据绘图

数据IO

Pandas 简介的更多相关文章

随机推荐

热门专题