我正以Python作为突破口,入门机器学习相关知识。出于机器学习实践过程中的需要,我快速了解了一下提供了类似关系型或标签型数据结构的Pandas的使用方法。下面记录相关学习笔记。

数据结构

Pandas最主要的知识点是两个数据结构,分别是Series和DataFrame。你可以分别把它们简单地理解为带标签的一维数组和二维数组。

以下实践假设已经运行了必要的import语句,如:

import pandas as pd

Series

先在命令行里面看一下Series的样子:

 

可以看到Series是一个列表,列表的每一项都有一个称之为index的索引(如:a、b、c...),和一个与之对应的值(如:0、1、2...)。

创建Series

看过了Series的内容,很容易想到创建Series需要提供两项内容:数据与索引。基于这两项内容可以产生几种变形:

  • 使用Python的列表创建Series
    使用列表作为数据项,另外通过index关键词指定另一个索引列表。
pd.Series([1,2,3], index=['a', 'b', 'c'])
  • 使用Python的二元组创建Series
    作为上面一种形式变形,可以把索引和数据一一组合在一起成为元组,然后以元组列表作为创建Series的参数。
pd.Series({'a': 0, 'b': 1, 'c': 2})
  • 使用单独标量创建元素值一样的Series
# a、b、c的值都是1
pd.Series(1, index=['a', 'b', 'c'])
  • 使用NumPy数组创建Series
    为了让NumPy数据可以快速转换成Pandas的数据,Pandas提供了使用ndarray创建Series的方式。
import numpy as np
pd.Series(np.array([1,2,3]), index=['a','b','c'])

访问Series

下面假设有一个Seriess=pd.Series([1,2,3], index=['a', 'b', 'c'])。访问这个s可以选择下面方式:

  • Series可以像NumPy的数组一样访问。特殊的是:Series使用元素索引访问其元素的值;而使用切片索引访问其片段(包含索引和值的Series)。
print(s[0]) # 结果为数值:1
print(s[0:1]) # 结果为Series:a 1
  • Series还可以像Python的字典那样访问其元素或检查元素是否存在。
print(s['a']) # 结果为数值:1
print(s.a) # 结果为数值:1
print('a' in s) # 结果为True
  • 另外还可以用搜索条件过滤Series获取切片。
print(s[s > 2]) # 结果为Series: c  3

Series的相关操作

大部分NumPy的通用函数可以应用在Series上,因此不再赘述。

需要注意的点在于,当参与操作的Series会根据索引自动对齐元素然后进行操作,如存在某个索引是不在另一个Series中,则使用NaN作为结果。

s1 = pd.Series([1,2,3], index=['a','b','c'])
s2 = pd.Series([3,2,1], index=['b','c','d'])
s1 + s2

结果包含四个元素,内容如下:

a    NaN
b 5.0
c 5.0
d NaN

Series的name属性

每个Series有一个name属性,它将在在二维的数据结构中作为Series的索引。

DataFrame

我们依旧先来看一下DataFrame的样子。

 

DataFrame实际上是一个二维数组,可以由多个Series组成。每个Series作为一列或者一行。

创建DataFrame

DataFrame的创建方法太多了,因此这里只举几种常用的例子。希望能有更深入的了解,还是查阅官方文档比较合适。

创建DataFrame大体可以分为两种情况,一种是按行提供数据,另一种是按列提供数据。

  • 按行提供数据

这种方式把DataFrame当成一个行列表,我们为列表提供每一行的内容。行数据可以是Python的列表、NumPy的数组、PandasSeries等。如下:

# 列表形式
l1 = [11, 12, 13]
l2 = [21, 22, 23]
l3 = [31, 32, 33, 34]
df = pd.DataFrame([l1,l2,l3], dtype='int32')
# ndarray形式
a1 = np.array([11,12,13])
a2 = np.array([21,22,23])
a3 = np.array([31,32,33,34])
df = pd.DataFrame([a1,a2,a3], dtype='int32')
# Series形式
s1 = pd.Series([11,12,13])
s2 = pd.Series([21,22,23])
s3 = pd.Series([31,32,33,34])
df = pd.DataFrame([s1,s2,s3], dtype='int32')

以上三种形式创建了同样的DataFrame,结果如下:

    0   1   2     3
0 11 12 13 NaN
1 21 22 23 NaN
2 31 32 33 34.0

注意到,我们并没有提供行索引和列索引,这种情况DataFrame的构造函数会自动为我们添加索引。特殊的,如果我们使用Series按行创建时,如果Series设置了name属性,则name属性将作为DataFrame的索引呈现,其中若有为指定name属性的将按顺序给与默认命名(如:‘Unnamed 0’)。例如:

s1 = pd.Series([11,12,13])
s2 = pd.Series([21,22,23])
s3 = pd.Series([31,32,33,34])
s1.name = 's1'
df = pd.DataFrame([s1,s2,s3], dtype='int32')

这时的df的结果为:

            0   1   2     3
s1 11 12 13 NaN
Unnamed 0 21 22 23 NaN
Unnamed 1 31 32 33 34.0
  • 按列提供数据

这种方式把DataFrame当成一个列元组,我们为元组提供每一项元素,这个元素就是单独的一列。列可以是Python的列表、NumPy的数组、PandasSeries等。

按列提供数据需要注意的指明每列的索引,在DataFrame中称之为columns。如下:

# 列表形式
l1 = [11, 12, 13]
l2 = [21, 22, 23]
df = pd.DataFrame({'c1': l1, 'c2': l2})
# ndarray形式
a1 = np.array([11, 12, 13])
a2 = np.array([21, 22, 23])
df = pd.DataFrame({'c1': a1, 'c2': a2})

上述二者的结果为:

   c1  c2
0 11 21
1 12 22
2 13 23

需要注意的是,这种形式提供的每一列必须拥有相同的长度,否则将报异常。

s1 = pd.Series([11,12,13])
s2 = pd.Series([21,22,23])
s3 = pd.Series([31,32,33,34])

结果为:

     c1    c2  c3
0 11.0 21.0 31
1 12.0 22.0 32
2 13.0 23.0 33
3 NaN NaN 34

Series形式提供的数据将会自动对齐,每个索引为一行。若某个Series中不存在某个索引,则这一列对应位置使用NaN填充。

访问DataFrame

下方表格展示了几种索引或选择DataFrame的方法:

 

以下是上表的示例:

 
 

修改数据的时候也可以应用上述查询方式直接进行赋值,但是需要注意的是所赋的内容的类型需要与表格右方的类型对齐。针对Series内容,如果赋值时用的是列表或者ndarray,其长度必须于原来内容的长度一致。例如:

 
 

查询与修改元素可以用二级索引,如df.loc['r2'][0] = 2

删除行或者列可以使用DataFrame.drop函数,它会返回删除后的结果,并不会修改原来的数据。对删除列而言,使用类似del df[0]的语句可以直接删除源数据。而删除元素对DataFrame是无意义的,直接用赋值形式就可以替代。

插入列可以直接用DataFrame.insert函数,与drop不同,它会在原来的数据中插入内容。(另外,目前我尚未发现有直接插入行的操作。有了解的读者可在下方留下言。)

有关数据对齐

Series或者DataFrame进行操作的时候,如果索引不一致将会进行对齐,然后才操作。下面描述一下这几种情况。

  • 两个Series参与操作,会根据索引自动对齐元素然后进行操作,如存在某个索引是不在另一个Series中,则使用NaN作为结果。

  • 两个DataFrame参与操作,自动对齐行和列,任何行索引或列索引在另一个操作对象中找不到,结果对应位置的元素用NaN补充。

     
     
  • DataFrameSeries参与操作,默认进行行级广播。即把Series作为一列,Seriesindex对齐到DataFramecolumns进行运算。特殊地,索引都是时间的DataFrameSeries参与操作会发生列级广播。列级广播的意思就是把Series当成一个横向的DataFrame,它的每个索引和对应的值都当成一列。因此操作的时候原来的Series的时间索引变成了结果的列索引。
 
 

另外这种情况直接用加号“+”的方式已经不推荐了,而是使用add函数,同时可以通过指定axis参数指明Series广播的维度。如下:

 
 

数据可视化

Pandas数据结构(SeriesDataFrame)封装了matplotlib.pyplot,直接调用它们的plot等函数可以绘制图像。

这些函数简单封装了plt.plot()。你要做的仅仅是导入matplotlib.pyplot,然后调用plt.show()展示图像。

下面看例子:

 
 

你还可以绘制其他类型的图像,下图展示了其他函数:

 
 

本文来自同步博客

Pandas快速入门笔记的更多相关文章

  1. pandas快速入门

    pandas快速入门 numpy之后让我们紧接着学习pandas.Pandas最初被作为金融数据分析工具而开发出来,后来因为其强大性以及友好性,在数据分析领域被广泛使用,下面让我们一窥究竟. 本文参考 ...

  2. Python pandas快速入门

    Python pandas快速入门2017年03月14日 17:17:52 青盏 阅读数:14292 标签: python numpy 数据分析 更多 个人分类: machine learning 来 ...

  3. Pandas 快速入门(二)

    本文的例子需要一些特殊设置,具体可以参考 Pandas快速入门(一) 数据清理和转换 我们在进行数据处理时,拿到的数据可能不符合我们的要求.有很多种情况,包括部分数据缺失,一些数据的格式不正确,一些数 ...

  4. C#快速入门笔记(1)——基础语法

    C#快速入门笔记(1)——基础语法 总体框架:

  5. keras搭建神经网络快速入门笔记

    之前学习了tensorflow2.0的小伙伴可能会遇到一些问题,就是在读论文中的代码和一些实战项目往往使用keras+tensorflow1.0搭建, 所以本次和大家一起分享keras如何搭建神经网络 ...

  6. C++ 快速入门笔记:进阶编程

    C++入门笔记:高级编程 文件和流 打开文件 void open (const char *filename, ios::openmode mode); ios::app 追加模式.所有写入都追加到文 ...

  7. NumPy快速入门笔记

    我正以Python作为突破口,入门机器学习相关知识.出于机器学习实践过程中的需要,我快速了解了一下NumPy这个科学计算库的使用方法.下面记录相关学习笔记. 简介 NumPy是一个科学计算库.结合Py ...

  8. Spring Boot 快速入门笔记

    Spirng boot笔记 简介 Spring Boot是由Pivotal团队提供的全新框架,其设计目的是用来简化新Spring应用的初始搭建以及开发过程.该框架使用了特定的方式来进行配置,从而使开发 ...

  9. Matplotlib快速入门笔记

    我正以Python作为突破口,入门机器学习相关知识.出于机器学习实践过程中的需要,快速了解了一下matplotlib绘图库.下图是我学习过程中整理的一些概念. 本文将以该图为线索梳理相关概念. 简介 ...

随机推荐

  1. python面向对象进阶

    前言 上节大话python面向对象对面向对象有了一些了解,这次就不用大话风格了 (ps:真心不好扯啊) isinstance与issubclass isinstance(obj,cls)检查是否obj ...

  2. 在vue-cli项目中使用echarts

    这个示例使用 vue-cli 脚手架搭建 安装echarts依赖 npm install echarts -S 或者使用国内的淘宝镜像: 安装 npm install -g cnpm --regist ...

  3. JavaScript变量声明与提升

    一直以来对变量提升都是比较模糊的,今天特地看了一下这个知识点,总结一下. 1.举个最简单的例子来说一下什么是变量提升吧. function foo(){ console.log(x); // unde ...

  4. 解决方案 git@github.com出现Permission denied (publickey)

     ubentu 13.10 git version 1.8.3.2 解决方案:ssh -T git@github.com出现Permission denied (publickey).的问题 今天的任 ...

  5. UML学习网址列表

    在线绘图工具ProcessOn:https://www.processon.com/support#mind-format 鲁棒图实例:http://blog.csdn.net/joeyon1985/ ...

  6. C语言 模2除法

    C语言中的模2除法: 模2除做法与算术除法类似,但每一位除(减)的结果不影响其它位,即不向上一位借位.所以实际上就是异或.然后再移位移位做下一位的模2减. 步骤如下: a.用除数对被除数最高n位做模2 ...

  7. Javascript学习--时间

    digit = [ [ [0,0,1,1,1,0,0], [0,1,1,0,1,1,0], [1,1,0,0,0,1,1], [1,1,0,0,0,1,1], [1,1,0,0,0,1,1], [1, ...

  8. junit源码解析--核心类

    JUnit 的概念及用途 JUnit 是由 Erich Gamma 和 Kent Beck 编写的一个开源的单元测试框架.它属于白盒测试,只要将待测类继承 TestCase 类,就可以利用 JUnit ...

  9. 输入和输出--javase中的路径

    就目前为止, javase中经常用到路径来读取一个资源文件的所有情况都已经整理在博客里面了,这里做一个统一的整理: 1,IO流来读取一个文件,比如说new FileInputStream(" ...

  10. php中urldecode()和urlencode()起什么作用

    urlencode()函数原理就是首先把中文字符转换为十六进制,然后在每个字符前面加一个标识符%.urldecode()函数与urlencode()函数原理相反,用于解码已编码的 URL 字符串,其原 ...