小白学 Python 数据分析（2）：Pandas （一）概述

人生苦短，我用 Python

前文传送门：

小白学 Python 数据分析（1）：数据分析基础

概览

首先还是几个官方链接放一下：

Pandas 官网：https://pandas.pydata.org/

Pandas 中文网：https://www.pypandas.cn/

Pandas Github：https://github.com/pandas-dev/pandas

先介绍一下 Pandas ，在中文网上是这么描述的：

Pandas 是 Python 的核心数据分析支持库，提供了快速、灵活、明确的数据结构，旨在简单、直观地处理关系型、标记型数据。Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具，其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。经过多年不懈的努力，Pandas 离这个目标已经越来越近了。

总结一下，就是 Python 数据分析离不开 Pandas ， Pandas 已经上升成为 Python 的数据分析的支持库了。

那么 Pandas 所适用的数据类型如下：

与 SQL 或 Excel 表类似的，含异构列的表格数据;
有序和无序（非固定频率）的时间序列数据;
带行列标签的矩阵数据，包括同构或异构型数据;
任意其它形式的观测、统计数据集, 数据转入 Pandas 数据结构时不必事先标记。

Pandas 有两种常用的数据结构，一个是 Series （一维数据），另一个是 DataFrame （二维数据）。两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。

那么什么是一维数据什么是二维数据呢？

简单理解下，如果我们有一个数组，如下：

[1, 2, 3, 4, 5]

这个数组可以称为一维数据。

那么二维数据是多个一维数据组成了一个二维数据，比如多个一维数组，如下：

[[1, 2, 3, 4, 5],

[1, 2, 3, 4, 5],

[1, 2, 3, 4, 5],

[1, 2, 3, 4, 5]]

这种数据也可以称之为表格数据，既然是表格数据，那么就会有表头，可以参考 Excel ，如果有数据库使用经验的同学可以直接参考数据库中的表。

Pandas 是基于 Numpy 开发而成的，可以与其它第三方科学计算支持库完美集成。

Pandas 的优势如下：

处理浮点与非浮点数据里的缺失数据，表示为 NaN；
大小可变：插入或删除 DataFrame 等多维对象的列；
自动、显式数据对齐：显式地将对象与一组标签对齐，也可以忽略标签，在 Series、DataFrame 计算时自动与数据对齐；
强大、灵活的分组（group by）功能：拆分-应用-组合数据集，聚合、转换数据；
把 Python 和 NumPy 数据结构里不规则、不同索引的数据轻松地转换为 DataFrame 对象；
基于智能标签，对大型数据集进行切片、花式索引、子集分解等操作；
直观地合并（merge）、连接（join）数据集；
灵活地重塑（reshape）、透视（pivot）数据集；
轴支持结构化标签：一个刻度支持多个标签；
成熟的 IO 工具：读取文本文件（CSV 等支持分隔符的文件）、Excel 文件、数据库等来源的数据，利用超快的 HDF5 格式保存 / 加载数据；
时间序列：支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能。

这些功能主要是为了解决其它编程语言、科研环境的痛点。处理数据一般分为几个阶段：数据整理与清洗、数据分析与建模、数据可视化与制表，Pandas 是处理数据的理想工具。

其它说明：

Pandas 速度很快。Pandas 的很多底层算法都用 Cython 优化过。然而，为了保持通用性，必然要牺牲一些性能，如果专注某一功能，完全可以开发出比 Pandas 更快的专用工具。
Pandas 是 statsmodels （ statsmodels 是 python 中处理统计学问题的重要模块）的依赖项，因此，Pandas 也是 Python 中统计计算生态系统的重要组成部分。
Pandas 已广泛应用于金融领域。

什么是 Cython ？

C 语言是编译性语言，而 Python 则是解释性语言，简而言之，就是 Python 运行是逐行运行，不需要实现编译，而 C 需要在运行前编译。那么，可想而知，如果运行前，需要事先编译，那么其实有一种「上帝视角」的感觉，自然可以做很多优化，让代码运行的更快。而 Cython 的出现就是这个目的，让 Python 也可以被编译，然后执行。 Cython 是一种部分包含和改变 C 语言，以及完全包含 Python 语言的一个语言集合。 Cython 是用 Python 实现的一种语言，可以用来写 Python 扩展，用它写出来的库都可以通过 import 来载入，性能上比 Python 的快。 Cython 里可以载入 Python 扩展(比如 import math)，也可以载入 C 的库的头文件(比如:cdef extern from “math.h”)，另外也可以用它来写 Python 代码。将关键部分重写成 C 扩展模块。 Cython 中的强大之处在于可以把 Python 和 C 结合起来，它使得看起来像 Python 语言的 Cython 代码有着和 C 相似的运行速度。

Pandas 通过这种方式保持了自己的运行速度。

安装

Pandas 的安装比较简单，使用一句命令，如下：

pip install Pandas

如果看到如下显示证明安装成功：

Looking in indexes: https://mirrors.aliyun.com/pypi/simple/

Collecting Pandas

  Downloading https://mirrors.aliyun.com/pypi/packages/02/d0/1e8e60e61e748338e3a40e42f5dfeee63ccdecfc4f0894122b890bfb009a/pandas-0.25.3-cp37-cp37m-win_amd64.whl (9.2MB)

     |████████████████████████████████| 9.2MB 6.4MB/s

Requirement already satisfied: pytz>=2017.2 in c:\users\inwsy\appdata\local\programs\python\python37\lib\site-packages (from Pandas) (2019.2)

Collecting python-dateutil>=2.6.1

  Downloading https://mirrors.aliyun.com/pypi/packages/d4/70/d60450c3dd48ef87586924207ae8907090de0b306af2bce5d134d78615cb/python_dateutil-2.8.1-py2.py3-none-any.whl (227kB)

     |████████████████████████████████| 235kB 6.4MB/s

Collecting numpy>=1.13.3

  Downloading https://mirrors.aliyun.com/pypi/packages/a9/38/f6d6d8635d496d6b4ed5d8ca4b9f193d0edc59999c3a63779cbc38aa650f/numpy-1.18.1-cp37-cp37m-win_amd64.whl (12.8MB)

     |████████████████████████████████| 12.8MB 6.4MB/s

Requirement already satisfied: six>=1.5 in c:\users\inwsy\appdata\roaming\python\python37\site-packages (from python-dateutil>=2.6.1->Pandas) (1.12.0)

Installing collected packages: python-dateutil, numpy, Pandas

Successfully installed Pandas-0.25.3 numpy-1.18.1 python-dateutil-2.8.1

从安装的日志中可以看到，这里并是不只安装 Pandas ，而是顺带安装了 Numpy 和 Python-Dateutil ，因为这两个库是 Pandas 的依赖库，实际上， Pandas 的依赖库不止这两个，官方推荐的依赖库具体如下：

Package	最低支持版本
setuptools	24.2.0
NumPy	1.13.3
python-dateutil	2.6.1
pytz	2017.2

这里要注意一点，官方强烈建议我们安装这些库，因为这些库可以提高处理速度，尤其是在处理大型数据集时。

Pandas 还有许多可选的依赖库，仅用于特定的方法。例如，pandas.read_hdf() 需要pytables包。如果未安装可选依赖项，则在调用需要该依赖项的方法时，pandas将引发ImportError。

依赖名称	最低版本	注意
BeautifulSoup4	4.6.0	HTML parser for read_html (see note)
Jinja2		Conditional formatting with DataFrame.style
PyQt4		Clipboard I/O
PyQt5		Clipboard I/O
PyTables	3.4.2	HDF5-based reading / writing
SQLAlchemy	1.1.4	SQL support for databases other than sqlite
SciPy	0.19.0	Miscellaneous statistical functions
XLsxWriter	0.9.8	Excel writing
blosc		Compression for msgpack
fastparquet	0.2.1	Parquet reading / writing
gcsfs	0.2.2	Google Cloud Storage access
html5lib		HTML parser for read_html (see note)
lxml	3.8.0	HTML parser for read_html (see note)
matplotlib	2.2.2	Visualization
openpyxl	2.4.8	Reading / writing for xlsx files
pandas-gbq	0.8.0	Google Big Query access
psycopg2		PostgreSQL engine for sqlalchemy
pyarrow	0.9.0	Parquet and feather reading / writing
pymysql	0.7.11	MySQL engine for sqlalchemy
pyreadstat		SPSS files (.sav) reading
pytables	3.4.2	HDF5 reading / writing
qtpy		Clipboard I/O
s3fs	0.0.8	Amazon S3 access
xarray	0.8.2	pandas-like API for N-dimensional data
xclip		Clipboard I/O on linux
xlrd	1.1.0	Excel reading
xlwt	1.2.0	Excel writing
xsel		Clipboard I/O on linux
zlib		Compression for msgpack

参考

https://blog.csdn.net/mou_it/article/details/81876879

https://www.pypandas.cn/docs/installation.html

https://www.pypandas.cn/docs/getting_started/overview.html

小白学 Python 数据分析（2）：Pandas （一）概述的更多相关文章

小白学 Python 数据分析（3）：Pandas （二）数据结构 Series
在家为国家做贡献太无聊,不如跟我一起学点 Python 顺便问一下,你们都喜欢什么什么样的文章封面图,老用这一张感觉有点丑人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析( ...
小白学 Python 数据分析（4）：Pandas （三）数据结构 DataFrame
在家为国家做贡献太无聊,不如跟我一起学点 Python 人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Panda ...
小白学 Python 数据分析（5）：Pandas （四）基础操作（1）查看数据
在家为国家做贡献太无聊,不如跟我一起学点 Python 人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Panda ...
小白学 Python 数据分析（6）：Pandas （五）基础操作（2）数据选择
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...
小白学 Python 数据分析（7）：Pandas （六）数据导入
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...
小白学 Python 数据分析（8）：Pandas （七）数据预处理
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...
小白学 Python 数据分析（9）：Pandas （八）数据预处理（2）
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...
小白学 Python 数据分析（10）：Pandas （九）数据运算
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...
小白学 Python 数据分析（11）：Pandas （十）数据分组
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...

随机推荐

20191121-9 Scrum立会报告+燃尽图 05
此作业要求参见:https://edu.cnblogs.com/campus/nenu/2019fall/homework/10069 一: 组名:组长组组长:杨天宇组员:魏新罗杨美慧王歆 ...
洛谷$P3959\ [NOIp2017]$ 宝藏状压$dp$
正解:状压$dp$ 解题报告: 传送门$QwQ$ $8102$年的时候就想搞这题了,,,$9102$了$gql$终于开始做这题了$kk$ 发现有意义的状态只有当前选的点集和深度,所以设$f_{i,j} ...
使用阿里云 ECS 快速部署 WordPress 博客系统
今天在阿里云 ECS上部署了一套 Lamp 系统,建了一个WordPress的网站,把操作过程记录下来,文中所列脚本可以直接应用. 废话不多说直接开动,ECS云服务购买可以点击阿里云ECS 云主 ...
Java环境准备
电脑重装系统了,所以需要重新配置环境变量. 首先必备工具:jak.eclipse.maven.tomcat 首先配置Java运行环境. 在系统环境变量中新建变量JAVA_HOME:jdk所在的路径,P ...
CentOS7设置静态IP以及windows下ping不通虚拟机、虚拟机ping不通外网解决方案
问题:CentOS7安装完成后默认使用的是动态IP,当你每次重新启动CentOS7后,它的IP地址都不一样.一般我们都是使用远程连接工具连接CentOS7进行操作,如果每次IP都不一样,系统启动后,每 ...
Windows系统下批处理快速创建WIFI
为什么要用cmd这种古老的东西创建wifi呢,电脑管家.360安全卫士都有这种插件,一键开启关闭,多方便啊! 开始用的也是电脑管家的免费wifi插件,但是我越来越不能忍它极慢的启动关闭过程,每一次看着 ...
MySQL快速回顾：更新和删除操作
前提要述:参考书籍<MySQL必知必会> 6.1 更新数据为了更新(修改)表中的数据,可使用UPDATE语句.可采用两种方式使用UPDATE: 更新表中特定的行: 更新表中所有的行. U ...
2019-2020春江云暖你先知，CAE/EDA/高校等CloudHPC领域年均复合增长率超21%
原创: 灵魂工作室速石科技我猜,我们是最早和你说春天来了的人. 一年前,我们还在小心谨慎地定义着Cloud HPC,一脸娇羞地拿Novartis 诺华制药在5年前做的案例当作标杆. 不久前,Hyp ...
“土法炮制”之 OOM框架
一.什么是OOM框架? OOM 的全拼是 Object-Object-Map,意思是对象与对象之间的映射,OOM框架要解决的问题就是对象与对象之间数据的自动映射. 举一个具体的例子:用过MVC模式开发 ...
K8S基于ingress-nginx实现灰度发布
之前介绍过使用ambassador实现灰度发布,今天介绍如何使用ingre-nginx实现. 介绍 Ingress-Nginx 是一个K8S ingress工具,支持配置 Ingress Annota ...

小白学 Python 数据分析（2）：Pandas （一）概述

概览

安装

参考

小白学 Python 数据分析（2）：Pandas （一）概述的更多相关文章

随机推荐

热门专题