本文完整代码及附件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes

1 简介

　　大家好我是费老师，今天要给大家介绍的Python框架叫做ibis，没错，跟著名连锁酒店宜必思同名，其作者是创造了pandas、Arrow等著名框架的Wes McKinney。

　　ibis的核心理念是用同一套数据框操作API，统一操纵各种主流的数据运算框架，使得用户可以更轻松更一致的构建自己的数据分析处理过程，而不是囿于不同框架之间千差万别的用法，下面我们就来一起学习其基础用法~

2 ibis基础用法介绍

2.1 ibis的安装

　　为了方便演示，我们这里使用conda或mamba创建新的虚拟环境，来安装试用ibis，以mamba为例，在终端中执行下列命令，完成演示用虚拟环境的创建及激活，并安装ibis最基础的相关模块+示例数据集模块：

mamba create -n ibis-demo python=3.9 -y

mamba activate ibis-demo

pip install ibis-framework[duckdb,examples]

　　验证是否安装成功：

python -c "import ibis;print(ibis.__version__)"

　　可以看到，我们完成了对ibis的安装，当前版本为9.0.0：

2.2 ibis主要功能

2.2.1 构建具有便携性的分析逻辑

　　ibis本身不直接执行分析计算，当我们针对目标数据编写好对应计算逻辑的ibis代码后，实际执行时其底层会将计算逻辑自动转换到当前的计算后端中。目前ibis支持超过20种计算后端，均为当前单机分析、分布式分析领域的主流框架：

　　这使得基于ibis构建的数据分析工作流，可以在不修改代码的情况下，轻松扩展应用于任意的计算后端。

　　譬如，ibis默认使用DuckDB作为后端进行单机分析运算，你可以在本机上使用部分数据构建并验证业务分析逻辑后，再套用相同的代码，切换计算后端到诸如ClickHouse上执行分布式运算，这一特性也是ibis便携性的体现。

　　举个简单的例子，首先我们基于pandas生成具有一千万行记录的示例数据并导出为parquet格式：

import numpy as np

import pandas as pd

# 生成测试用数据并导出为parquet格式

(

    pd

    .DataFrame(

        {

            '类别': np.random.choice(list('abcdef'), 10000000),

            '数值': np.random.uniform(0, 100, 10000000)

        }

    )

    .assign(数值=lambda df: df['数值'].round(3))

    .to_parquet('demo.parquet')

)

　　接下来我们先使用默认的DuckDB后端，在ibis中执行一些示例运算，注意其运算耗时：

　　接着，我们切换计算后端为pandas，执行完全一样的计算代码，可以看到计算耗时陡增，毕竟pandas处理上千万行数据性能要远逊于DuckDB，这个例子体现出ibis强大的代码便携性：

2.2.2 充分搭配Python与SQL

　　ibis中另一个非常强大的功能，是其可以充分结合Python代码和SQL代码来开展分析工作，譬如，你可以将ibis分析代码直接转换为SQL语句：

　　也可以直接执行SQL语句开展分析：

　　这使得ibis可以充分联结各类最先进的计算后端，帮助分析师轻松维护业务分析逻辑。

　　无论你原先在使用pandas、SQL还是R进行数据分析，ibis官网文档中都提供了非常友好的使用指南，确保你可以无痛的迁移使用ibis：

　　ibis正处于高速迭代发展阶段，其代码仓库几乎每天都在进行新的提交活动，欢迎进行支持：https://github.com/ibis-project/ibis

　　更多相关内容，请移步其官网学习更多：https://ibis-project.org/

　　以上就是本文的全部内容，欢迎在评论区与我们进行讨论~

（数据科学学习手札163）ibis：极具潜力的Python数据分析框架的更多相关文章

（数据科学学习手札08）系统聚类法的Python源码实现（与Python，R自带方法进行比较）
聚类分析是数据挖掘方法中应用非常广泛的一项,而聚类分析根据其大体方法的不同又分为系统聚类和快速聚类,其中系统聚类的优点是可以很直观的得到聚类数不同时具体类中包括了哪些样本,而Python和R中都有直接 ...
（数据科学学习手札55）利用ggthemr来美化ggplot2图像
一.简介 R中的ggplot2是一个非常强大灵活的数据可视化包,熟悉其绘图规则后便可以自由地生成各种可视化图像,但其默认的色彩和样式在很多时候难免有些过于朴素,本文将要介绍的ggthemr包专门针对原 ...
（数据科学学习手札50）基于Python的网络数据采集-selenium篇（上）
一.简介接着几个月之前的(数据科学学习手札31)基于Python的网络数据采集(初级篇),在那篇文章中,我们介绍了关于网络爬虫的基础知识(基本的请求库,基本的解析库,CSS,正则表达式等),在那篇文 ...
（数据科学学习手札49）Scala中的模式匹配
一.简介 Scala中的模式匹配类似Java中的switch语句,且更加稳健,本文就将针对Scala中模式匹配的一些基本实例进行介绍: 二.Scala中的模式匹配 2.1 基本格式 Scala中模式匹 ...
（数据科学学习手札47）基于Python的网络数据采集实战（2）
一.简介马上大四了,最近在暑期实习,在数据挖掘的主业之外,也帮助同事做了很多网络数据采集的内容,接下来的数篇文章就将一一罗列出来,来续写几个月前开的这个网络数据采集实战的坑. 二.马蜂窝评论数据采集 ...
（数据科学学习手札44）在Keras中训练多层感知机
一.简介 Keras是有着自主的一套前端控制语法,后端基于tensorflow和theano的深度学习框架,因为其搭建神经网络简单快捷明了的语法风格,可以帮助使用者更快捷的搭建自己的神经网络,堪称深度 ...
（数据科学学习手札42）folium进阶内容介绍
一.简介在上一篇(数据科学学习手札41)中我们了解了folium的基础内容,实际上folium在地理信息可视化上的真正过人之处在于其绘制图像的高度可定制化上,本文就将基于folium官方文档中的一些 ...
（数据科学学习手札40）tensorflow实现LSTM时间序列预测
一.简介上一篇中我们较为详细地铺垫了关于RNN及其变种LSTM的一些基本知识,也提到了LSTM在时间序列预测上优越的性能,本篇就将对如何利用tensorflow,在实际时间序列预测任务中搭建模型来完 ...
（数据科学学习手札36）tensorflow实现MLP
一.简介我们在前面的数据科学学习手札34中也介绍过,作为最典型的神经网络,多层感知机(MLP)结构简单且规则,并且在隐层设计的足够完善时,可以拟合任意连续函数,而除了利用前面介绍的sklearn.n ...
（数据科学学习手札32）Python中re模块的详细介绍
一.简介关于正则表达式,我在前一篇(数据科学学习手札31)中已经做了详细介绍,本篇将对Python中自带模块re的常用功能进行总结: re作为Python中专为正则表达式相关功能做出支持的模块,提供 ...

随机推荐

AI赋能ITSM：企业运维跃迁之路
随着企业信息化建设的深入,IT运维管理作为保证企业信息系统稳定运行的重要工作,越来越受到重视. 那么,什么是IT运维呢? 简单地说,IT运维是一系列维护.管理和优化企业IT基础设施.系统和应用程序的活 ...
深入了解 C# Span：高性能内存操作的利器
深入了解 C# Span:高性能内存操作的利器在 C# 7.2 中引入的 Span<T> 类型为我们提供了一种高效且安全地对内存进行操作的方式.Span<T> 是一个轻量级的 ...
parsel的使用
介绍 parsel这个库可以解析HTML和XML,并支持使用XPath和CSS选择器对内容进行提取和修改,同时还融合了正则表达式的提取功能.parsel灵活强大,同时也是Python最流行的爬虫框架的 ...
python selenium使用无头模式执行用例
什么是无头模式? Headless Browser模式是浏览器的无界面状态,即在不打开浏览器界面的情况下使用浏览器. 该模式的好处如下: 1)可以加快web自动化测试的执行时间,对于web自动化测试, ...
readhat8搭建SFTP双机高可用并配置Rsync数据实时同步
环境准备: 主机 host-61-118 : 192.168.61.118 host-61-119:192.168.61.119 vip:192.168.61.220 检测openssh版本,版本必须 ...
Linux 使用 Swap分区
Linux 使用 Swap分区背景买的云服务器在使用的时候,资源经常不够,因此需要使用swap分区. Swap分区在系统的物理内存不够用的时候,把硬盘内存中的一部分空间释放出来,以供当前运行的程序 ...
Cush：从辞职自学编程到被 Apple、PriceTag推荐
名字:Cush 开发者 / 团队:ShaSha 平台:iOS.macOS 请简要介绍下这款产品也许你听过记账可以帮助省钱,但总是浅尝辄止? 快试试 Cush!它精简了记账中所有复杂繁琐的步骤,简单精 ...
安装phpgjx工具
直接按照phpgjx配置文件进行安装. 重启mysql和访问phpgjx都会生成配置的日志文件按照文档安装可能日志文件中不会产生SQL记录解决方案: 可以进入mysql后,查看该日志是否开启 / ...
从基础到高级应用，详解用Python实现容器化和微服务架构
本文分享自华为云社区<Python微服务与容器化实践详解[从基础到高级应用]>,作者: 柠檬味拥抱. Python中的容器化和微服务架构实践在现代软件开发中,容器化和微服务架构已经成为主 ...
[项目自荐] 交叉编译njs并使用Nginx搭建自由的个人网盘：vList5
这个博客好久没有打理了,最近才想起来这篇文章是以下 5 篇文章的组合,希望这个免费的项目能实现他的初衷吧 vList5:部署指南 vList5.3 全面加密,从我做起 njs 从入门(交叉编译)到入 ...

（数据科学学习手札163）ibis：极具潜力的Python数据分析框架