(数据科学学习手札163)ibis:极具潜力的Python数据分析框架
本文完整代码及附件已上传至我的
Github
仓库https://github.com/CNFeffery/DataScienceStudyNotes
1 简介
大家好我是费老师,今天要给大家介绍的Python
框架叫做ibis
,没错,跟著名连锁酒店宜必思同名,其作者是创造了pandas
、Arrow
等著名框架的Wes McKinney。
ibis
的核心理念是用同一套数据框操作API,统一操纵各种主流的数据运算框架,使得用户可以更轻松更一致的构建自己的数据分析处理过程,而不是囿于不同框架之间千差万别的用法,下面我们就来一起学习其基础用法~
2 ibis基础用法介绍
2.1 ibis的安装
为了方便演示,我们这里使用conda
或mamba
创建新的虚拟环境,来安装试用ibis
,以mamba
为例,在终端中执行下列命令,完成演示用虚拟环境的创建及激活,并安装ibis
最基础的相关模块+示例数据集模块:
mamba create -n ibis-demo python=3.9 -y
mamba activate ibis-demo
pip install ibis-framework[duckdb,examples]
验证是否安装成功:
python -c "import ibis;print(ibis.__version__)"
可以看到,我们完成了对ibis
的安装,当前版本为9.0.0
:
2.2 ibis主要功能
2.2.1 构建具有便携性的分析逻辑
ibis
本身不直接执行分析计算,当我们针对目标数据编写好对应计算逻辑的ibis
代码后,实际执行时其底层会将计算逻辑自动转换到当前的计算后端中。目前ibis
支持超过20种计算后端,均为当前单机分析、分布式分析领域的主流框架:
这使得基于ibis
构建的数据分析工作流,可以在不修改代码的情况下,轻松扩展应用于任意的计算后端。
譬如,ibis
默认使用DuckDB
作为后端进行单机分析运算,你可以在本机上使用部分数据构建并验证业务分析逻辑后,再套用相同的代码,切换计算后端到诸如ClickHouse
上执行分布式运算,这一特性也是ibis
便携性的体现。
举个简单的例子,首先我们基于pandas
生成具有一千万行记录的示例数据并导出为parquet
格式:
import numpy as np
import pandas as pd
# 生成测试用数据并导出为parquet格式
(
pd
.DataFrame(
{
'类别': np.random.choice(list('abcdef'), 10000000),
'数值': np.random.uniform(0, 100, 10000000)
}
)
.assign(数值=lambda df: df['数值'].round(3))
.to_parquet('demo.parquet')
)
接下来我们先使用默认的DuckDB
后端,在ibis
中执行一些示例运算,注意其运算耗时:
接着,我们切换计算后端为pandas
,执行完全一样的计算代码,可以看到计算耗时陡增,毕竟pandas
处理上千万行数据性能要远逊于DuckDB
,这个例子体现出ibis
强大的代码便携性:
2.2.2 充分搭配Python与SQL
ibis
中另一个非常强大的功能,是其可以充分结合Python
代码和SQL
代码来开展分析工作,譬如,你可以将ibis
分析代码直接转换为SQL
语句:
也可以直接执行SQL
语句开展分析:
这使得ibis
可以充分联结各类最先进的计算后端,帮助分析师轻松维护业务分析逻辑。
无论你原先在使用pandas
、SQL
还是R
进行数据分析,ibis
官网文档中都提供了非常友好的使用指南,确保你可以无痛的迁移使用ibis
:
ibis
正处于高速迭代发展阶段,其代码仓库几乎每天都在进行新的提交活动,欢迎进行支持:https://github.com/ibis-project/ibis
更多相关内容,请移步其官网学习更多:https://ibis-project.org/
以上就是本文的全部内容,欢迎在评论区与我们进行讨论~
(数据科学学习手札163)ibis:极具潜力的Python数据分析框架的更多相关文章
- (数据科学学习手札08)系统聚类法的Python源码实现(与Python,R自带方法进行比较)
聚类分析是数据挖掘方法中应用非常广泛的一项,而聚类分析根据其大体方法的不同又分为系统聚类和快速聚类,其中系统聚类的优点是可以很直观的得到聚类数不同时具体类中包括了哪些样本,而Python和R中都有直接 ...
- (数据科学学习手札55)利用ggthemr来美化ggplot2图像
一.简介 R中的ggplot2是一个非常强大灵活的数据可视化包,熟悉其绘图规则后便可以自由地生成各种可视化图像,但其默认的色彩和样式在很多时候难免有些过于朴素,本文将要介绍的ggthemr包专门针对原 ...
- (数据科学学习手札50)基于Python的网络数据采集-selenium篇(上)
一.简介 接着几个月之前的(数据科学学习手札31)基于Python的网络数据采集(初级篇),在那篇文章中,我们介绍了关于网络爬虫的基础知识(基本的请求库,基本的解析库,CSS,正则表达式等),在那篇文 ...
- (数据科学学习手札49)Scala中的模式匹配
一.简介 Scala中的模式匹配类似Java中的switch语句,且更加稳健,本文就将针对Scala中模式匹配的一些基本实例进行介绍: 二.Scala中的模式匹配 2.1 基本格式 Scala中模式匹 ...
- (数据科学学习手札47)基于Python的网络数据采集实战(2)
一.简介 马上大四了,最近在暑期实习,在数据挖掘的主业之外,也帮助同事做了很多网络数据采集的内容,接下来的数篇文章就将一一罗列出来,来续写几个月前开的这个网络数据采集实战的坑. 二.马蜂窝评论数据采集 ...
- (数据科学学习手札44)在Keras中训练多层感知机
一.简介 Keras是有着自主的一套前端控制语法,后端基于tensorflow和theano的深度学习框架,因为其搭建神经网络简单快捷明了的语法风格,可以帮助使用者更快捷的搭建自己的神经网络,堪称深度 ...
- (数据科学学习手札42)folium进阶内容介绍
一.简介 在上一篇(数据科学学习手札41)中我们了解了folium的基础内容,实际上folium在地理信息可视化上的真正过人之处在于其绘制图像的高度可定制化上,本文就将基于folium官方文档中的一些 ...
- (数据科学学习手札40)tensorflow实现LSTM时间序列预测
一.简介 上一篇中我们较为详细地铺垫了关于RNN及其变种LSTM的一些基本知识,也提到了LSTM在时间序列预测上优越的性能,本篇就将对如何利用tensorflow,在实际时间序列预测任务中搭建模型来完 ...
- (数据科学学习手札36)tensorflow实现MLP
一.简介 我们在前面的数据科学学习手札34中也介绍过,作为最典型的神经网络,多层感知机(MLP)结构简单且规则,并且在隐层设计的足够完善时,可以拟合任意连续函数,而除了利用前面介绍的sklearn.n ...
- (数据科学学习手札32)Python中re模块的详细介绍
一.简介 关于正则表达式,我在前一篇(数据科学学习手札31)中已经做了详细介绍,本篇将对Python中自带模块re的常用功能进行总结: re作为Python中专为正则表达式相关功能做出支持的模块,提供 ...
随机推荐
- url编码和解码分析URLEncoder.encode和URLDecoder.decode
url编码和解码分析 1.Get请求会将参数做默认的url解码操作,接口接收到的值是Get解码后的值.2.可以将Get操作修改成Post操作,这样不会url解码.可以在接口中做url解码.3.在多次传 ...
- .Net Core+NPOI快速导入导出Excel
Excel导入导出在开发中是非常常见的,对Excel操作,NPOI使用的是最常用的,但单单用NPOI,要写得代码还是比较多的,可以借助一个Npoi.Mapper库,操作起来就非常简单了,十来行代码就可 ...
- 关于java时间类型和格式化到微秒问题
常规的问题此处略,因为网络上到处都是,这里主要讨论三个问题: 1.数据库的时间戳类型(含微秒)对应java的什么类型 java的常见时间类型比较多: java.util.Date java.sql.D ...
- Java模拟高并发测试
线程类,设置有一个公共资源 package cn.org.chris.concurrent; import java.util.concurrent.locks.Lock; import java.u ...
- k8s实战 ---- pod 基础
如果你对k8s还不了解,可以看下前文 k8s 实战 1 ---- 初识 (https://www.cnblogs.com/jilodream/p/18245222) 什么是pod,pod在 ...
- windows下rust环境的安装(现在是2023年5月份)
在自己家电脑上安装一下rust,还是遇到一些问题,这里记录一下,免得后面再踩坑. 官方网站 获取主要信息还得靠官网,比如安装软件:) 地址是 https://www.rust-lang.org/zh- ...
- P8451 题解
显然,题面明摆着让你写一个可持久化 AC 自动机. 但是从空间来说这是不可能的. 想起做 不强制在线 的可持久化数据结构的一种方法,建立"时光树",具体来说,假若版本 \(x\) ...
- ubuntu16.04 python2&3 pip升级后报错:sys.stderr.write(f"ERROR: {exc}")
ubuntu16.04 python2&3 pip升级后报错: sys.stderr.write(f"ERROR: {exc}") 描述 最近使用ubuntu16.04上的 ...
- C# 日期帮助类
using System; using System.Data; namespace Erp.Ship.Tool { [Serializable] public enum DateInterval { ...
- 基于Java+SpringBoot+Vue宠物咖啡馆平台设计和实现
\n文末获取源码联系 感兴趣的可以先收藏起来,大家在毕设选题,项目以及论文编写等相关问题都可以给我加好友咨询 系统介绍: 随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实施在技术上已逐步成 ...