基于Colab Pro & Google Drive的Kaggle实战
原文:https://hippocampus-garden.com/kaggle_colab/
原文标题:How to Kaggle with Colab Pro & Google Drive
译文作者:kbsc13
联系方式:
Github:https://github.com/ccc013/AI_algorithm_notes
知乎专栏:机器学习与计算机视觉,AI 论文笔记
微信公众号:AI 算法笔记

前言
Colab Pro(目前仅在美国、加拿大、日本、巴西、德国、法国、印度、英国和泰国可用)提供了随时可用和加速但是维护起来既昂贵又繁琐的云计算资源。和其免费版不同,Colab Pro 允许用户使用 TPUs 和高端的 GPUs,比如 V100 和 P100 等等,可以访问高内存的实例,并且保持 notebooks 运行的时间最长可以达到 24 小时,费用是每个月 10 美元。
Colab Pro可以满足 Kaggle 竞赛中大部分比赛的资源要求。但是这里存在一个问题,每个会话只能保持 24 小时。每次都需要准备数据集,根据准备的方式,这需要一些时间。在下面的表格中,从初始化加载和磁盘读写的时间来对比 5 种准备 Kaggle 数据集的方法:

不幸的是,根据上述表格并没有看到两个方式都很快速的方法。考虑到我们更想要的是在数据集上通过多次迭代的训练模型,快速的磁盘读写的速度是更加重要。在目前的状况下,我会选择第三个方法:首先通过 Kaggle API 下载数据集,并以 zip 压缩包形式保存在 Google 硬盘上,当开始会话的时候,解压缩并存放到实例的磁盘上。这个操作过程将在下一节中一步步的解释。
Kaggle on Colab Pro
下载数据集到 Google 硬盘上
首先,需要通过 Kaggle API 下载数据集,并以 zip 压缩包形式保存在 Google 硬盘上,具体步骤如下所示:
登录到 https://www.kaggle.com/<YourKaggleID>/account,然后下载kaggle.json

在Google 硬盘上创建一个名字为 kaggle的文件夹,然后上传kaggle.json开始一个 Colab 的会话 通过点击右上角的图标来挂载 Google 硬盘,如下图所示 

从 Google 硬盘里复制 kaggle.json到当前会话,并修改文件的权限,命令如下所示:
! mkdir -p ~/.kaggle
! cp ./drive/MyDrive/kaggle/kaggle.json ~/.kaggle/
! chmod 600 ~/.kaggle/kaggle.json
(可选)升级 Kaggle API。这个包是预安装在 Colab 的实例上的,不过在 2021 年 5 月份,Kaggle notebooks 的版本是更新了,两个版本是有些不一样的。 
! pip install -U kaggle
通过 Kaggle API 下载数据集到 Google 硬盘上,这可能会花点时间完成并且在 Google 硬盘界面上显示出来也需要几分钟。 
! mkdir -p ./drive/MyDrive/kaggle/<CompetitionID>
! kaggle competitions download -c <CompetitionID> -p ./drive/MyDrive/kaggle/<CompetitionID>
你也可以升级你的 Google 硬盘计划来获取更多的存储空间。
解压缩文件到实例上
解压缩文件到当前会话中,命令如下所示,这一步也需要花费一些时间:
! mkdir -p <CompetitionID>
! unzip -q ./drive/MyDrive/kaggle/<CompetitionID>.zip -d <CompetitionID>
# You can specify the portion of dataset for saving time and disk space
! unzip -q ./drive/MyDrive/kaggle/<CompetitionID>.zip train/* -d <CompetitionID>
这就可以开始训练模型了。完成训练后,可以将权重文件导出到Kaggle数据集,并通过Kaggle API提交预测,对于完整的教程,可以参考 https://github.com/Kaggle/kaggle-api。
速度比较
从Google 硬盘压缩需要很长的时间,这种方法是真的比直接通过 Kaggle API 或者 gsutil 下载要更快吗?为了回答这个问题,我准备了房价预测竞赛(https://www.kaggle.com/c/house-prices-advanced-regression-techniques/)的数据集,大约是 935KB,并测试这 3 种方法的解压缩时间,结果如下所示:

上述结果可能会受到实例所在区域而有些影响,但是大部分情况下,从 Google 硬盘上解压缩还是最快的方法。
注意磁盘大小
Colab Pro 目前提供一个 150GB 大小的磁盘,所以压缩文件不能超过 75GB。
是否可以挂载外部存储器呢?
挂载谷歌云存储桶(Mounting Google Cloud Storage Buckets)
Colab 可以挂载 Google 云存储磁盘,并在不用下载的情况下访问 Kaggle 的数据集。其操作有几个步骤,首先,通过下述代码授权你的账户:
from google.colab import auth
auth.authenticate_user()
接着,安装 gcsfuse :
! echo "deb http://packages.cloud.google.com/apt gcsfuse-bionic main" > /etc/apt/sources.list.d/gcsfuse.list
! curl https://packages.cloud.google.com/apt/doc/apt-key.gpg | apt-key add -
! apt update
! apt install gcsfuse
然后,打开一个你喜欢的竞赛项目的 Kaggle 的 notebook,然后运行下面的代码获取 GCS (Google Cloud Storage)的路径:
from kaggle_datasets import KaggleDatasets
print(KaggleDatasets().get_gcs_path())
比如房价预测竞赛House Prices - Advanced Regression Techniques,其得到的结果如下:
gs://kds-ecc57ad1aae587b0e86e3b9422baab9785fc1220431f0b88e5327ea5
现在就可以通过 gcsfuse 来挂载 GCS:
! mkdir -p <CompetitionID>
! gcsfuse  --implicit-dirs --limit-bytes-per-sec -1 --limit-ops-per-sec -1 <GCSPath without gs://> <CompetitionID>
通过上述命令进行挂载,1s 内即可完成。但当你开始尝试在数据集上进行迭代操作的时候,你会发现磁盘访问速度是非常的慢。访问速度是依赖于 Colab 实例和 GCS 桶 所在的区域,但一般来说,应该避免这种挂载操作。
可以通过以下方式获取Colab实例的区域信息:
! curl ipinfo.io
GCS 桶的区域信息本来是可以通过下述命令获取的,但是我这边提示 AccessDeniedException 异常错误,并且无法解决。
! gsutil ls -Lb gs://kds-ecc57ad1aae587b0e86e3b9422baab9785fc1220431f0b88e5327ea5
挂载 Google D磁盘
这种方法的磁盘访问速度太慢了!
总结
使用 Colab Pro 是能够用到更好的显卡,比如 TPU,或者 P100,V100 这个级别的 GPU,当然这是一个付费版本,每个月需要花费 10 美元,而且每次会话运行时间最长只有 24 小时,所以如果训练模型时间太久,就需要多次运行会话,这就导致需要重新加载数据集和读取上次训练保存的权重文件。
因此为了最大化利用 Colab Pro 的时间,当然就希望减少加载数据集的时间,本文作者基于这个思路,对比了 5 种方法,最后是根据实际情况,即主要是训练模型,对磁盘读取速度要求更高,所以选择了在 Google 磁盘上解压缩文件到 Kaggle 实例上的方法,并给出了操作流程,然后还研究了是否可以通过挂载外部存储器,但磁盘访问速度太慢,并不建议这种操作。
另外,Colab Pro 提供的磁盘空间仅有 150GB,对于压缩文件大小是不能超过 75GB,因此,这种方法对于大数据集,参数量很大的网络模型都是不太合适的,但对于数据量不大,不用太大的网络模型的比赛,还是可以用 Colab Pro 来训练模型。
基于Colab Pro & Google Drive的Kaggle实战的更多相关文章
- Colab教程(超级详细版)及Colab Pro/Colab Pro+使用评测
		
在下半年选修了机器学习的关键课程Machine learning and deep learning,但由于Macbook Pro显卡不支持cuda,因此无法使用GPU来训练网络.教授推荐使用Goog ...
 - 机器学习(一):记一次k一近邻算法的学习与Kaggle实战
		
本篇博客是基于以Kaggle中手写数字识别实战为目标,以KNN算法学习为驱动导向来进行讲解. 写这篇博客的原因 什么是KNN kaggle实战 优缺点及其优化方法 总结 参考文献 写这篇博客的原因 写 ...
 - 教你用 google-drive-ocamlfuse 在 Linux 上挂载 Google Drive
		
如果你在找一个方便的方式在 Linux 机器上挂载你的 Google Drive 文件夹, Jack Wallen 将教你怎么使用 google-drive-ocamlfuse 来挂载 Google ...
 - 使用网盘(Dropbox/Google Drive)同步Git仓库
		
还在使用老掉牙的U盘搬运代码(文件)的方式,从一台机器上复制后,粘贴到另一台机器上?太Out了.使用Github 倒是一个非常不错的替代方法.但无论是基于什么理由都有可能不想把代码公开(毕竟Githu ...
 - 在线打开,浏览PDF文件的各种方式及各种pdf插件------(MS OneDrive/google drive & google doc/ github ?raw=true)
		
在线打开,浏览PDF文件的各种方式: 1 Google drive&doc (国内不好使,you know GFW=Great Firewall) 1. google drive: 直接分 ...
 - 网盘的选择,百度网盘、google drive 还是 Dropbox
		
我是国内用户,需要越过Chinawall 我使用的是一枝红杏,用着还行 如果要买,结账时输入'laod80' 一枝红杏官网:官网地址 Dropbox: 稳定,速度快 Dropbox官网:链接 操作十分 ...
 - 【转】Expire Google Drive Files 让Google  Docs云盘共享连接在指定时间后自动失效
		
最近在清理Google Docs中之前共享过的文件链接,发现Google Docs多人协作共享过的链接会一直存在,在实际操作中较不灵活.正好订阅的RSS推送了Pseric写的这篇文章 - Expire ...
 - A replacement solution to using Google Drive in Ubuntu
		
Grive2 Get dependencies You need to get the dependency libraries along with their development (-dev ...
 - Kaggle实战之一回归问题
		
0. 前言 1.任务描述 2.数据概览 3. 数据准备 4. 模型训练 5. kaggle实战 0. 前言 "尽管新技术新算法层出不穷,但是掌握好基础算法就能解决手头 90% 的机器学习问题 ...
 
随机推荐
- C#事件总线
			
目录 简介 实现事件总线 定义事件基类 定义事件参数基类 定义EventBus 使用事件总线 事件及事件参数 定义发布者 定义订阅者 实际使用 总结 参考资料 简介 事件总线是对发布-订阅模式的一种实 ...
 - v-bind的使用
			
v-bind v-bind的引入  内容的绑定可以通过mustache语法,而属性的绑定往往需要通过v-bind 如动态绑定img的src属性 如动态绑定div的class属性 如动态绑定li元素的 ...
 - 提升50%!Presto如何提升Hudi表查询性能?
			
分享一篇关于使用Hudi Clustering来优化Presto查询性能的talk talk主要分为如下几个部分 演讲者背景介绍 Apache Hudi介绍 数据湖演进和用例说明 Hudi Clust ...
 - JAVA中Abstract到底有什么用?都用在哪些方面比较合适?
			
功能向上聚合 Abstract作为抽象类和抽象方法,第一种情况是在聚合子类的通用性上起到作用,往往出现在重构过程中自然而然形成的一种层次结构-希望将多个子类的通用方法和逻辑提取到父层的抽象类. 这种重 ...
 - Spring Cloud Gateway之全局过滤器在工作中的使用场景
			
一.使用注意事项 1.全局过滤器作用于所有的路由,不需要单独配置. 2.通过@Order来指定执行的顺序,数字越小,优先级越高. 二.默认全局拦截器的整体架构 三.实战场景,例如,校验token.记录 ...
 - Envoy:开启访问日志,access_log
			
access_log: - name: envoy.listener.accesslog typed_config: "@type": type.googleapis.com/en ...
 - welcome实现首页路由的重定向效果
			
welcome实现首页路由的重定向效果 1.创建welcome组件 2.在路由中引入组件并配置子组件 3.在home.vue中添加路由占位符 4.测试
 - [Java] Git
			
版本控制 VCS(Version Control System):版本控制系统 主要功能:版本控制.主动提交.中央仓库 中央仓库功能:保存版本历史.同步团队代码 DVCS(Distributed VC ...
 - 回车与换行的区别:CRLF、CR、LF
			
引言 以下是 MySQL 8 导出数据的窗口,导出数据时需要选择记录分隔符,这就需要你明白 CRLF.CR 和 LF 分别代表什么,有何区别,否则可能导出数据会出现莫名其米的问题. 名词解释 CR:C ...
 - 6.2 gzip:压缩或解压文件
			
gzip命令 用于将一个大的文件通过压缩算法(Lempel-Ziv coding(LZ77))变成一个小的文件.gzip命令不能直接压缩目录,因此目录需要先用tar打包成一个文件,然后tar再调用gz ...