微调baichuan2-7b遇到的显存坑

问题描述：

微调baichuan2-7b模型，验证一轮后继续训练第一个iteration显存大幅增加

项目链接：

https://github.com/wp931120/baichuan_sft_lora

具体描述：

由于某些原因，笔者是在transformers4.30.2、torch2.0.1，accelerate==0.22版本上进行实验。

在训练过程中，发现显存溢出，考虑是句子长度问题，将1024设置为512。

然而训练还是显存溢出，通过调试分析，在评估验证集之前，显存大概占用11G左右，在评估过程中，显存依然保持11G左右，然而评估一结束，继续训练时，显存大幅增加，变为20G左右，后面不管怎么训练和评估，显存基本上都维持在20G。

然而根据项目作者的实验，明明12G左右的显存就够。

为此，后经群里大佬提示，考虑释放torch缓存或者更新transformers版本。

1、尝试各种方式在评估之后释放显存依然无效。

2、由于某些原因无法更新transformers版本，暂无法验证。

由于作者在原始代码上的更改并不多，遂怀疑是否是由于基座大模型（baichuan2-7b）的原因导致显存增加，因此将基座大模型换成chatglm2-6b，将数据处理的代码稍作修改后进行实验，发现模型在评估后继续训练显存没有大幅增加。

至此，虽然不清楚为什么baichuan-7b在当前环境无法正常训练，可能的原因是当前版本的transformers不太足够支持baichuan-7b的训练，对chatglm2-6b训练是足够的。

注释：

卡2是chatglm2-6b在qlora训练模式下的显存占用，卡3是baichuan2-7b在qlora训练模式下的显存占用。

微调baichuan2-7b遇到的显存坑的更多相关文章

我的Keras使用总结（5）——Keras指定显卡且限制显存用量，常见函数的用法及其习题练习
Keras 是一个高层神经网络API,Keras是由纯Python编写而成并基于TensorFlow,Theano以及CNTK后端.Keras为支持快速实验而生,能够将我们的idea迅速转换为结果.好 ...
分页型Memory LCD显存管理与emWin移植
上一篇随笔整理了一下逐行扫描型Memory LCD的显存管理与emWin移植,这篇就整理一下分页型Memory LCD显存管理与emWin移植. //此处以SSD1306作为实例 //OLED的显存/ ...
逐行扫描型Memory LCD显存管理与emWin移植
因为Memory LCD 的特性,不能设置像素坐标,只能用缓存整体刷新. 所以对于Memory LCD来说,emWin移植仅与打点函数有关,这里用Sharp Memory LCD(ls013b7dh0 ...
Cpu Gpu 内存显存数据流
[精]从CPU架构和技术的演变看GPU未来发展 http://www.pcpop.com/doc/0/521/521832_all.shtml 显存与纹理内存详解 http://blog.csdn.n ...
OpenGL8-直接分配显存-极速绘制（2）
视频教程请关注 http://edu.csdn.net/lecturer/lecturer_detail?lecturer_id=440/*** OpenGL8-直接分配显存-极速绘制(Opengl1 ...
OpenGL8-直接分配显存-极速绘制（Opengl1.5版本才有)
视频教程请关注 http://edu.csdn.net/lecturer/lecturer_detail?lecturer_id=440 /** * 这个例子介绍如何使用显卡内存进行绘制下载地址 : ...
Nvidia显卡怎样查看显存大小及硬件相关信息
在电脑上安装Nvidia显卡驱动,平时也会通过Nvidia控制面板来查看显示显存位宽及宽带.显示显存容量和显示显存芯片信息等等,那么该如何查看Nvidia显存大小以及Nvidia硬件相关信息呢? 1. ...
gpu显存（全局内存）在使用时数据对齐的问题
全局存储器,即普通的显存,整个网格中的随意线程都能读写全局存储器的任何位置. 存取延时为400-600 clock cycles 很easy成为性能瓶颈. 訪问显存时,读取和存储必须对齐,宽度为4B ...
[自制操作系统] 图形界面&VBE工具&MMIO显存&图形库/字库
本文记录了在JOS(或在任意OS)上实现图形界面的方法与一些图形库的实现. 本文中支持的新特性: 支持基本图形显示支持中英文显示(中英文点阵字库) 相关:VBE VESA MMIO 点阵字库 Git ...
[置顶] 基于FPGA的VGA简易显存设计&NIOS ii软核接入
项目简介本项目基于Altera公司的Cyclone IV型芯片,利用NIOS II软核,2-port RAM与时序控制模块,实现64*48分辨率的显存(再大的显存板载资源m9k不够用) 实现效果如下 ...

随机推荐

《CTFshow-Web入门》08. Web 71~80
@ 目录 web71 题解原理 web72 题解原理 web73 题解 web74 题解 web75 题解原理 web76 题解 web77 题解原理 web78 题解原理 web79 题解 ...
CI框架的base_url localhost [::1]等问题
为什么localhost变成了[::1] [::1]是IP6的地址, 与localhost等价使用base_url后, 加载不了样式 ci框架需要定义base_url, 未定义就会出现返回local ...
JavaAgent寄生在目标进程中引起的ClassNotFoundException
今天有解决方案部的小伙伴反映,我公司XWind产品在分析客户应用程序的潜在性能问题时,总是显现诊断任务异常,为了定位问题的根因,我们马上要求解决方案部的小伙伴提供XWind相关的日志,从日志中找到了如 ...
Solution -「CF 724F」Uniformly Branched Trees
Description Link. 给定三个数 \(n,d,mod\),求有多少种 \(n\) 个点的不同构的树满足:除了度数为 \(1\) 的结点外,其余结点的度数均为 \(d\).答案对质数 \( ...
ERROR: nginx-1.22.1 installation failed.
libraries. You can either do not enable the module or install the libraries.make: *** No rule to mak ...
关于C++拷贝控制
通常来说,对于类内动态分配资源的类需要进行拷贝控制:要在拷贝构造函数.拷贝赋值运算符.析构函数中实现安全高效的操作来管理内存.但是资源管理并不是一个类需要定义自己的拷贝控制成员的唯一原因.C++ Pr ...
[NISACTF 2022]checkin
题目看上去似乎只是一个简单的get传参,但复制了一下代码,发现不对这些代码中间还有隐藏的字符在记事本里面就看到了神奇的字符就将这些隐藏起来的进行urlencode编码一下复制这个进行编码,得到 ...
nginx配置解决跨域访问
场景:前后的分离项目,前端vue框架,打包后放在Tomcat里访问,端口是8080,后端服务端口8058.访问前端项目时,调用后端接口报跨域. 后端环境正常访问端口8058 经过nginx配置(文末 ...
Hooks的核心原理梳理
我们前端都在诟病专业版,它的组件,它的耦合嵌套之深,它的性能. 我们希望改善,我们认为,如果--就好了. 如果重构就好了,如果技术栈统一就好了,如果有规范就好了. 其实,不用等,我们只要在写代码,就可 ...
linux操作系统读写文件操作(c语言）
(一)open系统的调用为了创建一个新的文件描述,需要使用系统调用open #include<fcntl.h> #include<sys/types.h> #include& ...

微调baichuan2-7b遇到的显存坑

微调baichuan2-7b遇到的显存坑的更多相关文章

随机推荐

热门专题