1. 背景

上一篇介绍了基于训练加速框架Unsloth，微调训练Llama3的显卡资源占用及训练时间对比。

近期Unsloth新增了Qwen1.5的模型适配，因此本qiang~马不停蹄地又进行了一次实验对比。

对Unsloth的简介，感兴趣的客观可以查阅上一篇《LLM微调加速神器：Unsloth + LLama3》。

2. 实战

本着眼过千遍不如手过一遍的宗旨，本qiang~针对Unsloth做了一个对比实现。

对比的实验环境为： A800，模型为Qwen1.5-32B-Chat。

可以使用如下命令进行更新unsloth。

pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"

2.1 比对维度

维度	说明
显卡	是否支持bf16
最大文本长度	max_seq_length
批次大小	per_device_train_batch_size
梯度累加步长	gradient_accumulation_steps
秩	LoRA的rank
dropout	lora_droput

2.2 源码

源码请见地址，由于Qwen1.5和Llama3的prompt模板不一致，因此源码层面上也稍加了改动。

3 实验结果

3.1 A800

3.2 结论

针对于Qwen1.5-32B-Chat进行unsloth训练，与基于transformers框架训练进行比对，结论如下：

集成unsloth后，显卡占用确实更少，平均减少20%-25%，训练效率确实更快，不管是哪种维度，平均训练时间减少了27%-41%。

使用40G显存的单卡如A40，即可进行微调训练。

4. 总结

一句话足矣~

本文主要是使用unsloth框架针对Qwen1.5的高效微调实验，提供了详细的对比代码以及不同维度的对比分析结果。

之后会研读一遍unsloth的底层源码，具体是如何使用triton语言实现加速的，以及如何手写的前馈网络和反向传播的实现~

5. 参考

1. unsloth: https://github.com/unslothai/unsloth

LLM实战：LLM微调加速神器-Unsloth + Qwen1.5的更多相关文章

内核融合：GPU深度学习的“加速神器”
编者按:在深度学习"红透"半边天的同时,当前很多深度学习框架却面临着共同的性能问题:被频繁调用的代数运算符严重影响模型的执行效率. 本文中,微软亚洲研究院研究员薛继龙将为大家介绍 ...
（数据科学学习手札86）全平台支持的pandas运算加速神器
本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介随着其功能的不断优化与扩充,pandas已然成为 ...
Python爬虫加速神器的小试
大名鼎鼎的aiohttp,相信如果你学习Python或者爬虫的时候,肯定听说过这个东西.没听过也不要紧,今天看完文章,只要记住,aiohttp这个东西,在写爬虫的时候,很牛逼就行了. aiohttp ...
巧用MySQL AHI加速神器，让你的InnoDB查询飞起来！
DBAPLUS http://mp.weixin.qq.com/s/cIjQIz-ZngSYJ3k2ZBBSsg
推荐一个github国内访问加速神器GitHub520
一.介绍对 GitHub 说"爱"太难了:访问慢.图片加载不出来. 注: 本项目还处于测试阶段,仅在本机测试通过,如有问题欢迎提 issues 本项目无需安装任何程序,通过修改本 ...
在一张 24 GB 的消费级显卡上用 RLHF 微调 20B LLMs
我们很高兴正式发布 trl 与 peft 的集成,使任何人都可以更轻松地使用强化学习进行大型语言模型 (LLM) 微调!在这篇文章中,我们解释了为什么这是现有微调方法的有竞争力的替代方案. 请注意, ...
TensorRT基础笔记
一,概述 TensorRT 是 NVIDIA 官方推出的基于 CUDA 和 cudnn 的高性能深度学习推理加速引擎,能够使深度学习模型在 GPU 上进行低延迟.高吞吐量的部署.采用 C++ 开发,并 ...
JVM难学？那是因为你没认真看完这篇文章
一:虚拟机内存图解 JAVA程序运行与虚拟机之上,运行时需要内存空间.虚拟机执行JAVA程序的过程中会把它管理的内存划分为不同的数据区域方便管理. 虚拟机管理内存数据区域划分如下图: 数据区域分类: ...
JVM 一套卷，助你快速掌握优化法则
一:虚拟机内存图解 JAVA 程序运行与虚拟机之上,运行时需要内存空间.虚拟机执行 JAVA 程序的过程中会把它管理的内存划分为不同的数据区域方便管理. 虚拟机管理内存数据区域划分如下图: 数据区域分 ...
JVM难学？那是因为你没认真看完这篇文章(转)
一:虚拟机内存图解 JAVA程序运行与虚拟机之上,运行时需要内存空间.虚拟机执行JAVA程序的过程中会把它管理的内存划分为不同的数据区域方便管理. 虚拟机管理内存数据区域划分如下图: 数据区域分类: ...

随机推荐

Java中IO和NIO的本质和区别
目录简介 IO的本质 DMA和虚拟地址空间 IO的分类 IO和NIO的区别总结简介终于要写到java中最最让人激动的部分了IO和NIO.IO的全称是input output,是java程序跟外 ...
看你能解锁哪些新身份？OpenHarmony大使、MVP、金码达人在线申报
OpenHarmony社区运营报告（2023年5月）
本月快讯 ● 2023年6月11-13日,2023开放原子全球开源峰会即将在北京北人亦创国际会展中心盛大开幕.2023开放原子全球开源峰会上,OpenAtom OpenHarmony(以下简称&q ...
如何在OpenHarmony上使用SeetaFace2人脸识别库？
简介相信大部分同学们都已了解或接触过OpenAtom OpenHarmony(以下简称"OpenHarmony")了,但你一定没在OpenHarmony上实现过人脸识别功能,跟着 ...
HMS Core助力开发者打造高品质游戏，共创智玩新生态
2021年8月1日,华为HMS Core.Sparkle游戏应用创新沙龙在上海举行.会上,华为HMS Core团队与游戏行业开发者围绕3D图形渲染.网络加速.精准运营等多个话题,探讨了游戏应用开发技术 ...
重走py 之路 ——列表（一）
前言因为最近公司有python项目维护,所以把python的基础入门的书整理一遍,因为有些忘记了,同时在看<<python编程>>这本书的时候觉得对有基础的有很多的赘余,打算 ...
使用OpenMMLab系列的开源库时，常用的脚本合集。
使用OpenMMLab系列的开源库时,常用的脚本合集. 开源仓库:gy-7/mmlab_scripts 脚本解释: anchor_visiual.py 生成的锚框可视化 aug_test.py 自动数 ...
ES6中对象新增了哪些扩展?
一.属性的简写 ES6中,当对象键名与对应值名相等的时候,可以进行简写 const baz = {foo:foo}// 等同于const baz = {foo} 方法也能够进行简写 const o = ...
《最新出炉》系列初窥篇-Python+Playwright自动化测试-38-如何截图-下篇
1.简介这个系列的文章也讲解和分享了差不多三分之一吧,突然有小伙伴或者童鞋们问道playwright有没有截图的方法.答案当然是:肯定有的.宏哥回过头来看看确实这个非常基础的知识点还没有讲解和分享. ...
力扣619(MySQL)-只出现一次的最大数字（简单）
题目: MyNumbers 表: 单一数字是在 MyNumbers 表中只出现一次的数字. 请你编写一个 SQL 查询来报告最大的单一数字 .如果不存在单一数字 ,查询需报告 null . 查询 ...

LLM实战：LLM微调加速神器-Unsloth + Qwen1.5