大语言模型中一个调皮的EOS token

背景

最近需要做一个微调的培训，所以不可避免地需要上手一下相关的微调，而受限于机器资源，暂时没法做全参数微调，所以就尝试了目前比较火的两种高效微调方式，分别是PTuning和LoRA。模型选择得自然是现在中文做的比较好的ChatGLM2-6B。

微调的代码分别用的是

PTuning

LoRA

在分别尝试了两个结果后，发现LoRA微调出来的结果有点抽风，喜欢疯狂输出，而它就是咱们今天的主角：ChatGLM2-6B的Tokenizer所使用的EOS（end-of-sequence） token。

EOS token 介绍

其实从名字就可以看出来，EOS的作用就是标记一个序列的结束，这样模型就可以知道这个序列已经结束了，不需要再继续输出了。如果以为例，一般模型在推理的时候，觉得可以结束一句话了，就会输出，但是模型的脑子里肯定没有的概念呀，它只能输出数字，所以我们需要把转换成数字，这个数字就是EOS token ID。在ChatGLM2-6B的Tokenizer中，EOS token ID是2，而模型输出的时候，输出的也是2，而不是

分析BUG

既然模型会输出文字版的，那是不是模型的输入中，给它喂进去了不合适的语料呢？

进一步查找发现所使用的LoRA库中是这么添加EOS的：

medicalGPT

尝试一下直接用喂给tokenizer，看看tokenizer会怎么处理。

tokenize_s

看到这原因的就很明显了，因为这个EOS添加的是字符，而不是token_id，所以tokenizer有时候会把当成了分开的token，比如</和s和>，模型就把这3它当成了三个token，而不是一个token，所以在推理的时候，遇到结尾，有时候就会输出</+s+>。而transformers的库在推理看一个句子是否以EOS结尾，看的是token_id而不是token。就会认为生成还没有结束，就继续生成了，直到某一次推理，模型想起来预训练时的记忆，在遇到结尾的时候输出了2的token id(也就是)，transformers库才会认为生成结束，停止生成。

transformers

既然知道了问题的原因，那么就需要解决这个问题，解决的方法也很简单，就是把EOS token_id添加到输入中，而不是字符。具体代码就是按照PTuning的方式，把EOS token_id添加到输入中。

refactor

改完之后重新train一遍LoRA，模型不再疯狂输出了。

尾声

要改这个bug，其实需要挺多tokenization的知识的，最近没有时间好好研究，之后有时间再来补充一下。

大语言模型中一个调皮的EOS token的更多相关文章

Es 中一个分片一般设置多大
百度Elasticsearch-产品描述-介绍-百度云 https://cloud.baidu.com/doc/BES/FAQ.html#.2C.BB.93.08.C9.7E.2F.A3.E7.35. ...
IP分片与 TCP分段的区别！！！！careful========以及udp中一个包大小究竟为多大合适 ==========三次握手四次挥手细节
首先声明:TCP分片应该称为TCP分段 TCP/IP详解--TCP的分段和IP的分片分组可以发生在运输层和网络层,运输层中的TCP会分段,网络层中的IP会分片.IP层的分片更多的是为运输层的UDP服 ...
本地推理,单机运行,MacM1芯片系统基于大语言模型C++版本LLaMA部署“本地版”的ChatGPT
OpenAI公司基于GPT模型的ChatGPT风光无两,眼看它起朱楼,眼看它宴宾客,FaceBook终于坐不住了,发布了同样基于LLM的人工智能大语言模型LLaMA,号称包含70亿.130亿.330亿 ...
使用 LoRA 和 Hugging Face 高效训练大语言模型
在本文中,我们将展示如何使用大语言模型低秩适配 (Low-Rank Adaptation of Large Language Models,LoRA) 技术在单 GPU 上微调 110 亿参数的 F ...
保姆级教程：用GPU云主机搭建AI大语言模型并用Flask封装成API，实现用户与模型对话
导读在当今的人工智能时代,大型AI模型已成为获得人工智能应用程序的关键.但是,这些巨大的模型需要庞大的计算资源和存储空间,因此搭建这些模型并对它们进行交互需要强大的计算能力,这通常需要使用云计算服务 ...
Hugging News #0324: 🤖️ 黑客松结果揭晓、一键部署谷歌最新大语言模型、Gradio 新版发布，更新超多！
每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新.社区活动.学习资源和内容更新.开源库和模型更新等,我们将其称之为「Hugging Ne ...
pytorch在有限的资源下部署大语言模型（以ChatGLM-6B为例）
pytorch在有限的资源下部署大语言模型(以ChatGLM-6B为例) Part1知识准备在PyTorch中加载预训练的模型时,通常的工作流程是这样的: my_model = ModelClass ...
关于OATUH中的AUTHRAZITON CODE和TOKEN的关系，实际上就是这么回事
关于OATUH中的AUTHRAZITON CODE和TOKEN的关系,实际上就是这么回事每回要拿AUTHRAZITON CODE换取TOKEN,然后才能正常通信, 为什么要多一步呢?直接给TOKEN ...
java 11-8 在大串中查找小串的案例
1.统计大串中小串出现的次数举例: 在字符串"woaijavawozhenaijavawozhendeaijavawozhendehenaijavaxinbuxinwoaijavagun& ...
ACM学习之路————一个大整数与一个小整数不得不说得的秘密
这个相对于两个大整数的运算来说,只能说是,low爆了. 只要利用好除法的性质,这类题便迎刃而解.O(∩_∩)O哈哈~ //大整数除一个int数 #include<iostream> #in ...

随机推荐

Kubernetes入门实践(Job/CronJob)
基于Pod的设计理念,Kubernetes有两种对象Job和CronJob Job和CronJob组合了Pod,实现了对离线业务的处理.如Nginx和busybox,分别代表了Kubernetes里的 ...
从零开始TP6配置ThinkPHP-ApiDoc
系统:windows11 集成环境:小皮(原phpstudy) composer:2.5 准备工作:安装小皮后,在软件管理中安装composer,2.3安装不上去,只能安装1.8.5,没关系安装后升级 ...
STM32下载ELF文件、最小可执行bin文件测试
1.STM32能下载ELF格式的文件吗? 答:可以.因为所谓的bin文件就是ELF文件的.text代码段. 当然前提是下载工具能识别ELF文件格式,STM32下载ELF文件并不意味着STM32可以把E ...
antv x6 神奇的图片边框
昨天才把html节点中的图片转成base格式的,今天就发现一个用户体验的问题:那么是啥呢?就是我从左侧的树形菜单中拖拽节点的时候(鼠标按下也是同样问题),发现节点的图片区域那里会出现一个边框,持续时间 ...
PaddleDetection 快速上手
PaddleDetection 快速上手本项目以路标数据集roadsign为例,详细说明了如何使用PaddleDetection训练一个目标检测模型,并对模型进行评估和预测. 本项目提供voc格式的 ...
关于在 springboot 中使用 @Autowired 注解来对 TemplateEngine 进行自动装配时，无法注入的问题。
前言本文是基于江南一点雨的 Spring Boot+Vue 系列视频教程第三章的第三节,详情参考Spring Boot+Vue系列视频教程在观看学习这一节时,发现当进行手动渲染 Thymele ...
2022-01-23：力扣425，单词方块。给定一个单词集合（没有重复），找出其中所有的单词方块。一个单词序列形成了一个有效的单词方块的意思是指从第 k 行和第 k 列 (0 ≤ k ＜ m
2022-01-23:力扣425,单词方块. 给定一个单词集合 (没有重复),找出其中所有的单词方块 . 一个单词序列形成了一个有效的单词方块的意思是指从第 k 行和第 k 列 (0 ≤ k < ...
2021-06-27：给定一个正数数组arr，代表若干人的体重。再给定一个正数limit，表示所有船共同拥有的载重量。每艘船最多坐两人，且不能超过载重，想让所有的人同时过河，并且用最好的分配方法让船尽
2021-06-27:给定一个正数数组arr,代表若干人的体重.再给定一个正数limit,表示所有船共同拥有的载重量.每艘船最多坐两人,且不能超过载重,想让所有的人同时过河,并且用最好的分配方法让船尽 ...
vue全家桶进阶之路39：Vue3 状态管理
Vue3 的状态管理主要是通过 Vuex 4 来实现.Vuex 是一个专为 Vue.js 应用程序开发的状态管理模式,它采用集中式存储管理应用的所有组件的状态,并以相应的规则保证状态以一种可预测的方式 ...
SQL Server:User, group, or role 'iemis' already exists in the current database.
--最新的解决方法 --先创建用户帐户,不进行授权,然后通过下面的SQL语句将该用户帐户关联至对应的数据库用户.优点是避免了重新授权的操作. USE tempdbEXEC sp_change_user ...

大语言模型中一个调皮的EOS token

大语言模型中一个调皮的EOS token的更多相关文章

随机推荐

热门专题