Transformers包使用记录
Transformers是著名的深度学习预训练模型集成库,包含NLP模型最多,CV等其他领域也有,支持预训练模型的快速使用和魔改,并且模型可以快速在不同的深度学习框架间(Pytorch/Tensorflow/Jax)无缝转移。以下记录基于HuggingFace官网教程:https://github.com/huggingface/transformers/blob/main/README_zh-hans.md
任务调用
直接使用两行代码实现各种任务,以下举例一个情感分析任务:
from transformers import pipeline
# 使用情绪分析流水线
classifier = pipeline('sentiment-analysis', 'distilbert-base-uncased-finetuned-sst-2-english')
classifier('We are very happy to introduce pipeline to the transformers repository.')
pipeline第一个参数传入实现任务类型,第二个参数传入预训练模型权重名。模型预训练权重名中,distilbert-base表示使用模型蒸馏训练的base bert;uncased表示模型权重无法区分大小写,数据在传入前需要小写处理;finetuned-sst-2-english表示模型权重在英文Stanford Sentiment Treebank 2数据集上进行微调。如果权重名能在当前工作目录中找到,就读取当前工作目录的文件,否则就会去HuggingFace官网下载相应的Repository。如果自动下载失败,distilbert-base-uncased-finetuned-sst-2-english的模型权重和配置文件可以通过以下方式下载:
git lfs install
git clone https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english
下载下来一个文件夹,其中包含模型结构文件 config.json、模型权重文件 model.safetensors、分词器配置文件 tokenizer_config.json、词表文件 vocab.txt等。文件夹中有时会包含文件分词器文件 tokenizer.json,其中保存了分词到id的映射。tokenizer.json的映射与vocab.txt正好相反,因此没有tokenizer.json照样可以运行。但是除了映射之外,tokenizer.json通常还会保存一些额外的关于特殊token或是未登录词的词频信息,是会影响模型结果的。
如果通过git模型权重下载失败,可以直接进网站下载单个权重文件并放入文件夹。其中后缀为h5、weights、ckpt、pth、safetensors、bin的文件都是模型权重。比如pth是pytorch常用的权重后缀,h5是Tensorflow的常用的权重后缀。具体保存的格式不细究,只要任意下载一个就行。Transformers默认使用Pytorch,因此通常下载pth、bin或safetensors。
通过以上API和下载的Repository文件,可以看出Transformers把用到的预训练模型、配置文件、分词等都放在一个repository中,从而在使用时实现模型结构的自动构建以及配套预训练权重的读取,从而无需显式使用Pytorch写好与预训练权重配套的结构代码,加快预训练模型使用流程。
预训练模型调用
如果要研究模型的推理,而不是实现具体任务。可以实现为以下代码:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased") #1
model = AutoModel.from_pretrained("bert-base-uncased") #2
inp = tokenizer("Hello world!", return_tensors="pt") #3
outp = model(**inp)
其中#1表示读取bert-base-uncased的分词器,#2表示读取bert-base-uncased的预训练权重并构建模型。如果模型权重只下载了h5,而使用Pytorch作为后端,则需要给from_pretrained添加from_tf=True参数。#3使用分词器对输入句子进行分词,输出pytorch张量。如果设置return_tensors="tf"则分词器输出兼容tensorflow模型的张量,此时model应该使用TFAutoModel来实例化。
如果要处理批量数据,可以给分词器传入文本列表,如:
texts = ["Hello world!", "Hello, how are you?"]
inp = tokenizer(texts, return_tensors="pt", padding=True, truncation=True)
如果给分词器传入两段文本,分词器将它们合并,并额外生成句子类型id,用于句子顺序判别任务。第一句token标识为0,第二句token标识为1:
texts = ["Hello world!", "Hello, how are you?"]
inp = tokenizer(*texts, return_tensors="pt", padding=True, truncation=True)
自定义模型推理
观察config.json,其中architectures字段定义了所需预训练权重所需使用的模型结构类,可以发现其它的各字段就是传入该模型结构类的参数,从而能实例化出与预训练模型权重一致的模型结构,然后再读取权重得到预训练模型。那么我们可以根据这些文件以及Transformers内置的模型结构类(继承自nn.Module),来自定义模型的数据通路。将前面的情感分类管道分解如下:
from transformers import DistilBertTokenizer, DistilBertForSequenceClassification
from torch import nn text = "We are very happy to introduce pipeline to the transformers repository."
model_head_name = "distilbert-base-uncased-finetuned-sst-2-english"
model = DistilBertForSequenceClassification.from_pretrained(model_head_name).to('cuda')
tokenizer = DistilBertTokenizer.from_pretrained(model_head_name)
inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True).to('cuda') # 获取模型内 bert 主体的输出
distilbert_output = model.distilbert(**inputs)
# 使用 bert 输出的第一个token [CLS] 计算情感分类概率
hidden_state = distilbert_output[0] # (bs, seq_len, dim)
pooled_output = hidden_state[:, 0] # (bs, dim)
pooled_output = model.pre_classifier(pooled_output) # (bs, dim)
pooled_output = nn.ReLU()(pooled_output) # (bs, dim)
pooled_output = model.dropout(pooled_output) # (bs, dim)
logits = model.classifier(pooled_output) # (bs, num_labels)
print("Positive rate: ", nn.Softmax(1)(logits)[0,1].detach().cpu().numpy())
Transformers包使用记录的更多相关文章
- npm包发布记录
		下雪了,在家闲着,不如写一个npm 包发布.简单的 npm 包的发布网上有很多教程,我就不记录了.这里记录下,一个复杂的 npm 包发布,复杂指的构建环境复杂. 整个工程使用 rollup 来构建,其 ... 
- centos 系统程序包安装记录
		-添加sudoer su - vi /etc/sudoers 在root ALL=(ALL) ALL 下添加: pete ALL=(ALL) ALL -安装拼音: sudo yum install & ... 
- WEB应用打成jar包全记录
		内容属原创,转载请注明出处 题外 由于项目的需求—不管是怎么产生的这个需求—总之,需要支持把一个web应用打成jar包供其他应用使用,这就有了下面的过程. 这个过程里用到了Spring和SpringM ... 
- hadoop出现error包问题记录
		前段时间,我公司发现大部分hadoop服务器有重传数据包和error包现象,且重传率经常超过1%.zabbix告警hadoop主机有error包出现.收到大量类似如下告警信息: Trigger: et ... 
- 手机网络抓包 转载记录http://blog.csdn.net/skylin19840101/article/details/43485911
		Fiddler不但能截获各种浏览器发出的HTTP请求, 也可以截获各种智能手机发出的HTTP/HTTPS请求.Fiddler能捕获IOS设备发出的请求,比如IPhone, IPad, MacBook. ... 
- linux下安装rabbitmq的rpm包问题记录
		安装rabbitmq的文章和帖子多如牛毛,不管是官网还是各个博客,这里附个Rabbitmq官网安装Rpm包的链接, http://www.rabbitmq.com/install-rpm.html 不 ... 
- fiddler 手机抓包,CS端抓包 使用记录
		1.允许远程连接 2.忽略https证书错误 3.设置代理 4.重启fiddle 5.PC客户端抓包分工具FIddler+Proxifer https://blog.csdn.net/sunbo_cs ... 
- R包开发过程记录
		目的 走一遍R包开发过程,并发布到Github上使用. 步骤 1. 创建R包框架 Rsutdio --> File--> New Project--> New Directory - ... 
- 【http抓包】记录一次抓手机app的接口
		抓手机的接口地址,好用的工具很多,想 windows下的 Fiddler 和mac下的Charles 1. fiddler的设置教程是 http://jingyan.baidu.com/article ... 
- 用到的一些python包,记录下
		Requests beautifulsoup lxml logging gevent django Bottle numpy pandas sklearn pyopencv opencv_python ... 
随机推荐
- pikachu靶场 越权(水平越权+垂直越权)
			水平越权 A用户和B用户属于同一级别用户,但各自不能操作对方个人信息.A用户如果越权操作B用户个人信息的情况称为水行越权操作 三个用户 lucy/lili/kobe 密码都为123456 随便登录其 ... 
- C# WebSocket高并发通信阻塞问题
			项目上遇到使用WebSocket超时问题,具体情况是这样的,OTA升级过程中,解压zip文件会有解压进度事件,将解压进度通过进程通信传给另一进程,通信提示超时异常 小伙伴堂园发现大文件使用Zip解压, ... 
- 五子棋AI:实现逻辑与相关背景探讨(上)
			绪论 本合集将详细讲述如何实现基于群只能遗传算法的五子棋AI,采用C++作为底层编程语言 本篇将简要讨论实现思路,并在后续的文中逐一展开 了解五子棋 五子棋规则 五子棋是一种经典的棋类游戏,规则简单却 ... 
- 小tips:HTML5的ruby标签实现给汉字加拼音、details标签实现折叠面板、原生进度条progress和度量meter
			ruby标签实现给汉字加拼音 ruby 元素由一个或多个字符(需要一个解释/发音)和一个提供该信息的 rt 元素组成,还包括可选的 rp 元素,定义当浏览器不支持 "ruby" 元 ... 
- v-show、v-if、v-for的使用
			v-if vs v-show v-if 是"真正"的条件渲染,因为它会确保在切换过程中条件块内的事件监听器和子组件适当地被销毁和重建. v-if 也是惰性的:如果在初始渲染时条件为 ... 
- [Tkey] 黑兔子,白兔子
			CL-21 一般拿到这个题第一眼都应该能看出并查集,subtask1 是给并查集暴力修改的. 后面 subtask2 没有联通操作,是给纯线段树的,也算是启发正解了 再往下可以考虑操作 \(1\) 采 ... 
- 一些git使用命令,误删本地分支,如何找回
			1.新建仓库 git init 2.如果要本地更改文件,需要更新到远端. git status # 查看当前文件状态 git add -A # "git add -A" 命令用于将 ... 
- 什么是WebRTC
			背景:webrtc web real-time communication 实时通信标准,提供了音视频通话系统的能力. 应用场景: 点对点视频聊天,如 微信视频,等实时视频通话应用. 多人视频会议,企 ... 
- python中队列deque的使用
			队列,堆栈是程序开发中常用的两种数据存储模型.python中队列怎么运用呢?以下内容介绍了队列的使用和队列的函数. from collections import deque q = deque() ... 
- 王树森Attention与Self-Attention学习笔记
			目录 Seq2Seq + Attention Attention的原理 方法一(Used in the original paper) 方法二(more popular,the same to Tra ... 
