Transformers是著名的深度学习预训练模型集成库，包含NLP模型最多，CV等其他领域也有，支持预训练模型的快速使用和魔改，并且模型可以快速在不同的深度学习框架间（Pytorch/Tensorflow/Jax）无缝转移。以下记录基于HuggingFace官网教程：https://github.com/huggingface/transformers/blob/main/README_zh-hans.md

任务调用

　　直接使用两行代码实现各种任务，以下举例一个情感分析任务：

from transformers import pipeline

# 使用情绪分析流水线

classifier = pipeline('sentiment-analysis', 'distilbert-base-uncased-finetuned-sst-2-english')

classifier('We are very happy to introduce pipeline to the transformers repository.')

　　pipeline第一个参数传入实现任务类型，第二个参数传入预训练模型权重名。模型预训练权重名中，distilbert-base表示使用模型蒸馏训练的base bert；uncased表示模型权重无法区分大小写，数据在传入前需要小写处理；finetuned-sst-2-english表示模型权重在英文Stanford Sentiment Treebank 2数据集上进行微调。如果权重名能在当前工作目录中找到，就读取当前工作目录的文件，否则就会去HuggingFace官网下载相应的Repository。如果自动下载失败，distilbert-base-uncased-finetuned-sst-2-english的模型权重和配置文件可以通过以下方式下载：

git lfs install

git clone https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english

　　下载下来一个文件夹，其中包含模型结构文件 config.json、模型权重文件 model.safetensors、分词器配置文件 tokenizer_config.json、词表文件 vocab.txt等。文件夹中有时会包含文件分词器文件 tokenizer.json，其中保存了分词到id的映射。tokenizer.json的映射与vocab.txt正好相反，因此没有tokenizer.json照样可以运行。但是除了映射之外，tokenizer.json通常还会保存一些额外的关于特殊token或是未登录词的词频信息，是会影响模型结果的。

　　如果通过git模型权重下载失败，可以直接进网站下载单个权重文件并放入文件夹。其中后缀为h5、weights、ckpt、pth、safetensors、bin的文件都是模型权重。比如pth是pytorch常用的权重后缀，h5是Tensorflow的常用的权重后缀。具体保存的格式不细究，只要任意下载一个就行。Transformers默认使用Pytorch，因此通常下载pth、bin或safetensors。

　　通过以上API和下载的Repository文件，可以看出Transformers把用到的预训练模型、配置文件、分词等都放在一个repository中，从而在使用时实现模型结构的自动构建以及配套预训练权重的读取，从而无需显式使用Pytorch写好与预训练权重配套的结构代码，加快预训练模型使用流程。

预训练模型调用

　　如果要研究模型的推理，而不是实现具体任务。可以实现为以下代码：

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased") #1

model = AutoModel.from_pretrained("bert-base-uncased") #2

inp = tokenizer("Hello world!", return_tensors="pt") #3

outp = model(**inp)

　　其中#1表示读取bert-base-uncased的分词器，#2表示读取bert-base-uncased的预训练权重并构建模型。如果模型权重只下载了h5，而使用Pytorch作为后端，则需要给from_pretrained添加from_tf=True参数。#3使用分词器对输入句子进行分词，输出pytorch张量。如果设置return_tensors="tf"则分词器输出兼容tensorflow模型的张量，此时model应该使用TFAutoModel来实例化。

　　如果要处理批量数据，可以给分词器传入文本列表，如：

texts = ["Hello world!", "Hello, how are you?"]

inp = tokenizer(texts, return_tensors="pt", padding=True, truncation=True)

　　如果给分词器传入两段文本，分词器将它们合并，并额外生成句子类型id，用于句子顺序判别任务。第一句token标识为0，第二句token标识为1：

texts = ["Hello world!", "Hello, how are you?"]

inp = tokenizer(*texts, return_tensors="pt", padding=True, truncation=True)

自定义模型推理

　　观察config.json，其中architectures字段定义了所需预训练权重所需使用的模型结构类，可以发现其它的各字段就是传入该模型结构类的参数，从而能实例化出与预训练模型权重一致的模型结构，然后再读取权重得到预训练模型。那么我们可以根据这些文件以及Transformers内置的模型结构类（继承自nn.Module），来自定义模型的数据通路。将前面的情感分类管道分解如下：

from transformers import DistilBertTokenizer, DistilBertForSequenceClassification

from torch import nn

text = "We are very happy to introduce pipeline to the transformers repository."

model_head_name = "distilbert-base-uncased-finetuned-sst-2-english"

model = DistilBertForSequenceClassification.from_pretrained(model_head_name).to('cuda')

tokenizer = DistilBertTokenizer.from_pretrained(model_head_name)

inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True).to('cuda')

# 获取模型内 bert 主体的输出

distilbert_output = model.distilbert(**inputs)

# 使用 bert 输出的第一个token [CLS] 计算情感分类概率

hidden_state = distilbert_output[0]  # (bs, seq_len, dim)

pooled_output = hidden_state[:, 0]  # (bs, dim)

pooled_output = model.pre_classifier(pooled_output)  # (bs, dim)

pooled_output = nn.ReLU()(pooled_output)  # (bs, dim)

pooled_output = model.dropout(pooled_output)  # (bs, dim)

logits = model.classifier(pooled_output)  # (bs, num_labels)

print("Positive rate: ", nn.Softmax(1)(logits)[0,1].detach().cpu().numpy())

Transformers包使用记录的更多相关文章

npm包发布记录
下雪了,在家闲着,不如写一个npm 包发布.简单的 npm 包的发布网上有很多教程,我就不记录了.这里记录下,一个复杂的 npm 包发布,复杂指的构建环境复杂. 整个工程使用 rollup 来构建,其 ...
centos 系统程序包安装记录
-添加sudoer su - vi /etc/sudoers 在root ALL=(ALL) ALL 下添加: pete ALL=(ALL) ALL -安装拼音: sudo yum install & ...
WEB应用打成jar包全记录
内容属原创,转载请注明出处题外由于项目的需求—不管是怎么产生的这个需求—总之,需要支持把一个web应用打成jar包供其他应用使用,这就有了下面的过程. 这个过程里用到了Spring和SpringM ...
hadoop出现error包问题记录
前段时间,我公司发现大部分hadoop服务器有重传数据包和error包现象,且重传率经常超过1%.zabbix告警hadoop主机有error包出现.收到大量类似如下告警信息: Trigger: et ...
手机网络抓包转载记录http://blog.csdn.net/skylin19840101/article/details/43485911
Fiddler不但能截获各种浏览器发出的HTTP请求, 也可以截获各种智能手机发出的HTTP/HTTPS请求.Fiddler能捕获IOS设备发出的请求,比如IPhone, IPad, MacBook. ...
linux下安装rabbitmq的rpm包问题记录
安装rabbitmq的文章和帖子多如牛毛,不管是官网还是各个博客,这里附个Rabbitmq官网安装Rpm包的链接, http://www.rabbitmq.com/install-rpm.html 不 ...
fiddler 手机抓包,CS端抓包使用记录
1.允许远程连接 2.忽略https证书错误 3.设置代理 4.重启fiddle 5.PC客户端抓包分工具FIddler+Proxifer https://blog.csdn.net/sunbo_cs ...
R包开发过程记录
目的走一遍R包开发过程,并发布到Github上使用. 步骤 1. 创建R包框架 Rsutdio --> File--> New Project--> New Directory - ...
【http抓包】记录一次抓手机app的接口
抓手机的接口地址,好用的工具很多,想 windows下的 Fiddler 和mac下的Charles 1. fiddler的设置教程是 http://jingyan.baidu.com/article ...
用到的一些python包，记录下
Requests beautifulsoup lxml logging gevent django Bottle numpy pandas sklearn pyopencv opencv_python ...

随机推荐

SciPy从入门到放弃
目录 SciPy简介拟合与优化模块求最小值曲线拟合线性代数模块统计模块直方图和概率密度函数统计检验 SciPy简介 SciPy是一种以NumPy为基础,用于数学.工程及许多其他的科学任务 ...
C#/.net core “hello”.IndexOf(“\0”,2)中的坑
先想想看,你认为下面代码返回值是多少? "hello".IndexOf("", 2); "hello".IndexOf("\0&q ...
Java怎么把多个对象的list的数据合并
1.示例一:创建几个包含Person对象的List,并将它们合并成一个新的List 在Java中,将多个对象的List合并通常涉及到遍历这些List并将它们的元素添加到一个新的List中.这里,我将给 ...
CSS & JS Effect – Image hover animation
效果效果来自: webflow 的一个模板需求解释有 3 给元素, 图片, overlay(黑影), link mouse enter 的时候, 图片要 zoom in. overlay 要 f ...
BOOT跳转APP，STM32F4正常，但是GD32F4起不来的问题
问题描述: stm32F4可以正常从BOOT跳转执行APP,到了GD32F4,卡死在APP程序的这里. 临时解决办法: APP程序内把这两句代码都屏蔽掉就好了. 相关资料搜索: 最佳解决方案: ...
Atcoder Beginner Contest 367
A.Shout Everyday \(\text{Diff }43\) 给你 \(24\) 小时制下的 \(A,B,C\) 三个时刻,问 \(A\) 是否在 \([B,C]\) 范围内考虑到先将 \ ...
谈一谈 vuex 中的核心属性
1. state 保存数据的位置 : 2. mutations 唯一修改 state 数据的方式 : 3. getter 监听 state 数据的变化 : 4. actions 执行异步代码,通过 c ...
Python之爬虫-全民k歌
import re import os import requests from aip import AipSpeech from pydub import AudioSegment APP_ID ...
为什么科技企业都在建设API开放平台?
一.API开发者门户的兴起随着数字化转型的推进,越来越多的企业开始依赖 API 来实现内部系统的连接与外部服务的集成.然而,企业在API管理方面面临着复杂且繁琐的挑战:API的调用关系混乱.难以追踪 ...
day03-了解ajax
Ajax Ajax即Asynchronous Javascript And XML(异步JavaScript和XML). Ajax是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术,这使得程 ...

Transformers包使用记录

任务调用

预训练模型调用

自定义模型推理

Transformers包使用记录的更多相关文章

随机推荐

热门专题