前言 本文介绍了Transformer的基本流程,分块的两种实现方式,Position Emebdding的几种实现方式,Encoder的实现方式,最后分类的两种方式,以及最重要的数据格式的介绍. 本文来自公众号CV技术指南的技术总结系列 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结.最新技术跟踪.经典论文解读.CV招聘信息. 在讲如何搭建之前,先回顾一下Transformer在计算机视觉中的结构是怎样的.这里以最典型的ViT为例. 如图所示,对于一张图像,先将其分割成NxN个…