聊聊从源码来看ChatGLM-6B的模型结构

基于ChatGLM-6B第一版，要注意还有ChatGLM2-6B以及ChatGLM3-6B

概述

ChatGLM是transformer架构的神经网络模型，因此从transformer结构入手，分析其源码结构。

transformer结构：

转载请备注出处：https://www.cnblogs.com/zhiyong-ITNote/

位置编码

ChatGLM-6B的位置编码采用的旋转位置编码(RoPB)实现。其源码：

class RotaryEmbedding(torch.nn.Module):

    def __init__(self, dim, base=10000, precision=torch.half, learnable=False):

        super().__init__()

        inv_freq = 1. / (base ** (torch.arange(0, dim, 2).float() / dim))

        inv_freq = inv_freq.half()

        self.learnable = learnable

        if learnable:

            self.inv_freq = torch.nn.Parameter(inv_freq)

            self.max_seq_len_cached = None

        else:

            self.register_buffer('inv_freq', inv_freq)

            self.max_seq_len_cached = None

            self.cos_cached = None

            self.sin_cached = None

        self.precision = precision

    def _load_from_state_dict(self, state_dict, prefix, local_metadata, strict, missing_keys, unexpected_keys,

                              error_msgs):

        pass

    def forward(self, x, seq_dim=1, seq_len=None):

        if seq_len is None:

            seq_len = x.shape[seq_dim]

        if self.max_seq_len_cached is None or (seq_len > self.max_seq_len_cached):

            self.max_seq_len_cached = None if self.learnable else seq_len

            t = torch.arange(seq_len, device=x.device, dtype=self.inv_freq.dtype)

            freqs = torch.einsum('i,j->ij', t, self.inv_freq)

            # Different from paper, but it uses a different permutation in order to obtain the same calculation

            emb = torch.cat((freqs, freqs), dim=-1).to(x.device)

            if self.precision == torch.bfloat16:

                emb = emb.float()

            # [sx, 1 (b * np), hn]

            cos_cached = emb.cos()[:, None, :]

            sin_cached = emb.sin()[:, None, :]

            if self.precision == torch.bfloat16:

                cos_cached = cos_cached.bfloat16()

                sin_cached = sin_cached.bfloat16()

            if self.learnable:

                return cos_cached, sin_cached

            self.cos_cached, self.sin_cached = cos_cached, sin_cached

        return self.cos_cached[:seq_len, ...], self.sin_cached[:seq_len, ...]

    def _apply(self, fn):

        if self.cos_cached is not None:

            self.cos_cached = fn(self.cos_cached)

        if self.sin_cached is not None:

            self.sin_cached = fn(self.sin_cached)

        return super()._apply(fn)

## 转载请备注出处：https://www.cnblogs.com/zhiyong-ITNote/

激活函数

ChatGLM-6B采用的激活函数是GeLU(高斯误差线性单元)，其源码：

@torch.jit.script

def gelu_impl(x):

    """OpenAI's gelu implementation."""

    return 0.5 * x * (1.0 + torch.tanh(0.7978845608028654 * x *

                                       (1.0 + 0.044715 * x * x)))

def gelu(x):

    return gelu_impl(x)

编码器-解码器(encoder-decoder)

接下来就是编码器解码器结构，如何抓住模型源头来分析？可以从transformers的API入手：

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True)

model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True).half().to("cuda:1").eval()

print(mode)

## 转载请备注出处：https://www.cnblogs.com/zhiyong-ITNote/

输出：

ChatGLMForConditionalGeneration(

  (transformer): ChatGLMModel(

    (word_embeddings): Embedding(130528, 4096)

    (layers): ModuleList(

      (0-27): 28 x GLMBlock(

        (input_layernorm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)

        (attention): SelfAttention(

          (rotary_emb): RotaryEmbedding()

          (query_key_value): Linear(in_features=4096, out_features=12288, bias=True)

          (dense): Linear(in_features=4096, out_features=4096, bias=True)

        )

        (post_attention_layernorm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)

        (mlp): GLU(

          (dense_h_to_4h): Linear(in_features=4096, out_features=16384, bias=True)

          (dense_4h_to_h): Linear(in_features=16384, out_features=4096, bias=True)

        )

      )

    )

    (final_layernorm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)

  )

  (lm_head): Linear(in_features=4096, out_features=130528, bias=False)

)

从脑图的角度来梳理下其结构

其结构图表示如下：

将结构图与最开始的transformer结构图对比来看，两者还是比较符合的。

官方源码中标注了编码器与解码器是一体的，只需要配置参数即可切换为解码器。如下：

转载请备注出处：https://www.cnblogs.com/zhiyong-ITNote/

聊聊从源码来看ChatGLM-6B的模型结构的更多相关文章

死磕Java之聊聊HashSet源码(基于JDK1.8)
HashSet的UML图 HashSet的成员变量及其含义 public class HashSet<E> extends AbstractSet<E> implements ...
从源码来看ReentrantLock和ReentrantReadWriteLock
上一篇花了点时间将同步器看了一下,心中对锁的概念更加明确了一点,知道我们所使用到的锁是怎么样获取同步状态的,我们也写了一个自定义同步组件Mutex,讲到了它其实就是一个简版的ReentrantLock ...
死磕Java之聊聊ThreadLocal源码(基于JDK1.8)
记得在一次面试中被问到ThreadLocal,答得马马虎虎,所以打算研究一下ThreadLocal的源码面试官 : 用过ThreadLocal吗? 楼主答 : 用过,当时使用ThreadLocal的 ...
聊聊ThreadLocal源码(基于JDK1.8)
原文:https://cloud.tencent.com/developer/article/1333298 聊聊JDK源码中ThreadLocal的实现主要方法: ThreadLocal的get方 ...
死磕Java之聊聊HashMap源码(基于JDK1.8)
死磕Java之聊聊HashMap源码(基于JDK1.8) http://cmsblogs.com/?p=4731 为什么面试要问hashmap 的原理
Spring5源码分析(1)设计思想与结构
1 源码地址(带有中文注解)git@github.com:yakax/spring-framework-5.0.2.RELEASE--.git Spring 的设计初衷其实就是为了简化我们的开发基于 ...
Redis 源码简洁剖析 09 - Reactor 模型
Reactor 模型事件驱动框架 Redis 如何实现 Reactor 模型事件的数据结构:aeFileEvent 主循环:aeMain 函数事件捕获与分发:aeProcessEvents 函数 ...
死磕Java之聊聊ArrayList源码(基于JDK1.8)
工作快一年了,近期打算研究一下JDK的源码,也就因此有了死磕java系列 ArrayList 是一个数组队列,相当于动态数组.与Java中的数组相比,它的容量能动态增长.它继承于AbstractLis ...
死磕Java之聊聊LinkedList源码(基于JDK1.8)
工作快一年了,近期打算研究一下JDK的源码,也就因此有了死磕java系列 LinkedList 是一个继承于AbstractSequentialList的双向链表,链表不需要capacity的设定,它 ...
从OkHttp的源码来看 HTTP
先来了解一下OkHttp的历史,最早是square公司觉得Android给的HttpClient这块的库不太好用,于是乎做了一层包装,再后来他们包装的这个库被Android官方给收回去了,而Andro ...

随机推荐

AIGC革新，将文字或者LOGO融入AI视频基于PIKA-labs(Python3.10)
很多平台都会禁止用户使用带有网址或者二维码的头像以及文章配图,这样可以有效的防止用户的一些"导流"行为.当然,头像.文章或者视频现在都是AI来审,毕竟现在人工的成本实在太高,但是如 ...
高可用mongodb集群(分片+副本):性能测试
目录 ■ 为指定的库和表指定hash分片 ■ 测试模型,即workload模型 ■ 测试指标 ■ workload_s6 ■ 分片集群性能测试数据统计分析 ■ 测试结论 Yahoo! Cloud Se ...
造轮子之EventBus
前面基础管理的功能基本开发完了,接下来我们来优化一下开发功能,来添加EventBus功能.EventBus也是我们使用场景非常广的东西.这里我会实现一个本地的EventBus以及分布式的EventBu ...
再学Blazor——扩展方法
上篇提到 Blazor 组件的高级写法,是采用扩展方法对 HTML 元素和组件进行扩展,以便于书写组件结构和代码阅读.本篇主要介绍扩展方法实现的思路. 什么是扩展方法要扩展哪个类扩展方法的实现 1 ...
XX-net安装
1.下载https://github.com/XX-net/XX-Net 2. 3. 4.运行google浏览器 5.找到安装XX-net的位置,点击即可访问google ps:校园网用户可以直接使用 ...
[论文研读]空天地一体化(SAGIN)的网络安全_A_Survey_on_Space-Air-Ground-Sea_Integrated_Network_Security_in_6G
------------恢复内容开始------------ 空天地一体化(SAGIN)的网络安全目前关注的方面: 集中在安全通信.入侵检测.侧通道攻击.GPS欺骗攻击.网络窃听.消息修改/注入等方 ...
shell脚本之语句（条件、循环）
条件语句 1.测试使用[]时要使用空格,注意格式格式1:test 条件表达式格式2:[ 条件表达式 ]#注意空格注意[]空格,否则会失败测试是否成功使用 $?返回值来判断 [ 操 ...
一篇文章带你掌握测试基础语言——Python
一篇文章带你掌握测试基础语言--Python 本篇文章针对将Python作为第二语言的用户观看(已有Java或C基础的用户) 因为之前学习过Java语言,所以本篇文章主要针对Python的特征和一些基 ...
BABYRE
一道SMC,第一次做主函数的伪代码,judge函数是关键函数,不过啥都没有发现 judge 方法是判断的主要逻辑,在第 15 行时调用判断. 但是静态分析时不能生成 judge 的伪代码. 原因是 ...
re1-100
虽然关键的判断函数和"成功"的提示也在这里,但是具体对输入flag的操作却在后面看到对数组bufParentRead[1]开始赋值"53fc275d81",b ...

聊聊 从源码来看ChatGLM-6B的模型结构

概述