失效链接处理 |
中国人工pd白皮?mdash;—大模型技术(2023版)(j)PDF 下蝲
相关截图Q?/strong>
![]() 主要内容Q?/strong>
2.1 Transformer 架构
Transformer 架构[13]是目前语a大模型采用的L架构[5]Q其?/span>
于自注意力机?/span>(Self-attention Mechanism)模型。其主要思想是通过?/span>
注意力机制获取输入序列的全局信息Qƈ这些信息通过|络层进?/span>
传递。标准的 Transformer 如图 2-1 所C,是一个编码器-解码器架构,
其编码器和解码器均由一个编码层和若q相同的 Transformer 模块?/span>
堆叠l成Q编码器?nbsp;Transformer 模块层包括多头注意力层和全连?/span>
前馈|络层,q两部分通过D差q接和层归一化操作连接v来。与~?/span>
码器模块相比Q解码器׃需要考虑解码器输Z景信息进行生
成,其中每个 Transformer 层多?jin)一个交叉注意力层。相比于传统?/span>
环神l网l(Recurrent Neural Network, RNNQ和长短时记忆神l网
l(Long Short-Term Memory Network, LSTMQ,Transformer 架构?/span>
优势在于它的q行计算能力Q即不需要按照时间步序地进行计?/span>
Transformer 架构包含~码层与 Transformer 模块两个核心(j)lgQ?/span>
~码层,主要是将输入词序列映到q箋值向量空间进行编码,
每个词编码由词嵌入和位置~码构成Q由二者加和得刎ͼ(x)
1Q词嵌入Q在 Transformer 架构中,词嵌入是输入数据的第一?/span>
处理q程Q它?yu)词映射到高l空间中的向量,可以捕获词汇的语义信
息,如词义和语法关系。每个词都被转化Z个固定长度的向量Q然
后被送入模型q行处理?/span>
|