注意力机制

一种神经网络组件,动态计算输入元素间的相关性分数,使模型能够聚焦于数据中最具信息量的部分。

注意力机制 (Attention Mechanism) 是一种让神经网络动态分配计算资源的方法。它为输入序列中的每个元素计算权重分数,使模型能够选择性地关注最相关的信息,而非平等对待所有输入。

自注意力 (Self-Attention) 是 Transformer 架构的核心,通过 Query、Key、Value 三个矩阵计算元素间的相关性。在视觉领域,Vision Transformer (ViT) 将图像分割为 patch 序列,利用自注意力捕获全局依赖关系。