アテンション機構
読み: あてんしょんきこう
入力データの各部分に対する重要度 (注意の重み) を動的に計算し、関連性の高い情報に集中して処理を行うニューラルネットワークの仕組み。
アテンション機構 (Attention Mechanism) は、入力シーケンスや特徴マップの各要素に対して重要度スコアを動的に算出し、関連性の高い部分に重点を置いて情報を集約するニューラルネットワークの構成要素である。2014 年に機械翻訳の分野で提案され、2017 年の Transformer アーキテクチャで中核技術として確立された。
画像処理においては、Self-Attention が画像内の離れた位置間の関係性を直接モデル化できるため、CNN の局所的な受容野の制約を克服する手段として広く活用されている。Vision Transformer (ViT) は画像パッチ間の Self-Attention のみで画像認識を実現した。
- Scaled Dot-Product Attention: クエリ
Q、キーK、バリューVの 3 つの行列から注意重みを計算する。Attention(Q,K,V) = softmax(QK^T / √d_k)Vで定義される - Multi-Head Attention: 異なる部分空間で複数のアテンションを並列に計算し、多様な関係性を同時に捉える。ViT では 12〜16 ヘッドが一般的
- Cross-Attention: 異なるモダリティ (テキストと画像など) 間の対応関係を学習する。Stable Diffusion ではテキスト埋め込みと画像特徴の間で Cross-Attention が使われる
アテンション機構は物体検出 (DETR)、セマンティックセグメンテーション、画像生成 (拡散モデル) など画像処理の幅広いタスクで不可欠な技術となっている。計算量が入力長の 2 乗に比例する課題に対しては、線形アテンションやフラッシュアテンションなどの効率化手法が研究されている。