Mecanismo de atención
Componente de redes neuronales que calcula dinámicamente puntuaciones de relevancia entre los elementos de entrada, permitiendo al modelo enfocarse en las partes más informativas de los datos.
Un mecanismo de atención calcula dinámicamente pesos de importancia para cada elemento de una entrada, permitiendo al modelo enfocarse en la información más relevante. Propuesto originalmente para traducción automática en 2014, se convirtió en la piedra angular de la arquitectura Transformer en 2017.
En visión por computadora, la autoatención modela dependencias de largo alcance entre posiciones espaciales distantes, superando el campo receptivo limitado de las convoluciones. Vision Transformer (ViT) demostró que la autoatención pura sobre parches de imagen puede igualar o superar el rendimiento de las CNN.
- Atención de producto escalar escalado: Calcula pesos a partir de consulta
Q, claveKy valorVusandosoftmax(QK^T / sqrt(d_k))V - Atención multicabeza: Ejecuta múltiples operaciones de atención en paralelo a través de subespacios, capturando patrones relacionales diversos. Los modelos de visión típicamente usan de 12 a 16 cabezas
- Atención cruzada: Aprende correspondencias entre modalidades como texto e imagen. En Stable Diffusion, la atención cruzada alinea embeddings de texto con características espaciales
La atención es integral para la detección de objetos (DETR), segmentación y generación de imágenes. El coste cuadrático ha impulsado variantes eficientes incluyendo atención lineal, flash attention y patrones dispersos.