Función de activación
Función no lineal aplicada a la salida de cada neurona en una red neuronal, que permite al modelo aprender patrones complejos más allá de las transformaciones lineales.
Una función de activación es una transformación no lineal aplicada a la salida lineal de una neurona z = Wx + b. Sin ella, apilar capas equivaldría a una única transformación lineal, haciendo imposible resolver problemas no lineales. La elección de la función de activación impacta directamente en la velocidad de entrenamiento y la precisión final.
En visión por computadora, ReLU es el estándar de facto para las capas ocultas. Definida como f(x) = max(0, x), deja pasar los valores positivos sin cambios y anula los negativos. Comparada con sigmoid y tanh, ReLU evita la saturación del gradiente y es computacionalmente económica.
- ReLU:
f(x) = max(0, x). Rápida y favorable para el gradiente, pero las neuronas que solo reciben entradas negativas producen gradientes nulos permanentemente (problema de la ReLU muerta) - Leaky ReLU:
f(x) = max(0.01x, x). Una pequeña pendiente para valores negativos previene las neuronas muertas manteniendo la simplicidad computacional - GELU: Activación suave utilizada en Transformers, aproximada como x multiplicado por la CDF de la distribución normal estándar. Estándar en BERT y Vision Transformer
- Softmax: Función de la capa de salida que produce distribuciones de probabilidad entre clases, esencial para la clasificación de imágenes multiclase
Para superresolución y generación de imágenes, las capas de salida usan tanh (rango -1 a 1) o sigmoid (rango 0 a 1) para restringir los valores de píxel. El principio es: variantes de ReLU para capas ocultas, funciones específicas según la tarea para las salidas.