CNN (Red Neuronal Convolucional)
Arquitectura de aprendizaje profundo que utiliza capas convolucionales y de pooling para extraer jerárquicamente características espaciales de imágenes, convirtiéndose en el modelo estándar para el reconocimiento de imágenes.
Una CNN (Convolutional Neural Network, Red Neuronal Convolucional) aprende patrones espaciales en imágenes de forma eficiente. A diferencia de las redes completamente conectadas que aplanan la estructura espacial, las CNN preservan las relaciones de vecindad mediante convolución, permitiendo la extracción jerárquica de características desde bordes hasta conceptos semánticos.
Componentes clave:
- Capa convolucional: Desliza filtros sobre la entrada detectando características locales. Las capas superficiales capturan bordes; las más profundas reconocen objetos
- Capa de pooling: Reduce la resolución espacial, disminuyendo el cómputo mientras aumenta la robustez ante traslaciones
- Normalización por lotes: Normaliza las distribuciones de entrada, estabilizando el entrenamiento
- Capa completamente conectada: Convierte vectores de características en probabilidades de clase
Arquitecturas emblemáticas:
LeNet-5(1998): Pionera de CNN para reconocimiento de dígitosAlexNet(2012): Ganó ImageNet, encendiendo la revolución del aprendizaje profundoVGGNet(2014): Demostró la importancia de la profundidad con filtros 3×3ResNet(2015): Las conexiones residuales permitieron entrenar redes de más de 100 capasEfficientNet(2019): Escalado unificado de ancho, profundidad y resolución
Más allá de la clasificación, las CNN sirven como columna vertebral para detección de objetos (YOLO, SSD), segmentación (U-Net, DeepLab) y estimación de pose. Los Vision Transformers compiten en tareas a gran escala, pero las CNN siguen dominando en dispositivos de borde.