Pirámide de imágenes

Una estructura de datos multirresolución construida mediante el submuestreo progresivo de una imagen, utilizada para lograr invariancia de escala en detección de objetos y coincidencia de plantillas.

Una pirámide de imágenes es una estructura de datos jerárquica que consiste en múltiples copias de la misma imagen a resoluciones progresivamente menores. La base de la pirámide es la imagen original a resolución completa, y cada nivel subsiguiente es una versión reducida del inferior. Esta estructura permite que los algoritmos operen eficientemente a múltiples escalas.

Los dos tipos más comunes son la pirámide gaussiana y la pirámide laplaciana. Una pirámide gaussiana se construye aplicando repetidamente un filtro paso bajo gaussiano seguido de un submuestreo por un factor de 2. El nivel 0 es la imagen original, el nivel 1 tiene la mitad de ancho y alto, y el nivel k tiene resolución 1/2^k de la original. En OpenCV, cv2.pyrDown() realiza un nivel de reducción.

Pirámide gaussiana: Cada nivel suaviza y submuestrea el anterior. El uso de memoria para toda la pirámide es aproximadamente 4/3 del tamaño de la imagen original
Pirámide laplaciana: Almacena la diferencia entre niveles gaussianos adyacentes, capturando información de bordes y detalles en cada escala. Ampliamente utilizada en fusión de imágenes y composición sin costuras
Factor de escala: Aunque un factor de 2 es estándar, intervalos más finos como 2^(1/3) se usan en detectores de características como SIFT para mejor localización de escala

Las pirámides de imágenes tienen amplias aplicaciones. En detección de objetos, en lugar de escanear una ventana deslizante a múltiples tamaños, un detector de tamaño fijo se aplica a cada nivel de la pirámide, reduciendo el costo computacional de cuadrático a lineal en el conteo de escalas. En coincidencia de plantillas, una estrategia de grueso a fino reduce las regiones candidatas a baja resolución antes de refinar a resolución completa. Arquitecturas modernas de aprendizaje profundo como Feature Pyramid Networks (FPN) se basan en este concepto para producir mapas de características multiescala para detección precisa a través de tamaños de objetos.

Pirámide de imágenes

Términos relacionados

Artículos relacionados