Fundamentos de NeRF - Reconstrucción 3D de escenas a partir de imágenes

2026-05-30 · 9 min de lectura

Qué es NeRF - Representación neuronal de escenas 3D

NeRF (Neural Radiance Fields) es una técnica propuesta por Mildenhall et al. en 2020 que representa una escena 3D como una función continua aprendida por una red neuronal. A partir de múltiples fotografías tomadas desde diferentes ángulos, NeRF aprende a predecir el color y la densidad en cualquier punto del espacio 3D, permitiendo sintetizar vistas desde ángulos nunca fotografiados.

Principio fundamental: NeRF modela una escena como una función F(x, y, z, θ, φ) → (r, g, b, σ), donde (x, y, z) es la posición 3D, (θ, φ) es la dirección de visión, (r, g, b) es el color emitido y σ es la densidad volumétrica. Esta función se implementa como un MLP (Perceptrón Multicapa) con aproximadamente 1 millón de parámetros.

Diferencia con métodos tradicionales:

Fotogrametría (SfM + MVS): Reconstruye nubes de puntos/mallas explícitas. Tiene dificultades con superficies reflectantes y transparentes
NeRF: Representación implícita continua. Maneja naturalmente reflejos, transparencias y efectos dependientes de la vista
Light Field: Almacena rayos de luz directamente. Requiere enorme almacenamiento

Aplicaciones:

Recorridos virtuales de inmuebles y patrimonio cultural
Efectos especiales cinematográficos y producción de contenido volumétrico
Comercio electrónico (visualización 3D de productos)
Robótica y conducción autónoma (comprensión de escenas)
Preservación digital de sitios históricos

Renderizado volumétrico - La base matemática de NeRF

El renderizado volumétrico es el mecanismo central que permite a NeRF generar imágenes a partir de su representación 3D. Para cada píxel de la imagen de salida, se traza un rayo desde la cámara a través de la escena, acumulando color y opacidad a lo largo del camino.

Ecuación de renderizado volumétrico:

C(r) = ∫ T(t) · σ(r(t)) · c(r(t), d) dt

donde T(t) = exp(-∫σ(r(s))ds) es la transmitancia acumulada (probabilidad de que el rayo llegue al punto t sin ser absorbido), σ es la densidad, c es el color y d es la dirección del rayo.

Discretización: En la práctica, la integral se aproxima muestreando N puntos a lo largo de cada rayo:

C(r) ≈ Σ T_i · (1 - exp(-σ_i · δ_i)) · c_i

donde δ_i es la distancia entre muestras consecutivas. Típicamente se usan 64-256 muestras por rayo.

Muestreo jerárquico: NeRF usa dos redes: una "gruesa" que muestrea uniformemente para identificar regiones con alta densidad, y una "fina" que concentra muestras adicionales en esas regiones. Esto mejora la eficiencia sin sacrificar calidad en las superficies.

Codificación posicional: Las coordenadas (x, y, z) se transforman mediante funciones sinusoidales de múltiples frecuencias antes de entrar a la red: γ(p) = [sin(2⁰πp), cos(2⁰πp), ..., sin(2^(L-1)πp), cos(2^(L-1)πp)]. Esto permite a la red capturar detalles de alta frecuencia que un MLP simple no podría representar.

Entrenamiento de NeRF - Datos, proceso y requisitos

Entrenar un modelo NeRF requiere un conjunto de imágenes con poses de cámara conocidas. El proceso de entrenamiento optimiza los pesos de la red neuronal para que las imágenes renderizadas coincidan con las fotografías reales.

Requisitos de datos:

Imágenes: 50-200 fotografías de la escena desde diferentes ángulos. Mayor cobertura angular produce mejores resultados
Poses de cámara: Posición y orientación exacta de cada foto. Se obtienen con COLMAP (Structure from Motion)
Parámetros intrínsecos: Distancia focal, punto principal, distorsión del lente

Pipeline de preparación de datos:

# 1. Extraer fotogramas (si es video)
ffmpeg -i video.mp4 -qscale:v 1 -qmin 1 frames/%04d.jpg
# 2. Estimar poses con COLMAP
colmap feature_extractor --database_path db.db --image_path frames/
colmap exhaustive_matcher --database_path db.db
colmap mapper --database_path db.db --image_path frames/ --output_path sparse/

Función de pérdida: MSE (Error Cuadrático Medio) entre los píxeles renderizados y los píxeles reales de las imágenes de entrenamiento. Se seleccionan rayos aleatorios en cada iteración (típicamente 4096 rayos por lote).

Tiempo de entrenamiento: El NeRF original requiere 1-2 días en una GPU NVIDIA V100 para una sola escena. Los métodos modernos (Instant NGP) reducen esto a segundos o minutos.

Limitaciones del NeRF original: Lento en entrenamiento e inferencia, no maneja escenas dinámicas, requiere poses precisas, y cada modelo es específico para una sola escena.

Instant NGP y métodos de aceleración - NeRF en tiempo real

La principal limitación del NeRF original era su velocidad. Desde 2022, múltiples métodos han logrado entrenamiento en segundos y renderizado en tiempo real, haciendo NeRF práctico para aplicaciones reales.

Instant NGP (NVIDIA, 2022): Reemplaza el MLP grande por una tabla hash multiescala de características aprendibles. En lugar de pasar coordenadas por una red profunda, las coordenadas se usan para indexar una estructura de datos hash que almacena vectores de características, seguida de un MLP pequeño (2 capas).

Ventajas de Instant NGP:

Entrenamiento en 5-15 segundos (vs. 1-2 días del original)
Renderizado a 30+ fps en resolución HD
Menor consumo de memoria que el MLP grande
Calidad comparable o superior al NeRF original

TensoRF (2022): Descompone el campo de radiancia en componentes tensoriales de bajo rango (vectores y matrices). Logra alta calidad con entrenamiento rápido (30 minutos) y representación compacta (< 100MB por escena).

Plenoxels (2022): Elimina completamente las redes neuronales, usando una cuadrícula de vóxeles dispersa con armónicos esféricos. Entrenamiento en 11 minutos con calidad comparable a NeRF. Demuestra que la representación neuronal no es estrictamente necesaria.

Nerfacto (Nerfstudio, 2023): Implementación práctica que combina las mejores técnicas: codificación hash, muestreo basado en propuesta, regularización de distorsión y pérdida de profundidad. Disponible como framework de código abierto con interfaz web para visualización.

3D Gaussian Splatting - El paradigma alternativo

3D Gaussian Splatting (Kerbl et al., 2023) representa un cambio de paradigma respecto a NeRF. En lugar de una representación implícita consultada por rayos, usa millones de gaussianas 3D explícitas que se proyectan ("splatean") directamente en la imagen.

Representación: Cada gaussiana se define por:

Posición 3D (μ): Centro de la gaussiana
Covarianza 3D (Σ): Forma y orientación (elipsoide)
Opacidad (α): Transparencia
Color (armónicos esféricos): Color dependiente de la dirección de vista

Proceso de renderizado: Las gaussianas se proyectan en 2D, se ordenan por profundidad y se mezclan de adelante hacia atrás usando alpha compositing. Este proceso es altamente paralelizable en GPU mediante rasterización diferenciable.

Ventajas sobre NeRF:

Velocidad de renderizado: 100-200 fps a 1080p (vs. 1-30 fps de NeRF acelerado)
Entrenamiento rápido: 5-30 minutos para alta calidad
Editable: Las gaussianas individuales pueden moverse, eliminarse o modificarse
Sin artefactos de aliasing: La naturaleza continua de las gaussianas evita artefactos de muestreo

Limitaciones:

Alto consumo de memoria (millones de gaussianas × parámetros por gaussiana)
Dificultad para representar superficies perfectamente planas
La inicialización requiere una nube de puntos SfM de buena calidad

Herramientas: La implementación oficial está disponible en GitHub. gsplat (Nerfstudio) proporciona una implementación optimizada en Python/CUDA. SIBR viewer permite visualización interactiva en tiempo real.

3DCG 関連の書籍は Amazon でも入手できます

Flujo de trabajo práctico y herramientas - De fotos a modelo 3D

Esta sección presenta un flujo de trabajo completo para crear reconstrucciones 3D a partir de fotografías, incluyendo la selección de herramientas y consejos para obtener los mejores resultados.

Captura de imágenes - Mejores prácticas:

Capturar 50-300 imágenes cubriendo todos los ángulos del objeto/escena
Mantener iluminación consistente (evitar cambios de luz entre tomas)
Superposición del 60-80% entre imágenes consecutivas
Evitar superficies puramente reflectantes o transparentes (sin textura)
Usar trípode o estabilización para evitar desenfoque de movimiento

Frameworks recomendados:

Nerfstudio: Framework integral con múltiples métodos (Nerfacto, Instant NGP, Gaussian Splatting). Interfaz web para visualización. pip install nerfstudio
Instant NGP (NVIDIA): Máxima velocidad de entrenamiento. Requiere GPU NVIDIA con soporte CUDA
3D Gaussian Splatting: Mejor calidad de renderizado en tiempo real. Implementación oficial en C++/CUDA
COLMAP: Estándar para estimación de poses de cámara (SfM). Necesario como preprocesamiento para todos los métodos

Pipeline completo:

# Con Nerfstudio
ns-process-data images --data ./photos --output-dir ./processed
ns-train nerfacto --data ./processed
ns-viewer --load-config outputs/.../config.yml
ns-export gaussian-splat --load-config outputs/.../config.yml

Requisitos de hardware:

Mínimo: GPU con 8GB VRAM (RTX 3070), 16GB RAM, SSD
Recomendado: GPU con 24GB VRAM (RTX 4090), 32GB RAM, NVMe SSD
Entrenamiento en la nube: Google Colab Pro (A100), AWS p4d instances, Lambda Cloud

Exportación y uso: Los modelos pueden exportarse como nubes de puntos (PLY), mallas (OBJ/GLB) o formatos nativos para visualización web (Three.js, Luma AI viewer). Para integración en motores de juegos (Unity, Unreal), existen plugins específicos para Gaussian Splatting.

Fundamentos de NeRF - Reconstrucción 3D de escenas a partir de imágenes

Qué es NeRF - Representación neuronal de escenas 3D

Renderizado volumétrico - La base matemática de NeRF

Entrenamiento de NeRF - Datos, proceso y requisitos

Instant NGP y métodos de aceleración - NeRF en tiempo real

3D Gaussian Splatting - El paradigma alternativo

Flujo de trabajo práctico y herramientas - De fotos a modelo 3D

Artículos relacionados

Tecnología y aplicaciones de estimación de profundidad monocular - Inferir profundidad desde una sola imagen

Cómo funcionan los modelos de difusión - Análisis técnico de Stable Diffusion

Aprendizaje por transferencia para clasificación de imágenes con datos limitados - Guía de Fine-tuning

Fundamentos de nubes de puntos y reconstrucción 3D - De la adquisición al procesamiento

Visión estéreo y medición de distancia - Recuperar información 3D a partir de disparidad

Aumento de datos para aprendizaje automático - Técnicas prácticas de augmentación de imágenes

Términos relacionados