ScanMeNow: Redefiniendo la creación de avatares digitales

Esta solución, de desarrollo nacional y con sede en A Coruña, permite crear gemelos digitales humanos 3D hiperrealistas en cuestión de minutos mediante procesos 100 % automatizados. El proyecto está liderado a nivel tecnológico por Víctor M. Feliz, CTO y responsable del desarrollo, con un amplio bagaje en modelos volumétricos 4D, factor clave en la concepción y madurez de ScanMeNow®.


En la creación de contenidos digitales, sin duda, uno de los grandes retos a los que desde siempre se han enfrentado los estudios, es la creación de personajes humanos realistas. El denominado “Uncany Valley” supone una barrera difícilmente superable y conseguir incluir gemelos digitales humanos en las producciones, debido a su coste y complejidad técnica, hasta ahora estaba reservado exclusivamente a los grandes estudios con enormes presupuestos y costosos sistemas de captura volumétrica o reconstrucción 3D.

ScanMeNow® busca cambiar ese paradigma. Con un sistema portable y modular, que cuenta con más de un centenar de cámaras sincronizadas y un “pipeline” automático de reconstrucción 3D basado en sistemas de Inteligencia Artificial, esta tecnología española pretende democratizar el acceso a la creación 3D volumétrica de avatares de alta fidelidad para animación, VFX y videojuegos.

Tecnología al servicio de la creación digital de avatares

El sistema combina fotografía multicámara y algoritmos de reconstrucción que generan una volumetría precisa y detallada del sujeto.

La estructura, más compacta que los “rigs” tradicionales de fotogrametría para cine, permite capturas casi instantáneas sin necesidad de montajes complejos o estudios dedicados. El objetivo es claro: reducir exponencialmente el coste y aumentar la frecuencia con la que los equipos pueden crear actores digitales, figurantes o personajes de referencia.

ScanMeNow® nace con una ambición clara: convertir la captura volumétrica en un servicio accesible para eventos, instituciones culturales, destinos turísticos y marcas. Su instalación física – una estructura de 3,5 metros de diámetro y 2,35 de altura – alberga 105 cámaras sincronizadas que disparan de forma sincronizada.

Así funciona: entrar, posar y convertirse en un avatar

El usuario se sitúa en el centro de la estructura, se realiza una captura simultánea en un par de segundos y las imágenes pasan a un sistema de creación del 3DGS (Gaussian Splatting). Este proceso, totalmente automatizado y sin requerir intervención humana en ningún punto de este, entrega un modelo final con todo lujo de detalles en cuestión de minutos.

Esta automatización de todo el proceso implicó el desarrollo de una plataforma de gestión integral de todos los procesos, y que tuvo como principales retos:


  • Automatizar de extremo a extremo el flujo de trabajo: desde el disparo de las cámaras hasta la web final y su material de difusión.
  • Eliminación de intervención humana, incluyendo especialmente las fases críticas de creación de máscaras, la reconstrucción geométrica y el entrenamiento de “Gaussian Splatting”.
  • Optimización el uso de recursos de cómputo, centrándolos solo en las regiones útiles de la escena mediante el uso intensivo de máscaras, con el consiguiente impacto en velocidad, coste de operación y huella ecológica.
  • Garantizar trazabilidad y control de integridad de cada captura mediante un manifiesto estructurado y un sistema automático de validación antes del procesamiento.
  • Producir resultados listos para consumo: modelos ultra comprimidos, miniaturas y vídeos automáticos.

Arquitectura end-to-end de alto rendimiento

La arquitectura general del sistema se concibe como un flujo integrado y automatizado que cubre todo el ciclo de vida de una captura, desde la adquisición de imágenes hasta la generación y publicación del resultado final. A alto nivel, el sistema se organiza en una serie de bloques funcionales claramente definidos, cada uno con responsabilidades específicas y bien delimitadas.

El proceso comienza con el módulo de captura y sincronización de cámaras, encargado de coordinar de forma precisa el disparo simultáneo de todas las cámaras que componen el “rig”. Este módulo gestiona el almacenamiento local de las imágenes generadas y produce los metadatos necesarios para describir las condiciones y parámetros de la sesión de captura, garantizando coherencia temporal y técnica en el conjunto de datos obtenido.


Una vez finalizada la captura, los datos se transfieren desde las máquinas de captura a la máquina de control asociada al escáner. En este punto se genera un manifiesto que consolida toda la información técnica de la sesión. Dicho manifiesto incluye, además, elementos auxiliares como una miniatura para revisión rápida y un código QR único que permite la identificación inequívoca de la captura a lo largo de todo el pipeline.

El siguiente bloque corresponde a la ingesta en la nube y al sistema de detección de nuevas capturas. Este componente monitoriza de forma continua una carpeta de entrada, verifica la completitud y consistencia de cada sesión recibida y, una vez validada, da de alta automáticamente la captura en la cola de procesamiento, eliminando la necesidad de intervención manual.

El núcleo del sistema reside en el procesamiento principal. En primer lugar, se lleva a cabo la generación de máscaras mediante modelos de inteligencia artificial ejecutados “on-premise”, lo que permite segmentar y aislar de forma precisa las regiones de interés. A continuación, se realiza la reconstrucción de la estructura mediante técnicas de Structure from Motion, utilizando una versión de COLMAP modificada para incorporar el uso de dichas máscaras durante el proceso de reconstrucción. Con la geometría estimada, se procede al entrenamiento del modelo de “Gaussian Splatting”, aplicando un uso avanzado de las máscaras para focalizar el aprendizaje en las zonas relevantes y eliminar artefactos no deseados.

Para eliminar la dependencia de servicios externos y eliminar la intervención humana, ScanMeNow® cuenta con un sistema de generación automática de máscaras basado en IA, ejecutado íntegramente en la infraestructura propia. Este sistema proporciona mayor control, eficiencia y disponibilidad a lo largo de todo el flujo de trabajo.

La solución se estructura como un “pipeline” de segmentación que incluye una fase de preprocesado, donde las imágenes se normalizan, escalan y adaptan al modelo de IA, seguida de una fase de inferencia en la que el modelo se ejecuta sobre cada imagen del “rig”. Para esta inferencia, se prioriza al máximo rendimiento en entornos de producción. El proceso se completa con un postprocesado que aplica binarización, operaciones morfológicas para la limpieza de ruido y suavizado de bordes para mejorar la calidad de las máscaras.

Al prescindir de APIs de terceros, el sistema elimina costes variables, evita riesgos de privacidad y garantiza su funcionamiento incluso sin conexión a servicios externos. Además, sustituye tareas manuales tradicionalmente necesarias en flujos de reconstrucción SfM, como el ajuste manual de máscaras o la definición de referencias entre puntos, integrando máscaras generadas automáticamente desde el inicio del pipeline.

Estas máscaras son un componente clave que mejora de forma directa las fases posteriores de reconstrucción SfM y el entrenamiento de modelos de “Gaussian Splatting”.

Finalmente, el sistema contempla una fase de postproceso y publicación, en la que se refinan los resultados generados y se preparan para su distribución o consumo, cerrando así un flujo de trabajo coherente, reproducible y escalable.

IA responsable

Basados en un entrenamiento ético y legal, todos los modelos han sido desarrollados por la compañía, en colaboración su “partner” tecnológico ILUX Visual Technologies, y es propietaria de estos y respetando la legislación europea en materia de IA. Sin dependencias de modelos ni plataformas externas, cumple estrictamente con el RGPD y la LOPDGDD. Los datos se utilizan exclusivamente con la finalidad descrita en nuestros términos, sin cesión a terceros y bajo los máximos estándares de seguridad, y con el firme compromiso con la protección de datos y la confidencialidad de nuestros clientes y usuarios.

Recientemente, ILUX Visual Technologies, ha sido galardonada con el Premio Nacional Empresa éTICa otorgado por el Consejo General de Colegios de Ingeniería Informática de España, en reconocimiento a su compromiso con la ética en las prácticas comerciales y operativas.


Pipeline pensado para VFX

ScanMeNow® realiza la captura de datos en cuestión de segundos, sincronizando toda la base de datos generada por más de un centenar de cámaras.Una vez realizada la captura, la plataforma procesa automáticamente el “dataset” y genera un modelo exportable para su uso en numerosos softwares de creación 3D, en procesos de “previz” o “layout”, y motores de render en tiempo real, como Unreal Engine o Unity.

El sector audiovisual avanza hacia “pipelines” cada vez más rápidos, más híbridos y basados en datos reales. La digitalización del actor converge en tecnologías de captura volumétrica que, hasta ahora, solo estaban al alcance de unos pocos.

ScanMeNow® llega para cambiar esa ecuación: una solución accesible, portable y pensada para facilitar la creación de personajes digitales de alta calidad. Un avance que puede redefinir la forma en que estudios de animación, VFX y videojuegos trabajan, producen y diseñan historias.

AUTOR

Manuel Meijide

Director de Mundos Digitales | Co-Founder & BDM, ScanMeNow | Presidente, AI Assemble

COMPARTE ESTE CONTENIDO