Intel
Inteligencia artificial
Open source
Tecnología

Intel Labs lanza dos nuevos modelos para la estimación de la profundidad en la visión artificial

El sello norteamericano ha anunciado dos nuevas herramientas de inteligencia artificial basadas en el código abierto con el propósito de resolver las dificultades que plantea la estimación de la profundidad por ordenador.

Intel

Intel Labs continúa trabajando en resolver las dificultades que plantea la estimación de la profundidad por ordenador en el campo de la visión artificial. Muestra de ello, su último lanzamiento: VI-Depth 1.0 y MiDas 3.1, dos soluciones de inteligencia artificial basadas en el código abierto. En concreto, tal y como han avanzado desde la compañía, la versión 1.0 de VI-Depth responde a un modelo de estimación de profundidad visual-inercial monocular, mientras que el lanzamiento de la versión 3.1 de MiDas se corresponde con una solución para la estimación fiable de la profundidad monocular relativa.

 

Sobre VI-Depth 1.0

La nueva solución firmada por Intel Labs supone una línea de estimación de profundidad visual-inercial que integra la estimación de profundidad monocular y la odometría visual inercial (VIO) para producir estimaciones de profundidad densa con escala métrica. Un método capaz de realizar una alineación global de escala y desplazamiento mediante la profundidad métrica dispersa, seguida de una alineación densa basada en el aprendizaje. La percepción de la profundidad es fundamental para la navegación visual, y estimar correctamente las distancias puede ayudar a planificar el movimiento y evitar obstáculos. Algunas aplicaciones visuales requieren una profundidad estimada con precisión métrica, en la que cada valor de profundidad se proporciona en unidades métricas absolutas y representa la distancia física. 

En este sentido, explican desde el laboratorio de Intel, la estimación precisa de la profundidad de VI-Depth puede ayudar en la reconstrucción de escenas, el mapeado y la manipulación de objetos. Sin embargo, combinar la precisión métrica y la alta generalidad ha supuesto un reto clave en la estimación de la profundidad basada en el aprendizaje. Por ello, VI-Depth incorpora los datos inerciales al proceso de estimación visual de la profundidad, no mediante la terminación de la profundidad de dispersa a densa, sino mediante la alineación de la profundidad de densa a densa utilizando factores de escala estimados y aprendidos.

De esta manera muestra una mejor reducción de errores con la alineación local basada en el aprendizaje que mediante la alineación global por mínimos cuadrados únicamente, y demuestra una transferencia exitosa de conjuntos de datos cruzados de disparo cero desde datos de entrenamiento sintéticos a datos de prueba del mundo real. Este enfoque modular permite la integración directa de los sistemas monoculares de estimación de la profundidad y VIO existentes y futuros. Asimismo resuelve la escala métrica para estimaciones de profundidad monocular métricamente ambiguas, ayudando a la implantación de modelos de estimación de profundidad sólidos y generales. En lo que a la canalización modular respecta, VI-Depth combina la estimación de profundidad basada en datos con el modelo de predicción de profundidad relativa MiDaS, junto con la unidad de medición del sensor IMU. La combinación de fuentes de datos permite a VI-Depth generar una profundidad métrica densa más fiable para cada píxel de una imagen.

 

Solución MiDas 3.1

A finales de 2022, Intel Labs publicó MiDaS 3.1, que añade nuevas funciones y mejoras al modelo de aprendizaje profundo de código abierto para la estimación de la profundidad monocular en la visión artificial. MiDaS, que se ha testado con grandes conjuntos de datos de imágenes diversos, es capaz de proporcionar profundidad relativa en interiores y exteriores, lo que lo convierte en un pilar versátil para muchas aplicaciones. Un rendimiento eficaz y eficiente para estimar la profundidad relativa de cada píxel en una imagen de entrada avala la utilidad de MiDas en una amplia gama de aplicaciones como la robótica, la realidad aumentada (RA), la realidad virtual (RV) y la visión artificial. 

Cabe mencionar que recientemente ha sido integrada en Stable Diffusion 2.0, que es un modelo de difusión latente de texto a imagen capaz de generar imágenes fotorrealistas con entrada de texto. Con la integración de MiDaS, el modelo guiado por la profundidad de Stable Diffusion puede producir imágenes con un aspecto radicalmente distinto del original, pero conservando la geometría, lo que permite diversas aplicaciones. Otro ejemplo del éxito de este modelo son los entornos de RV de 360 grados creados por el creador digital Scottie Fox mediante una combinación de Stable Diffusion y MiDaS. Estos experimentos pueden dar lugar a nuevas aplicaciones virtuales, como la reconstrucción de escenas de crimen para casos judiciales, entornos terapéuticos para la atención sanitaria o experiencias de gaming inmersivas.



Contenido Patrocinado

Forma parte de nuestra comunidad

 

¿Te interesan nuestras conferencias?

 

 
Cobertura de nuestros encuentros
 
 
 
 
Lee aquí nuestra revista de canal

DealerWorld Digital