diciembre 26, 2024

Complete News World

Este artículo de IA propone un modelo de difusión latente para 3D (LDM3D) que genera datos de imágenes y mapas de profundidad a partir de un mensaje de texto determinado.

5 min read
https://arxiv.org/abs/2305.10853

En el campo de la IA generativa, la visión artificial ha progresado enormemente en los últimos años. Stable Diffusion ha transformado la producción de contenido en generación de imágenes al ofrecer software gratuito para producir imágenes RGB aleatorias de alta fidelidad a partir de indicaciones de texto. Esta investigación sugiere un modelo de difusión latente para 3D (LDM3D) basado en Stable Diffusion v1.4. A diferencia del modelo anterior, la Figura 1 ilustra cómo LDM3D puede producir mapas de profundidad y datos de imágenes a partir de un mensaje de texto determinado. Los usuarios pueden crear representaciones RGBD completas de indicaciones de texto, dándoles vida en perspectivas vibrantes y cautivadoras de 360°. En un conjunto de datos de alrededor de 4 millones de tuplas que incluye una imagen RGB, un mapa de profundidad y una descripción, se refinó su modelo LDM3D.

Parte del conjunto de datos LAION-400M, un gran conjunto de datos de leyendas de imágenes con más de 400 millones de pares de leyendas de imágenes, se utilizó para crear este conjunto de datos. El modelo de estimación de profundidad DPT-Large, que ofrece estimaciones de profundidad relativa extremadamente precisas para cada píxel de una imagen, se utilizó para crear los mapas de profundidad utilizados para el ajuste fino. Era esencial usar mapas de profundidad correctos para crear vistas realistas e inmersivas de 360° y permitir a los usuarios experimentar sus indicaciones de texto con gran detalle. Los investigadores de Intel Labs y Blockade Labs crean además LDM3D y están desarrollando DepthFusion, una aplicación que aprovecha fotos RGB 2D y mapas de profundidad para calcular una proyección de 360° usando TouchDesigner, lo que demuestra las posibilidades de LDM3D.

Figura 1: Descripción general de LDM3D: Los mapas de profundidad en escala de grises de 16 bits se comprimen en imágenes de profundidad similar a RGB de 3 canales, que luego se concatenan con las imágenes RGB a lo largo de la dimensión del canal, para demostrar el flujo de trabajo de entrenamiento. El KL-AE modificado se usa para mapear la entrada RGBD concatenada al espacio latente. La representación latente recibe ruido antes de ser eliminada repetidamente por el modelo U-Net. Se utiliza un codificador de texto CLIP congelado para cifrar el mensaje de texto y se utiliza atención cruzada para asignarlo a diferentes capas de U-Net. El decodificador KL recibe la salida sin ruido del espacio latente y la envía de vuelta al espacio de píxeles como una salida RGBD de 6 canales. Luego, el resultado se divide en un mapa de profundidad en escala de grises de 16 bits y una imagen RGB. Ruta de inferencia de texto a imagen mostrada en un marco azul.

DepthFusion tiene el poder de cambiar por completo la forma en que las personas interactúan con el material digital. Un marco flexible llamado TouchDesigner ayuda a crear experiencias multimedia interactivas y envolventes. Su programa utiliza el potencial creativo de touchdesigner para producir fascinantes panoramas de 360° que representan vívidamente indicaciones de texto. Con la ayuda de DepthFusion, los usuarios ahora pueden experimentar sus indicaciones de texto en formas que antes eran inconcebibles, ya sea una descripción de un bosque sereno, un paisaje urbano bullicioso o un universo de ciencia ficción. Esta tecnología tiene el potencial de revolucionar varias industrias, incluidas las de juegos, entretenimiento, diseño y arquitectura.

Hicieron tres contribuciones diferentes en general. (1) Sugieren LDM3D, un nuevo modelo de difusión que, a partir de un aviso de texto, genera imágenes RGBD (imágenes RGB con los correspondientes mapas de profundidad). (2) Crearon DepthFusion, un programa que utiliza fotografías RGBD producidas por LDM3D para ofrecer experiencias inmersivas de 360°. (3) Evalúan la efectividad de las fotos RGBD producidas y las películas inmersivas de 360 ​​grados a través de estudios en profundidad. El estudio presenta LDM3D, un modelo de difusión de última generación que produce imágenes RGBD a partir de señales de texto. También crearon DepthFusion, un programa que utiliza imágenes RGBD producidas por TouchDesigner para brindar experiencias inmersivas e interactivas de 360 ​​grados para ilustrar aún más las posibilidades de LDM3D.

READ  Ray-Ban Stories de Facebook ahora puede grabar hasta 60 segundos de video

Los resultados de este estudio podrían cambiar fundamentalmente la forma en que las personas interactúan con el hardware digital, transformando todo, desde el entretenimiento y los juegos hasta la arquitectura y el diseño. Las contribuciones de este trabajo abren nuevas oportunidades para la investigación en IA generativa multivista y visión artificial. Están interesados ​​en cómo se desarrollará más este campo y quieren que la comunidad se beneficie del trabajo presentado.


Controlar Papel. No olvides unirte nuestro 21k+ ML SubReddit, Canal de discordia, Y Correo electrónico, donde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más. Si tiene alguna pregunta sobre el artículo anterior o si nos perdimos algo, no dude en enviarnos un correo electrónico a [email protected]

🚀 Descubre 100 herramientas de IA en AI Tools Club

Aneesh Tickoo es consultora en prácticas en MarktechPost. Actualmente está cursando sus estudios universitarios en ciencia de datos e inteligencia artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones a su alrededor. Le gusta conectarse con la gente y colaborar en proyectos interesantes.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *