Descubra Objaverse-XL: un conjunto de datos abierto de más de 10 millones de objetos 3D
6 min readUn avance reciente en IA ha sido la importancia de la escala en el avance del progreso en varios campos. Los modelos grandes han demostrado habilidades notables en la comprensión del lenguaje, la generación, el aprendizaje de representaciones, las tareas multimodales y la generación de imágenes. Con un número cada vez mayor de parámetros que se pueden aprender, las redes neuronales modernas consumen grandes cantidades de datos. Como resultado, las capacidades exhibidas por estos modelos han visto mejoras dramáticas.
Un ejemplo es GPT-2, que rompió las barreras de datos al consumir alrededor de 30 mil millones de tokens de idioma hace unos años. GPT-2 mostró resultados prometedores de tiro cero en los puntos de referencia de NLP. Sin embargo, los modelos más nuevos como Chinchilla y LLaMA han superado a GPT-2 al consumir billones de tokens rastreados en la web. Superaron fácilmente a GPT-2 en términos de puntos de referencia y capacidades. En visión por computadora, ImageNet inicialmente constaba de un millón de imágenes y era el punto de referencia para el aprendizaje de representaciones. Pero con la escala de conjuntos de datos a miles de millones de imágenes a través del rastreo web, conjuntos de datos como LAION5B han producido representaciones visuales poderosas, como se ve con modelos como CLIP. El cambio de ensamblar conjuntos de datos manualmente a recopilarlos de varias fuentes a través de la web ha sido clave para esta escala de millones a miles de millones de puntos de datos.
Si bien el lenguaje y los datos de imágenes han evolucionado significativamente, otras áreas, como la visión por computadora en 3D, aún no se han puesto al día. Tareas como generar y reconstruir objetos 3D se basan en pequeños conjuntos de datos hechos a mano. ShapeNet, por ejemplo, depende de diseñadores 3D profesionales que utilizan un software costoso para crear activos, lo que hace que el proceso sea difícil de subcontratar y escalar. La escasez de datos se ha convertido en un cuello de botella para los métodos de aprendizaje de visión por computadora en 3D. La generación de objetos 3D todavía va muy por detrás de la generación de imágenes 2D, y a menudo se basa en modelos entrenados en grandes conjuntos de datos 2D en lugar de ser entrenados desde cero en datos 3D. La creciente demanda e interés en las tecnologías de realidad aumentada (AR) y realidad virtual (VR) subraya aún más la necesidad urgente de aumentar los datos 3D.
Para abordar estas limitaciones, los investigadores del Instituto Allen para IA, la Universidad de Washington, Seattle, la Universidad de Columbia, Stability AI, CALTECH y LAION presentan Objaverse-XL como un conjunto de datos web a gran escala de activos 3D. Los rápidos avances en las herramientas de creación 3D, junto con la mayor disponibilidad de datos 3D en Internet a través de plataformas como Github, Sketchfab, Thingiverse, Polycam y sitios especializados como el Instituto Smithsonian, contribuyeron a la creación de Objaverse-XL. Este conjunto de datos proporciona una variedad y calidad de datos 3D significativamente más amplia que los esfuerzos anteriores, como Objaverse 1.0 y ShapeNet. Con más de 10 millones de objetos 3D, Objaverse-XL representa un aumento sustancial en la escala, superando conjuntos de datos anteriores en varios órdenes de magnitud.
La escala y diversidad que ofrece Objaverse-XL ha ampliado enormemente el rendimiento de los modelos 3D de última generación. En particular, el modelo Zero123-XL, entrenado previamente con Objaverse-XL, demuestra notables capacidades de generalización sin disparos en modalidades difíciles y complejas. Se desempeña excepcionalmente bien en tareas como resumir nuevas vistas, incluso con varias entradas, como activos fotorrealistas, caricaturas, dibujos y bocetos. De manera similar, PixelNeRF, entrenado para sintetizar nuevas vistas a partir de un pequeño conjunto de imágenes, muestra mejoras notables cuando se entrena con Objaverse-XL. Escalar los datos previos al entrenamiento de mil activos a 10 millones muestra mejoras consistentes, destacando la promesa y la oportunidad que ofrecen los datos a escala web.
Las implicaciones de Objaverse-XL se extienden más allá del ámbito de los modelos 3D. Sus aplicaciones potenciales abarcan la visión artificial, los gráficos, la realidad aumentada y la IA generativa. La reconstrucción de objetos 3D a partir de imágenes ha sido durante mucho tiempo un desafío en la visión y los gráficos por computadora. Los métodos existentes han explorado varias representaciones diferenciables, arquitecturas de red y técnicas de representación para predecir formas y texturas 3D a partir de imágenes. Sin embargo, estos métodos se han basado principalmente en conjuntos de datos a pequeña escala como ShapeNet. Con el Objaverse-XL significativamente más grande, se pueden lograr nuevos niveles de rendimiento y generalización del modo de cero impactos.
Además, la aparición de la IA generativa en 3D ha sido un desarrollo emocionante. Modelos como MCC, DreamFusion y Magic3D han demostrado que se pueden generar formas 3D a partir de indicaciones de idioma utilizando modelos de texto a imagen. Objaverse-XL también abre oportunidades para la generación de texto en 3D, lo que permite avances en el modelado de texto en 3D. Al aprovechar un conjunto de datos grande y diverso, los investigadores pueden explorar nuevas aplicaciones y ampliar los límites de la IA generativa en el dominio 3D.
El lanzamiento de Objaverse-XL marca un hito en el campo de los conjuntos de datos 3D. Su tamaño, diversidad y potencial para la formación a gran escala son prometedores para el avance de la investigación y las aplicaciones en la comprensión 3D. Aunque Objaverse-XL actualmente es más pequeño que los conjuntos de datos de imagen a texto de mil millones de escalas, su introducción allana el camino para una mayor exploración de cómo continuar escalando los datos de los juegos en 3D y simplificar la captura y creación de contenido en 3D. El trabajo futuro también puede centrarse en elegir puntos de datos óptimos para entrenar y extender Objaverse-XL para beneficiar tareas discriminatorias como la segmentación y la detección 3D.
En conclusión, la introducción de Objaverse-XL como un conjunto de datos 3D masivo abre la puerta a nuevas y emocionantes posibilidades en visión por computadora, gráficos, realidad aumentada e IA generativa. Al abordar las limitaciones de los conjuntos de datos anteriores, Objaverse-XL proporciona una base para la capacitación a gran escala y abre vías para investigaciones y aplicaciones innovadoras en el dominio 3D.
Controlar Papel. Todo el crédito por esta investigación es para los investigadores de este proyecto. Tampoco olvides registrarte. nuestro subreddit de 26k+ ML, Canal de discordiaY Correo electrónicodonde compartimos las últimas noticias de investigación de IA, proyectos interesantes de IA y más.
🚀 Descubre 100 herramientas de IA en AI Tools Club
Niharika es pasante de consultoría técnica en Marktechpost. Ella está en su tercer año de pregrado y actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una persona muy entusiasta con un gran interés en el aprendizaje automático, la ciencia de datos y la inteligencia artificial y una ávida lectora de los últimos desarrollos en estos campos.
“Adicto a la televisión total. Experto en viajes. Gurú de Twitter. Evangelista de tocino. Creador galardonado. Aficionado al alcohol. Fanático de la música. Solucionador de problemas”.