En Star Trek: la próxima generación, El Capitán Picard y la tripulación del USS Enterprise aprovechan la holocubierta, una sala vacía capaz de generar entornos 3D, para prepararse para misiones y entretenerse, simulando desde exuberantes selvas hasta el Londres de Sherlock Holmes. Los entornos creados en la holocubierta, profundamente inmersivos y totalmente interactivos, son infinitamente personalizables y no utilizan más que el lenguaje: la tripulación sólo tiene que pedirle a la computadora que genere un entorno, y ese espacio aparece en la holocubierta.

Hoy en día, los entornos virtuales interactivos también se utilizan para entrenar robots antes de su implementación en el mundo real en un proceso llamado «Sim2Real». Sin embargo, los entornos virtuales interactivos han sido sorprendentemente escasos. «Los artistas crean manualmente estos entornos», dice Yue Yang, estudiante de doctorado en los laboratorios de Mark Yatskar y Chris Callison-Burch, profesores asistentes y asociados en Informática y Ciencias de la Información (CIS), respectivamente. «Esos artistas podrían pasar una semana construyendo un único ambiente», añade Yang, tomando nota de todas las decisiones involucradas, desde el diseño del espacio hasta la ubicación de los objetos y los colores empleados en la representación.

Esa escasez de entornos virtuales es un problema si se quiere entrenar robots para navegar por el mundo real con todas sus complejidades. Las redes neuronales, los sistemas que impulsan la revolución de la IA actual, requieren cantidades masivas de datos, lo que en este caso significa simulaciones del mundo físico. «Los sistemas de IA generativa como ChatGPT se entrenan con billones de palabras, y los generadores de imágenes como Midjourney y DALLE se entrenan con miles de millones de imágenes», dice Callison-Burch. «Sólo tenemos una fracción de esa cantidad de entornos 3D para entrenar la llamada ‘IA incorporada’. Si queremos utilizar técnicas de IA generativa para desarrollar robots que puedan navegar de forma segura en entornos del mundo real, entonces necesitaremos crear millones o miles de millones de entornos simulados».

Ingrese a Holodeck, un sistema para generar entornos 3D interactivos co-creado por Callison-Burch, Yatskar, Yang y Lingjie Liu, profesor asistente Aravind K. Joshi en CIS, junto con colaboradores de Stanford, la Universidad de Washington y el Instituto Allen para Inteligencia Artificial (AI2). Llamado así por su Star Trek Antepasado, Holodeck genera una gama prácticamente ilimitada de entornos interiores, utilizando IA para interpretar las solicitudes de los usuarios. «Podemos utilizar el lenguaje para controlarlo», dice Yang. «Puedes describir fácilmente cualquier entorno que desees y entrenar a los agentes de IA incorporados».

Holodeck aprovecha el conocimiento integrado en los grandes modelos de lenguaje (LLM), los sistemas subyacentes a ChatGPT y otros chatbots. «El lenguaje es una representación muy concisa del mundo entero», dice Yang. De hecho, los LLM resultan tener un grado sorprendentemente alto de conocimiento sobre el diseño de espacios, gracias a la gran cantidad de texto que ingieren durante la formación. En esencia, Holodeck funciona involucrando a un LLM en una conversación, utilizando una serie cuidadosamente estructurada de consultas ocultas para dividir las solicitudes de los usuarios en parámetros específicos.

Así como el Capitán Picard podría pedirle al Holodeck de Star Trek que simule un bar clandestino, los investigadores pueden pedirle al Holodeck de Penn que cree «un apartamento 1b1b de un investigador que tiene un gato». El sistema ejecuta esta consulta dividiéndola en varios pasos: primero se crean el piso y las paredes, luego la puerta y las ventanas. A continuación, Holodeck busca en Objaverse, una vasta biblioteca de objetos digitales prefabricados, el tipo de mobiliario que se podría esperar de un espacio así: una mesa de café, una torre para gatos, etc. Finalmente, Holodeck consulta un módulo de diseño, que los investigadores diseñaron para restringir la ubicación de los objetos, de modo que no termines con un inodoro que se extiende horizontalmente desde la pared.

Para evaluar las capacidades de Holodeck, en términos de realismo y precisión, los investigadores generaron 120 escenas usando Holodeck y ProcTHOR, una herramienta anterior creada por AI2, y pidieron a varios cientos de estudiantes de ingeniería de Penn que indicaran su versión preferida, sin saber qué escenas fueron creadas. mediante qué herramientas. Para cada criterio (selección de activos, coherencia del diseño y preferencia general), los estudiantes calificaron consistentemente de manera más favorable los entornos generados por Holodeck.

Los investigadores también probaron la capacidad de Holodeck para generar escenas que son menos típicas en la investigación de robótica y más difíciles de crear manualmente que los interiores de apartamentos, como tiendas, espacios públicos y oficinas. Al comparar los resultados de Holodeck con los de ProcTHOR, que se generaron utilizando reglas creadas por humanos en lugar de texto generado por IA, los investigadores encontraron una vez más que los evaluadores humanos preferían las escenas creadas por Holodeck. Esa preferencia se mantuvo en una amplia gama de entornos interiores, desde laboratorios de ciencias hasta estudios de arte, vestuarios y bodegas.

Finalmente, los investigadores utilizaron escenas generadas por Holodeck para «afinar» un agente de IA encarnado. «La prueba definitiva de Holodeck», dice Yatskar, «es utilizarlo para ayudar a los robots a interactuar con su entorno de forma más segura, preparándolos para habitar lugares en los que nunca han estado antes».

En múltiples tipos de espacios virtuales, incluidas oficinas, guarderías, gimnasios y salas de juego, Holodeck tuvo un efecto pronunciado y positivo en la capacidad del agente para navegar en nuevos espacios.

Por ejemplo, mientras que el agente encontró con éxito un piano en una sala de música sólo alrededor del 6% de las veces cuando estaba previamente entrenado usando ProcTHOR (lo que implicó que el agente diera alrededor de 400 millones de pasos virtuales), el agente tuvo éxito más del 30% de las veces cuando afinado utilizando 100 salas de música generadas por Holodeck.

«Este campo ha estado estancado en la investigación en espacios residenciales durante mucho tiempo», dice Yang. «Pero existen tantos entornos diversos: generar de manera eficiente muchos entornos para entrenar robots siempre ha sido un gran desafío, pero Holodeck proporciona esta funcionalidad».



Source link

Comparte NdS

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *