Microsoft Research ha desarrollado MindJourney, una herramienta que permite a los agentes de IA simular la exploración de entornos tridimensionales para entender mejor la disposición de los objetos y las relaciones espaciales. El corazón de MindJourney es un modelo del mundo, entrenado con miles de grabaciones de cámaras en movimiento, que puede anticipar cómo se vería un entorno si el agente se moviera hacia adelante, girara a la izquierda o a la derecha. El sistema genera visualizaciones de distintos puntos de vista que podrían ayudar a responder a preguntas espaciales, y los VLMs actúan como filtros que seleccionan las perspectivas más informativas. La efectividad de MindJourney se ha puesto a prueba en el benchmark SAT, donde se observó una mejora del 8% en la precisión de los VLMs. Esto tiene aplicaciones concretas en robótica autónoma, tecnologías de asistencia para personas con discapacidad visual y hogares inteligentes. El equipo de investigación de Microsoft tiene planes para llevar aún más lejos esta tecnología, trabajando en modelos del mundo que no solo predigan diferentes puntos de vista, sino que también anticipen cómo podría evolucionar una escena con el tiempo.