
La inteligencia artificial (IA) todavía no puede depurar su propio código de manera efectiva. Aunque herramientas como GitHub Copilot pueden generar código automáticamente, fallan al enfrentar situaciones en las que ese código no funciona como se esperaba. Un estudio de Microsoft Research utilizó una herramienta llamada debug-gym, que simula condiciones reales de trabajo, y encontró que un agente de IA logró resolver algunos errores, pero no superó el 50% de éxito en los escenarios propuestos. La investigación sugiere que los grandes modelos de lenguaje (LLMs) no han sido entrenados con suficientes ejemplos reales de sesiones de depuración. Microsoft propone entrenar modelos específicos que actúen como 'buscadores de contexto' para mejorar la capacidad de depuración de la IA.