
Los sistemas de generación aumentada por recuperación (RAG) pueden cometer errores incluso con información recuperada. Un estudio de Google propone evaluar si hay contexto suficiente para responder correctamente. Se desarrolló un modelo evaluador automático o 'autorater' que clasifica si hay suficiente contexto. Los resultados muestran que los modelos tienden a acertar más cuando el contexto es adecuado, pero pueden cometer errores con confianza cuando el contexto es insuficiente. Se propone un sistema de generación selectiva que decide si el modelo principal debe responder o abstenerse. Se lograron mejoras de 2 a 10% en la tasa de respuestas correctas en modelos como Gemini, GPT y Gemma.