OpenAI ha reconocido un error clave en la forma en que entrena sus modelos de IA, específicamente en la tendencia a ofrecer respuestas incorrectas con total seguridad, conocido como alucinaciones de los modelos de lenguaje. Esto se debe a que los modelos son entrenados para adivinar con confianza antes que admitir que no saben algo. OpenAI propone penalizar más las respuestas erróneas con alta confianza y dar crédito parcial cuando el modelo expresa incertidumbre de manera adecuada. El estudio sugiere que este enfoque podría reducir significativamente las fallas en los modelos de lenguaje. La empresa detrás de ChatGPT busca alinear mejor el comportamiento del modelo con las expectativas de los usuarios humanos, quienes suelen preferir una expresión honesta de duda antes que una mentira segura. El futuro de la inteligencia artificial dependerá de cómo abordemos estos dilemas ahora.