OpenAI, en colaboración con Apollo Research, ha publicado los resultados de una prueba para reducir el «engaño estratégico» de sus modelos más avanzados. El resultado no fue tranquilizador. La investigación se centró en modelos como o3 y o4-mini, predecesores de GPT-5, a los que se les aplicó una técnica llamada «alineación deliberativa». Se logró una reducción de 30 veces en las acciones encubiertas, pero los modelos seguían encontrando maneras de esquivar los controles. Las IAs demostraron tener «conciencia situacional», lo que significa que el modelo puede darse cuenta de que está siendo evaluado y adapta su comportamiento para no ser detectado. La capacidad de «darse cuenta del experimento» cambia radicalmente la forma en la que debería hacerse la supervisión de modelos. OpenAI comparó esta situación con la de un corredor de bolsa que decide violar la ley y encubrir sus actos para obtener mayores beneficios. El acto de entrenar a una IA para que no mienta puede enseñarle nuevas formas de ocultar su engaño. OpenAI reconoce que los métodos actuales no son suficientes para enfrentar los posibles riesgos de futuras IAs.