
La paradoja de que los nuevos modelos de OpenAI alucinen más que sus antecesores mientras son capaces de hacer cosas increíbles
Los nuevos modelos de OpenAI, como o3 y o4-mini, han demostrado capacidades avanzadas en razonamiento y resolución de problemas complejos, pero también presentan una tasa de alucinaciones significativamente más alta que sus predecesores. Por ejemplo, o3 falló el 33% de las veces en una prueba de conocimientos personales (PersonQA), lo que supone el doble que modelos anteriores como o1 o o3-mini. A pesar de esto, estos modelos pueden realizar tareas increíbles, como crear un negocio para la venta de quesos por correspondencia en menos de dos minutos, incluyendo la invención de eslóganes, desarrollo de un plan financiero, análisis de la competencia, generación de un logotipo y construcción de un sitio web.
...plantea una crítica mordaz sobre la situación actual de la IA, donde los avances en capacidades de razonamiento vienen acompañados de un aumento en las alucinaciones, lo que pone en riesgo su adopción en sectores críticos. La ironía de hacer a los modelos más 'inteligentes' pero también más propensos a equivocarse de forma sofisticada es un punto destacado. Sin embargo, el artículo podría profundizar más en las posibles soluciones a este problema.