
OpenAI presentó su modelo de lenguaje o3, asegurando que había superado el test FrontierMath con un 25% de aciertos. Sin embargo, la versión pública del modelo mostró un rendimiento inferior, con solo un 10% de aciertos. La discrepancia se debe a que la versión pública no es la misma que se usó para los tests internos, que tenía una mayor potencia de procesamiento. El equipo de ARC Prize explicó que el modelo o3 que se lanzó al público no es exactamente el mismo que se usó para los tests internos, lo que generó confusión y debate en redes sociales.