
El nuevo modelo de IA de Meta sacó muy buena puntuación en los benchmarks. Quizás demasiado buena
Meta presentó su nuevo modelo Llama 4, que logró una puntuación de 1.417 puntos en LMArena, solo por debajo de Gemini 2.5 Pro Experimental con 1.439 puntos. Sin embargo, la versión disponible públicamente no coincide con la utilizada en el ranking, lo que generó sospechas de que podría haber sido 'optimizada' para obtener mejores resultados. El máximo responsable de la división de IA generativa en Meta, Ahmad Al-Dahle, negó que se hubiera hecho trampa y afirmó que la versión experimental estaba 'optimizada para la conversación'. Algunos expertos advirtieron que el rendimiento del modelo no era tan bueno como se afirmaba.
...es interesante, pero parece que Meta está intentando manipular las expectativas con su nuevo modelo Llama 4. La discrepancia entre la versión de prueba y la disponible públicamente es preocupante. Es como cuando un niño dice que su juguete nuevo es el mejor del mundo, pero cuando le preguntas qué hace exactamente, se queda callado.