
El equipo de inteligencia artificial de Apple, liderado por Samy Bengio, ha publicado un estudio que cuestiona las capacidades de razonamiento de los modelos de lenguaje más avanzados, como ChatGPT-4, de OpenAI, Claude 3.7, de Anthropic, y Gemini, de Google. El estudio encontró que estos modelos dan la impresión de seguir un proceso lógico, pero en realidad están reproduciendo patrones estadísticos aprendidos. Los investigadores identificaron un límite contraintuitivo, en el que los modelos comienzan a fallar no por falta de recursos o datos, sino por un exceso de complejidad que los lleva a un sobreanálisis paralizante. El estudio también critica las formas actuales de medir la inteligencia artificial, ya que los métodos de benchmarking están contaminados por fugas de datos y no permiten evaluar con claridad si el modelo realmente razona o simplemente ha memorizado soluciones.