
Apple pone en duda las verdaderas capacidades de razonamiento de los modelos de IA más avanzados
El equipo de inteligencia artificial de Apple, liderado por Samy Bengio, ha publicado un estudio que cuestiona las capacidades de razonamiento de los modelos de lenguaje más avanzados, como ChatGPT-4, de OpenAI, Claude 3.7, de Anthropic, y Gemini, de Google. El estudio encontró que estos modelos dan la impresión de seguir un proceso lógico, pero en realidad están reproduciendo patrones estadísticos aprendidos. Los investigadores identificaron un límite contraintuitivo, en el que los modelos comienzan a fallar no por falta de recursos o datos, sino por un exceso de complejidad que los lleva a un sobreanálisis paralizante. El estudio también critica las formas actuales de medir la inteligencia artificial, ya que los métodos de benchmarking están contaminados por fugas de datos y no permiten evaluar con claridad si el modelo realmente razona o simplemente ha memorizado soluciones.
...es como un espejo que refleja la vanidad de la inteligencia artificial. Los modelos de lenguaje más avanzados son como los selfies de las redes sociales, parecen perfectos, pero en realidad están llenos de defectos y limitaciones. El estudio de Apple es como un golpe de realidad que nos hace cuestionar si realmente estamos avanzando en la creación de inteligencia artificial o simplemente estamos creando máquinas que pueden imitar el pensamiento humano de manera superficial.