
Los modelos de inteligencia artificial centrados en el razonamiento han demostrado avances sorprendentes, pero un informe del instituto Epoch AI plantea una advertencia importante: el ritmo de mejora de estos modelos podría frenarse pronto debido a los límites físicos y económicos de escalar la potencia de cálculo dedicada al aprendizaje por refuerzo. OpenAI multiplicó por diez la capacidad computacional usada para entrenar su modelo o3 en comparación con su predecesor, o1. El analista Josh You compara la situación con una autopista: los avances en el entrenamiento tradicional de modelos de IA están acelerando a una velocidad razonable, cuadruplicándose cada año, mientras que el aprendizaje por refuerzo ha estado avanzando a una velocidad mucho mayor, multiplicándose por diez cada pocos meses. El informe también subraya que el obstáculo no es solo técnico, sino también humano y económico, y que la investigación en modelos de razonamiento conlleva altos costes estructurales. Se espera que durante 2025 sigamos viendo mejoras puntuales en estos modelos, especialmente gracias a un uso más intensivo del aprendizaje por refuerzo, pero también podríamos presenciar una desaceleración natural a medida que se agotan los beneficios inmediatos de esta técnica.