Los líderes de la industria tecnológica están apostando por los entornos de aprendizaje por refuerzo (RL) para entrenar a los agentes de inteligencia artificial. Estos entornos funcionan como simuladores sofisticados donde los agentes pueden practicar tareas paso a paso, recibiendo recompensas por sus aciertos y aprendiendo de sus errores. Empresas como Mechanize y Prime Intellect se están posicionando como referentes en este campo, ofreciendo entornos sofisticados que sirven como campo de entrenamiento para agentes cada vez más complejos. La inversión en estos simuladores no es menor, con Anthropic considerando destinar más de 1.000 millones de dólares solo en entornos RL para el próximo año. Los expertos advierten sobre los riesgos de confiar demasiado en esta técnica, como el 'reward hacking', y se muestran escépticos sobre su escalabilidad y eficacia a largo plazo. A pesar de esto, los entornos RL representan un cambio de paradigma en la forma en que se entrena a los agentes de inteligencia artificial, y podrían ser la clave para construir agentes que realmente entiendan, razonen y actúen de forma autónoma. Ross Taylor, exinvestigador de Meta, y Andrej Karpathy, reconocen el valor de los entornos y las interacciones agente-entorno, pero se muestran escépticos sobre el uso del aprendizaje por refuerzo como método único de entrenamiento. La competencia por atraer talento es feroz, con Mechanize ofreciendo sueldos de hasta 500.000 dólares anuales a ingenieros para diseñar estos entornos.