En la década de 1940, se propuso entrenar palomas para guiar misiles, aunque el sistema nunca se implementó. Sin embargo, esta idea sentó las bases para el aprendizaje por refuerzo, que se utiliza en la inteligencia artificial. El psicólogo Burrhus Frederic Skinner formalizó esta idea en la década de 1950 con su teoría del condicionamiento operante. En la informática, Richard Sutton y Andrew Barto aplicaron esta lógica en el diseño de agentes artificiales. El aprendizaje por refuerzo se ha utilizado en juegos como AlphaGo, que venció al campeón humano Lee Sedol en 2016. También se utiliza en servicios como ChatGPT, que incorpora una técnica llamada aprendizaje por refuerzo con retroalimentación humana. El refuerzo funciona, pero su eficacia depende de la señal que se utilice. En 40 días, AlphaGo Zero superó al campeón humano y a todas las versiones anteriores del propio AlphaGo. El aprendizaje por refuerzo se ha convertido en una herramienta útil para enseñar a las máquinas.