DeepSeek, una startup china, logró desafiar el dominio de Silicon Valley con su modelo R1, gratuito y de código abierto, que alcanzó un nivel de rendimiento sorprendente en matemáticas y programación. El modelo se entrenó mediante aprendizaje por refuerzo, un método que se asemeja a cómo un niño descubre las reglas de un videojuego. El resultado fue un rendimiento sorprendente, especialmente en matemáticas y programación. El modelo no recibía instrucciones claras, solo objetivos, y debía encontrar por sí mismo la mejor manera de alcanzarlos. Para equilibrar precisión y claridad, los investigadores incorporaron una dosis de aprendizaje supervisado. El modelo se entrenó con pocos ejemplos muy bien diseñados, en lugar de enormes cantidades de datos. La publicación en Nature valida el trabajo de DeepSeek y plantea interrogantes profundos sobre el significado de 'razonar bien' en una IA. El éxito del aprendizaje reforzado abre la puerta a una nueva generación de inteligencias artificiales más autónomas y adaptables. Wenfeng Liang, uno de los científicos detrás del proyecto, explicó que los sesgos humanos pueden limitar la creatividad del modelo. La clave estaba en dejar espacio a la máquina para desarrollar nuevas formas de razonamiento, aunque estas no siempre fueran fáciles de entender. DeepSeek también innovó en el ahorro de recursos, utilizando la técnica del destilado de modelos para entrenar al R1 con menos energía y costes.