
Un grupo de investigadores de 14 instituciones, incluyendo el MIT, Carnegie Mellon y la Universidad de Toronto, ha demostrado que es posible entrenar modelos de lenguaje sin recurrir a contenido protegido por derechos de autor. El experimento utilizó un conjunto de datos de 8 TB de información del dominio público o con licencias abiertas, incluyendo 130.000 libros de la Biblioteca del Congreso de EE.UU. El modelo resultante, de siete mil millones de parámetros, logró un rendimiento comparable al de modelos de hace un par de años, como el LLaMA 2-7B. El estudio contradice afirmaciones previas de gigantes tecnológicos como OpenAI, que sostenían que esta posibilidad era inviable.