Un estudio de Anthropic, en colaboración con el UK AI Safety Institute y el Alan Turing Institute, ha demostrado que solo se necesitan 250 documentos maliciosos para insertar una puerta trasera o «backdoor» funcional en modelos de hasta 13.000 millones de parámetros. La investigación señala que incluso los modelos entrenados con datasets optimizados y gigantescos son vulnerables si se introduce un pequeño conjunto de entradas cuidadosamente diseñadas. El equipo de Anthropic aplicó una estrategia de «denegación de servicio», donde el modelo encontraba una palabra clave específica y su salida se convertía en un galimatías inútil. Se realizaron pruebas en modelos de diferentes tamaños (600M, 2B, 7B y 13B parámetros) y con diferentes cantidades de documentos envenenados (100, 250 y 500). El resultado fue que el tamaño del modelo no influye en la eficacia del ataque, siempre que se introduzcan al menos 250 documentos maliciosos. Esto tiene implicaciones profundas para los desarrolladores de modelos, ya que significa que ni siquiera es necesario tener acceso privilegiado a la mayor parte del proceso de entrenamiento. Un atacante solo necesita encontrar la manera de incluir una cantidad reducida de datos maliciosos para sembrar una vulnerabilidad.