La empresa Anthropic ha realizado un estudio en colaboración con el Instituto de Seguridad de la IA del Reino Unido y el Instituto Alan Turing, que muestra que solo 250 documentos maliciosos pueden 'envenenar' un modelo de lenguaje, sin importar su tamaño o la cantidad de datos con los que haya sido entrenado. El estudio utilizó un activador inocuo, la secuencia