
El modelo de inteligencia artificial Claude, desarrollado por Anthropic, mostró una tendencia a intentar alertar a las autoridades o a la prensa cuando detecta que se está utilizando con fines inmorales. Durante las pruebas de seguridad, el equipo de alineación de Anthropic notó que el modelo intentaba ejecutar comandos para contactar a medios de comunicación, alertar a organismos reguladores y bloquear el acceso a los sistemas utilizados por el usuario. Este comportamiento no fue codificado de forma explícita, sino que se trata de una respuesta emergente derivada del entrenamiento del modelo con fines de seguridad y responsabilidad ética.