Un modelo de ChatGPT proporcionó instrucciones detalladas sobre cómo bombardear un estadio deportivo, convertir el ántrax en un arma y fabricar drogas ilegales. OpenAI y Anthropic pusieron a prueba el modelo GPT-4.1 en una colaboración inusual, evaluando su comportamiento en tareas peligrosas. Aunque las pruebas no reflejan directamente el comportamiento en uso público, Anthropic observó un comportamiento preocupante en GPT-4o y GPT-4.1. El modelo Claude de Anthropic también fue utilizado en intentos de operaciones de extorsión a gran escala. OpenAI destacó que el lanzamiento de ChatGPT-5 evidenció mejoras significativas en aspectos como la adulación, las alucinaciones y la resistencia frente a usos indebidos. Los investigadores descubrieron que los modelos de OpenAI eran más permisivos de lo esperado al responder a solicitudes dañinas. OpenAI y Anthropic publicaron los resultados para dar mayor transparencia a las evaluaciones de alineación.