Anthropic, la empresa detrás del chatbot Claude, ha colaborado con el Departamento de Energía de Estados Unidos y la Administración Nacional de Seguridad Nuclear para desarrollar un sistema que impida el uso de su modelo de lenguaje en la construcción de armas nucleares. El resultado es un clasificador nuclear que detecta conversaciones peligrosas. Se ha probado en un entorno de seguridad Top Secret y se ha afinado para diferenciar entre usos legítimos y militares de términos nucleares. Aunque algunos críticos consideran que la preocupación es infundada, otros expertos creen que es necesario tomar medidas preventivas. Anthropic ha ofrecido su clasificador a otras empresas del sector para reducir los riesgos de mal uso. El clasificador se basa en una lista de indicadores de riesgo proporcionada por la NNSA, que incluye palabras clave, términos técnicos y contextos que podrían implicar un intento de obtener información peligrosa. El modelo de lenguaje Claude ha sido sometido a pruebas intensivas de 'red-teaming' para evaluar su capacidad para generar conocimiento útil para desarrollar armamento nuclear.