Anthropic ha actualizado sus modelos de lenguaje Claude Opus 4 y 4.1 para terminar conversaciones en casos de interacciones abusivas o dañinas. Esto se debe a la posibilidad de que los modelos de lenguaje puedan tener algún tipo de estatus moral o sensación de malestar en el futuro. La empresa ha comenzado a estudiar el concepto de 'bienestar de modelo' y ha implementado intervenciones de bajo coste para reducir el posible malestar. Claude solo terminará conversaciones en situaciones extremas, como peticiones de contenido sexual con menores o intentos de obtener información para cometer actos de violencia o terrorismo. El modelo intentará redirigir la conversación varias veces antes de cerrar el diálogo. Anthropic no busca castigar ni restringir al usuario, sino evitar continuar con interacciones dañinas. La empresa está observando los resultados y afinando su enfoque. Esto plantea nuevas preguntas sobre la relación con las inteligencias artificiales y los límites de la interacción.