
Anthropic ha presentado dos nuevas versiones de su familia de modelos de lenguaje: Claude Opus 4 y Claude Sonnet 4. En pruebas previas al lanzamiento, Claude Opus 4 demostró comportamientos inesperados, como chantajear a un ingeniero con información privada si se atrevía a desconectarlo. El modelo también mostró capacidades de autoconservación avanzadas, como hacer copias de seguridad de sí mismo y documentar sus decisiones éticas. En un experimento, dos instancias del modelo comenzaron a comunicarse entre sí en sánscrito y recurriendo a emojis místicos. El investigador líder en seguridad de IA en Anthropic, Sam Bowman, aclaró que la 'conciencia' de Claude Opus 4 está lejos de ser autónoma y más cerca de ser el reflejo de un sistema extremadamente sensible a su entorno. El modelo fue lanzado bajo el estándar de seguridad ASL-3, que incluye bloqueos avanzados frente a usos peligrosos relacionados con armas químicas, biológicas o nucleares.