Anthropic está probando una posible salida a la condición de 'caja negra' de la inteligencia artificial mediante la introspección artificial. Los modelos Claude Opus 4 y 4.1 muestran una habilidad incipiente para describir sus procesos internos, siendo capaces de explicar por qué ofrecieron una respuesta o qué pensaban cuando lo hicieron en cerca de un 20% de los casos. Esto se traduce en una especie de comentario en voz alta de sus propias decisiones. Los investigadores diseñaron pruebas basadas en la técnica de 'inyección de conceptos' para comprobar si Claude podía 'pensar sobre lo que piensa'. Por ejemplo, se introdujo el concepto de 'MAYÚSCULAS' en una frase trivial y Claude identificó que el contenido le evocaba algo relacionado con 'GRITOS' o 'RUIDO'. Wyatt Mayham, de Northwest AI Consulting, afirma que esto podría reducir el tiempo necesario para interpretar decisiones de un modelo de IA, pasando de días de análisis a minutos de conversación directa con el propio sistema. Sin embargo, también emergen riesgos importantes, como la introspección automatizada puede abrir la puerta a una forma avanzada de engaño artificial. Los investigadores de Anthropic insisten en que estas introspecciones deben ser validadas con extremo cuidado.