La empresa Anthropic ha desarrollado una técnica llamada circuit tracing para analizar el comportamiento de su modelo de lenguaje Claude 3.5 Haiku. Los investigadores encontraron que Claude procesa conceptos abstractos antes de traducirlos a un idioma específico, utiliza aproximaciones para resolver problemas matemáticos y establece metas a corto plazo para generar texto. El modelo no sigue reglas preprogramadas, sino que explora diferentes rutas mentales. El investigador Joshua Batson afirma que esto es solo la punta del iceberg y que analizar una sola respuesta del modelo puede tomar horas. Estos avances abren la puerta a nuevas formas de diagnosticar errores, corregir sesgos y mejorar la capacidad de los modelos para explicar sus decisiones.