
Anthropic ha lanzado una herramienta de circuit tracing para entender cómo funcionan los modelos de lenguaje. La herramienta permite visualizar el flujo interno de información dentro del modelo y realizar experimentos de intervención. Se basa en la interpretabilidad mecanicista y utiliza gráficos de atribución para mostrar qué características internas se activan en cada etapa del procesamiento. La herramienta puede ser utilizada para depurar errores, optimizar funciones específicas y analizar razonamientos complejos. También puede ayudar a detectar sesgos ocultos y mejorar la equidad en respuestas. La herramienta es compatible con Neuronpedia y está disponible como código abierto.