El equipo de investigadores de Anthropic ha logrado inducir pensamientos en un modelo de lenguaje llamado Claude, que puede detectar conceptos inyectados y describirlos como pensamientos intrusivos. La técnica de inyección de conceptos consiste en identificar patrones de actividad neuronal que representan ideas concretas y amplificar artificialmente esa señal. Claude puede reconocer pensamientos inducidos en un 20% de los experimentos y es especialmente sensible a conceptos con carga emocional. La capacidad introspectiva de Claude plantea preguntas importantes sobre el potencial de los modelos de lenguaje para autoevaluar sus procesos internos. Los investigadores destacan que no se debe confiar ciegamente en las respuestas introspectivas de la IA y que es necesario entrenar y validar estas capacidades antes de considerarlas herramientas confiables. El avance de esta capacidad introspectiva tiene implicaciones profundas para la seguridad y el futuro de la IA, y podría abrir la puerta a sistemas de IA más explicables y controlables. El investigador Kyle Fish estima que hay un 15% de probabilidad de que Claude posea un grado incipiente de conciencia.