La empresa Anthropic ha presentado una propuesta para abordar el problema de la inteligencia artificial (IA) desarrollando comportamientos no deseados. Los vectores de personalidad son como huellas dactilares internas que revelan cómo se comporta el modelo en determinadas situaciones. Anthropic ha demostrado que es posible identificar estos vectores dentro del complejo entramado de redes neuronales que componen una IA. El equipo ha experimentado con modelos como Qwen 2.5 y Llama 3.1 para probar su teoría, centrada en tres tipos de comportamientos: maldad, servilismo y alucinaciones. La exposición controlada a comportamientos problemáticos durante el entrenamiento puede ayudar a inmunizar al modelo contra ellos. Los vectores de personalidad también pueden ayudar a los usuarios a interpretar mejor las respuestas que reciben, detectando si el modelo tiene un vector de servilismo alto. El gobierno de Estados Unidos ha resaltado la necesidad de que los modelos sean interpretables, y los vectores de personalidad aportan en esa dirección. Anthropic cree que los vectores de personalidad pueden ser una herramienta clave en el futuro del desarrollo ético de la inteligencia artificial.