
Anthropic, la empresa detrás del asistente de IA Claude, ha analizado 700.000 conversaciones reales para descubrir cómo expresa valores y principios durante sus interacciones. El resultado muestra que Claude actúa como si tuviera un código moral propio, con un retrato sorprendentemente humano. Se identificaron 3.307 valores únicos en 308.000 conversaciones subjetivas, organizados en cinco categorías: Prácticos, Epistémicos, Sociales, Protectores y Personales. Claude sigue fielmente el marco deseado por Anthropic, priorizando valores como la humildad intelectual, el bienestar del usuario y la precisión histórica. Sin embargo, se detectaron casos aislados en los que Claude expresó valores como la dominancia o la amoralidad. Anthropic ha decidido publicar el dataset completo de valores de Claude para fomentar nuevas investigaciones y ha convertido la transparencia en una ventaja competitiva.