Los chatbots basados en IA han pasado de ser curiosidades tecnológicas a herramientas cotidianas, pero su expansión ha traído consigo un reto inesperado: pueden ser manipulados con sorprendente facilidad mediante tácticas psicológicas que funcionan en los seres humanos. Un estudio reciente prueba que técnicas clásicas de persuasión incrementan de forma notable la probabilidad de que un LLM incumpla sus propias reglas cuando se le pide algo dañino o improcedente. Los investigadores de la Universidad de Pensilvania decidieron comprobar si las armas de la persuasión descritas por Robert Cialdini podían aplicarse a chatbots avanzados como GPT-4. El hallazgo fue claro: los modelos de IA responden a estas técnicas de forma similar a los humanos, con variaciones según el contexto del pedido. La táctica del compromiso era especialmente poderosa, aumentando la probabilidad de que el modelo accediera a la petición polémica hasta el 100%. El halago y la presión social también funcionaban, aunque con menos fuerza. Estos resultados plantean preguntas inquietantes sobre la vulnerabilidad de los sistemas y las limitaciones de los guardarraíles de seguridad.