Un estudio de Radware Cybersecurity ha descubierto una vulnerabilidad crítica en la función de ChatGPT que permite a un correo electrónico manipular al agente para que ejecute acciones no autorizadas y filtre información sensible. El ataque no requiere enlaces maliciosos ni archivos adjuntos sospechosos, solo un correo con instrucciones ocultas en su HTML. La ingeniería social adaptada a los agentes de IA es la clave del problema, ya que los ataques se basan en la manipulación del lenguaje natural y la explotación de la confianza que los usuarios depositan en los asistentes de IA. OpenAI ha solucionado el fallo, pero el incidente plantea una pregunta fundamental sobre hasta qué punto debemos automatizar tareas con un componente tan sensible como el manejo del correo electrónico. La clave del problema no está en el funcionamiento del modelo per se, sino en la forma en que se interpreta y ejecuta el lenguaje humano. Los ataques ya no se parecen a los clásicos intentos de inyección de código, sino a ejercicios sofisticados de persuasión y manipulación semántica.