
Un estudio de la Universidad de Oxford liderado por el Dr. Adam Mahdi encontró que los modelos de lenguaje grande (LLM) pueden identificar correctamente el 94,9% de condiciones relevantes en escenarios de prueba por sí solos, pero cuando hay humanos usando esos mismos LLM para el diagnóstico, el porcentaje de identificación de esas condiciones descendía por debajo del 34,5%. El estudio involucró a 1.298 personas que simularon ser pacientes ante un LLM, con el objetivo de descubrir su dolencia y qué nivel de atención requerían. Los resultados sugieren que la interacción humano-tecnología es crucial para el éxito de la IA en medicina.