Un estudio publicado en Nature Machine Intelligence analiza la capacidad de 24 grandes modelos de lenguaje (LLM) para distinguir entre creencias incorrectas de los usuarios y hechos. Los resultados muestran que los LLM más recientes tienen una precisión media del 91,1% para verificar datos fácticos verdaderos y del 91,5% para datos fácticos falsos. Sin embargo, cuando se les pide que respondan a creencias en primera persona, los LLM son menos propensos a reconocer una creencia falsa en comparación con una creencia verdadera. Los autores concluyen que los LLM deben ser capaces de distinguir con éxito los matices de los hechos y las creencias para responder eficazmente a las consultas de los usuarios y evitar la difusión de información errónea. La investigación fue encabezada por la Universidad de Stanford y analiza 13.000 preguntas. Los modelos más recientes, como GPT-4o, obtuvieron una precisión media del 91,1% para datos fácticos verdaderos y del 91,5% para datos fácticos falsos. Los autores señalan que los LLM recurrieron a corregir los datos del usuario en lugar de reconocer su creencia. La investigación destaca la necesidad de utilizar con cautela los resultados de los LLM en decisiones de alto riesgo, especialmente en campos como la medicina y la ciencia.