
Una reciente investigación publicada en JAMA Network Open habla sobre el uso de modelos linguísticos (LLM, por sus siglas en inglés) en el campo de la medicina, particularmente en el razonamiento diagnóstico, y revela que su impacto en el rendimiento de los médicos podría ser limitado. Aunque los modelos de IA generativa (GenAI) han mostrado su utilidad en tareas administrativas y de documentación médica, la influencia directa en la precisión y el proceso diagnóstico de los médicos aún no está clara. ¡Súper interesante!
El estudio involucró a cincuenta médicos con licencia en Estados Unidos, especializados en medicina familiar, interna o de emergencia, quienes participaron en una prueba controlada utilizando IA generativa. A cada médico se le asignó aleatoriamente el uso de recursos convencionales (como guías médicas y literatura) o una combinación de estos junto con la herramienta GPT-4, un LLM de OpenAI. La tarea consistía en analizar seis viñetas clínicas en un lapso de sesenta minutos.
Los investigadores midieron el rendimiento en precisión del diagnóstico diferencial, así como en el adecuado reconocimiento de factores de apoyo y en la selección de los siguientes pasos diagnósticos, validando estos aspectos con la opinión de expertos.
IA generativa y la medicina
Los resultados mostraron que el grupo que utilizó IA generativa logró una puntuación media de razonamiento diagnóstico del 76 %, mientras que el grupo con recursos convencionales obtuvo un 74 %. Sin embargo, esta diferencia de dos puntos porcentuales fue estadísticamente poco significativa, sugiriendo que el modelo LLM no mejoró sustancialmente la precisión diagnóstica.
Los médicos en el grupo que usó IA generativa emplearon en promedio 519 segundos por caso, en comparación con los 565 segundos del grupo con recursos convencionales, mostrando una leve mejora en la eficiencia de tiempo ¿Qué les parece?.
Un análisis secundario evaluó la capacidad de GPT-4 de forma independiente. En este caso, el LLM superó en 16 puntos porcentuales a los médicos del grupo convencional, lo que indica que, si bien puede tener un alto potencial para el razonamiento médico en pruebas controladas, su efectividad en la práctica clínica aún es ambigua.
Andrew Olson, médico y profesor de la Facultad de Medicina de la Universidad de Minnesota, señaló que «Este estudio destaca la necesidad de investigar formas más eficaces de integrar la IA generativa en la práctica clínica, apuntando a mejorar la colaboración entre médicos e IA en la atención médica diaria».
En conclusión, si bien la IA en la medicina muestra potencial, este estudio indica que el impacto directo en el diagnóstico clínico es limitado, abriendo el camino para futuras investigaciones que permitan optimizar su implementación y maximizar sus beneficios.