Espacio editorial virtual
- Inicio
- Espacio editorial virtual
- Diagnostic accuracy of vision-language models on Japanese diagnostic radiology, nuclear medicine, and interventional radiology specialty board examinations
Diagnostic accuracy of vision-language models on Japanese diagnostic radiology, nuclear medicine, and interventional radiology specialty board examinations

El estudio evaluó la precisión diagnóstica de varios modelos de Inteligencia artificial Generativa, denominados modelos de lenguaje con visión (VLMs), con capacidad de interpretación de imágenes (GPT-4V, GPT-4o, Claude-3 Sonnet y Claude-3 Opus), en los exámenes de certificación en radiologÃa diagnóstica, medicina nuclear e intervencionismo en Japón.
Se analizaron 1,005 preguntas de los exámenes de certificación entre 2019 y 2023, con 546 imágenes. Se midió la precisión de los modelos en todas las preguntas y en aquellas con imágenes. GPT-4o obtuvo la mayor precisión diagnóstica en los tres exámenes (RadiologÃa Diagnóstica, Medicina Nuclear y RadiologÃa Intervencionista), Claude-3 Opus ocupó consistentemente el segundo lugar en precisión.
En general, los modelos fueron más precisos en preguntas sin imágenes. GPT-4o superó a los demás modelos en la interpretación de preguntas de certificación en radiologÃa japonesa, aunque su desempeño en el análisis de imágenes aún es limitado. Los resultados sugieren que los VLMs podrÃan ser útiles en el apoyo al diagnóstico, pero aún requieren mejoras en la interpretación de imágenes médicas.
PUNTOS DÉBILES:
- Aunque los VLMs pueden procesar imágenes, su capacidad para extraer hallazgos relevantes es limitada. En particular, tuvieron un rendimiento más bajo en preguntas que incluÃan imágenes en comparación con aquellas solo textuales.
- En los exámenes de radiologÃa intervencionista, los modelos mostraron menor precisión en comparación con otras áreas. Esto podrÃa deberse a la complejidad de los procedimientos, la necesidad de interpretar imágenes especÃficas y la variabilidad en las decisiones de tratamiento.
- Puede haber un posible sesgo en los datos de entrenamiento. No se puede descartar que las preguntas evaluadas hayan estado incluidas en los datos de entrenamiento de los modelos, lo que podrÃa haber inflado artificialmente su rendimiento. Además, la ausencia de respuestas oficiales en los exámenes obligó a los investigadores a determinar las respuestas correctas, lo que introduce un margen de error.
- Los modelos no siempre generan respuestas consistentes: al responder cada pregunta tres veces, en algunos casos dieron tres respuestas distintas. Esto sugiere que los modelos aún presentan variabilidad y falta de fiabilidad en situaciones clÃnicas crÃticas.
PUNTOS FUERTES:
- El estudio comparó el rendimiento de varios modelos avanzados en exámenes de certificación reales, proporcionando una evaluación práctica y relevante para su aplicación en medicina. Su utilización puede ser interesante en la formación médica.
- GPT-4o superó a los demás modelos en precisión diagnóstica en los tres exámenes evaluados, lo que sugiere que las mejoras en visión y procesamiento del lenguaje están logrando avances en la interpretación de hallazgos de radiologÃa.
- Los modelos lograron una precisión significativamente mayor en preguntas basadas solo en texto, lo que indica que pueden ser útiles para asistir en la comprensión y el aprendizaje de conceptos radiológicos teóricos.
- Aunque todavÃa tienen limitaciones, los modelos de lenguaje con visión pueden ayudar a radiólogos a procesar información y mejorar la eficiencia en la toma de decisiones, especialmente en la revisión de casos y la formación médica.
Dr. Francisco Sendra Portero
Editor de la sección de FORMACIÓN (FORA)