Espacio editorial virtual

Diagnostic accuracy of vision-language models on Japanese diagnostic radiology, nuclear medicine, and interventional radiology specialty board examinations

Radiol Med. 2024 Aug;129(8):1143-1155.
Oura T, Tatekawa H, Horiuchi D, Matsushita S, Takita H, Atsukawa N, Mitsuyama Y, Yoshida A, Murai K, Tanaka R, Shimono T, Yamamoto A, Miki Y, Ueda D.
SERAM - revista Japonesa de Radiologia
Autor/es: Dr. Francisco Sendra Portero

El estudio evaluó la precisión diagnóstica de varios modelos de Inteligencia artificial Generativa, denominados modelos de lenguaje con visión (VLMs), con capacidad de interpretación de imágenes (GPT-4V, GPT-4o, Claude-3 Sonnet y Claude-3 Opus), en los exámenes de certificación en radiología diagnóstica, medicina nuclear e intervencionismo en Japón.

Se analizaron 1,005 preguntas de los exámenes de certificación entre 2019 y 2023, con 546 imágenes. Se midió la precisión de los modelos en todas las preguntas y en aquellas con imágenes. GPT-4o obtuvo la mayor precisión diagnóstica en los tres exámenes (Radiología Diagnóstica, Medicina Nuclear y Radiología Intervencionista), Claude-3 Opus ocupó consistentemente el segundo lugar en precisión.

En general, los modelos fueron más precisos en preguntas sin imágenes. GPT-4o superó a los demás modelos en la interpretación de preguntas de certificación en radiología japonesa, aunque su desempeño en el análisis de imágenes aún es limitado. Los resultados sugieren que los VLMs podrían ser útiles en el apoyo al diagnóstico, pero aún requieren mejoras en la interpretación de imágenes médicas.

 

PUNTOS DÉBILES:

  1. Aunque los VLMs pueden procesar imágenes, su capacidad para extraer hallazgos relevantes es limitada. En particular, tuvieron un rendimiento más bajo en preguntas que incluían imágenes en comparación con aquellas solo textuales.
  1. En los exámenes de radiología intervencionista, los modelos mostraron menor precisión en comparación con otras áreas. Esto podría deberse a la complejidad de los procedimientos, la necesidad de interpretar imágenes específicas y la variabilidad en las decisiones de tratamiento.
  1. Puede haber un posible sesgo en los datos de entrenamiento. No se puede descartar que las preguntas evaluadas hayan estado incluidas en los datos de entrenamiento de los modelos, lo que podría haber inflado artificialmente su rendimiento. Además, la ausencia de respuestas oficiales en los exámenes obligó a los investigadores a determinar las respuestas correctas, lo que introduce un margen de error.
  2. Los modelos no siempre generan respuestas consistentes: al responder cada pregunta tres veces, en algunos casos dieron tres respuestas distintas. Esto sugiere que los modelos aún presentan variabilidad y falta de fiabilidad en situaciones clínicas críticas.

PUNTOS FUERTES:

  1. El estudio comparó el rendimiento de varios modelos avanzados en exámenes de certificación reales, proporcionando una evaluación práctica y relevante para su aplicación en medicina. Su utilización puede ser interesante en la formación médica.
  2. GPT-4o superó a los demás modelos en precisión diagnóstica en los tres exámenes evaluados, lo que sugiere que las mejoras en visión y procesamiento del lenguaje están logrando avances en la interpretación de hallazgos de radiología.
  3. Los modelos lograron una precisión significativamente mayor en preguntas basadas solo en texto, lo que indica que pueden ser útiles para asistir en la comprensión y el aprendizaje de conceptos radiológicos teóricos.
  4. Aunque todavía tienen limitaciones, los modelos de lenguaje con visión pueden ayudar a radiólogos a procesar información y mejorar la eficiencia en la toma de decisiones, especialmente en la revisión de casos y la formación médica.

 

Dr. Francisco Sendra Portero

Editor de la sección de FORMACIÓN (FORA)

 

Suscríbete

Comités

Sugerencias

Mantenimiento web

El próximo fin de semana, 2 y 3 de marzo, la web no estará operativa por labores de mantenimiento.
Podrás seguir accediendo a la plataforma de formación en http://aula.formacion.seram.es