Espacio editorial virtual

Diagnostic performances of Claude 3 Opus and Claude 3.5 Sonnet from patient history and key images in Radiology’s “Diagnosis Please” cases

Jpn J Radiol 42, 1399–1402 (2024)
Kurokawa R, Ohizumi Y, Kanzawa J, Kurokawa M, Sonoda Y, Nakamura Y, Kiguchi T, Gonoi W, Abe O.
SERAM - revista Japonesa de Radiologia
Autor/es: Dr. Francisco Sendra Portero

El estudio evalúa el desempeño diagnóstico de los modelos de inteligencia artificial Claude 3 Opus y Claude 3.5 Sonnet, desarrollados por la empresa Anthropic (San Francisco, CA ) en marzo de 2024 y junio de 2024 respectivamente, al analizar casos del cuestionario "Diagnosis Please", una serie de casos clínico-radiológicos publicados en la revista Radiology que presentan escenarios reales de diagnóstico por imagen.

Se comparan sus respuestas bajo tres condiciones: 1) Solo historial clínico (texto); 2) Historial clínico más hallazgos de imagen (texto); y 3) Historial clínico más imágenes clave.

Se analizaron 322 casos publicados entre 1998 y 2023, comparando la precisión de los modelos en diagnosticar la patología principal y dos diagnósticos diferenciales.

Los modelos tuvieron un menor rendimiento cuando se utilizaron imágenes clave en comparación con la combinación de historial clínico y hallazgos de imagen en texto. Claude 3.5 Sonnet superó a Claude 3 Opus en todas las condiciones, con un diagnóstico correcto del 17,7% vs 16,5%, con sólo el historial clínico; un 57,8% vs 54,3% con el historial más los hallazgos de imagen; y un 23,6% vs 20,5% con el historial más las imágenes clave.

Los modelos de IA demostraron un mejor rendimiento diagnóstico cuando se combinan hallazgos de imagen en texto con el historial clínico, pero su capacidad para interpretar imágenes radiológicas sigue siendo limitada. Lo que sugiere mejoras necesarias en la evolución de estos modelos para resolver el diagnóstico radiológico interpretando las imágenes.

PUNTOS DÉBILES:

Si bien el estudio demuestra el potencial de la IA en radiología, los modelos actuales aún enfrentan limitaciones clave, especialmente en la interpretación de imágenes médicas sin descripciones previas. Para una implementación efectiva, se necesitan mejoras en su capacidad de análisis visual

  1. La capacidad de interpretación de imágenes es limitada. Los modelos de IA mostraron un rendimiento inferior cuando analizaron imágenes clave en comparación con la combinación de historial clínico y hallazgos de imagen en texto. Esto sugiere que su habilidad para interpretar imágenes radiológicas aún es deficiente.
  2. Los modelos dependen de la información textual. Claude 3 Opus y Claude 3.5 Sonnet fueron significativamente más precisos cuando se incluyeron descripciones escritas de los hallazgos de imagen, lo que indica que los modelos dependen en gran medida de información textual en lugar de su capacidad para analizar imágenes médicas directamente.
  3. No se incluyó un grupo de referencia con radiólogos humanos para comparar el desempeño de los modelos con especialistas experimentados. Sería valioso evaluar en qué medida la IA complementa o se acerca al nivel de precisión de un radiólogo profesional.
  4. Necesitan mejorar en la propuestas de diagnósticos diferenciales. Aunque los modelos lograron incluir diagnósticos diferenciales, su tasa de acierto en esta tarea fue baja (alrededor del 7-8%).

PUNTOS FUERTES:

Este estudio es pionero en evaluar el desempeño de modelos de IA generativa en diagnóstico radiológico bajo distintas condiciones, con una metodología robusta y comparaciones bien estructuradas. Los resultados respaldan el uso de la IA como herramienta complementaria en el contexto de casos clínico-radiológicos publicados.

  1. El estudio evalúa modelos de IA de última generación en radiología, lo que proporciona información actualizada sobre el estado del arte en el uso de IA en radiología.
  2. Se evaluó el rendimiento de los modelos en tres escenarios distintos: Solo historial clínico (texto). Historial clínico + hallazgos de imagen (texto). Historial clínico + imágenes clave (PNG). Esto permite entender qué tipo de información mejora el diagnóstico de la IA y cómo se pueden optimizar sus aplicaciones clínicas y formativas.
  3. Se demostró mejor desempeño con la versión más reciente (Claude 3.5 Sonnet).
  4. Los modelos lograron identificar correctamente los diagnósticos en un porcentaje considerable de los casos, especialmente cuando se incluían hallazgos de imagen en texto. Esto sugiere que la IA puede ser útil como herramienta de apoyo para radiólogos.

 

 

Dr. Francisco Sendra Portero

Editor de la sección de FORMACIÓN

 

 

Suscríbete

Comités

Sugerencias

Mantenimiento web

El próximo fin de semana, 2 y 3 de marzo, la web no estará operativa por labores de mantenimiento.
Podrás seguir accediendo a la plataforma de formación en http://aula.formacion.seram.es