Assessing accuracy and legitimacy of multimodal large language models on Japan Diagnostic Radiology Board Examination

Espacio editorial virtual

Assessing accuracy and legitimacy of multimodal large language models on Japan Diagnostic Radiology Board Examination

Jpn J Radiol 44, 209–217 (2026)

AUTOHirano Y, Miki S, Yamagishi Y, Hanaoka S, Nakao T, Kikuchi T, Nakamura Y, Nomura Y, Yoshikawa T, Abe O.

Autor/es: Dr. Francisco Sendra Portero

El estudio evalúa la precisión y la calidad de las respuestas de ocho modelos de lenguaje multimodales en el examen japonés de radiología (JDRBE), utilizando preguntas de varios años y comparando su rendimiento con y sin imágenes. Los resultados muestran que modelos recientes como o3 y Gemini 2.5 Pro alcanzan las mejores tasas de acierto (hasta un 72%) y obtienen mejores valoraciones por parte de radiólogos, aunque el impacto de añadir imágenes varía según el modelo.

En general, los grandes modelos de lenguaje (LLM) han mejorado notablemente, destacando el papel de las capacidades de razonamiento más que la interpretación visual pura. Aunque algunos avances en el análisis de imágenes son evidentes, los LLMs aún dependen en gran medida del texto. El estudio concluye que existe un progreso claro, pero también limitaciones que deben considerarse antes de su uso clínico.

PUNTOS DÉBILES:

Este estudio, aunque interesante presenta algunos puntos débiles que señalamos a continuación:

· Una limitación importante es que no se evaluó la variabilidad de las respuestas al repetir las consultas a los modelos, lo que impide saber hasta qué punto los resultados son reproducibles.

· Tampoco se pudo determinar con claridad si el mejor rendimiento de algunos modelos se debe realmente a su capacidad de razonamiento o simplemente a que poseen mayor cantidad de conocimiento previo.

· Otra debilidad es que la evaluación cualitativa no se realizó en todos los modelos, sino solo en una selección, lo que reduce la comparabilidad completa entre ellos.

PUNTOS FUERTES:

El estudio presenta algunos puntos fuertes que deben destacarse, subrayando el uso de IA generativa para desentrañar las particularidades de un examen real y exigente como el JDRBE:

· Destaca por incluir una comparación amplia entre varios modelos de lenguaje multimodales recientes, lo que aporta una visión actualizada y representativa del estado de la IA generativa en radiología diagnóstica.

· Incorpora una evaluación tanto con imágenes como sin ellas, lo que permite analizar el impacto real de las capacidades multimodales en el rendimiento de los modelos.

· Además de medir la precisión, incluye una valoración cualitativa de las respuestas por parte de radiólogos expertos, lo que aporta una perspectiva importante sobre la utilidad de los modelos.

· Finalmente, el estudio identifica claramente el papel clave del razonamiento en los modelos más avanzados, aportando información valiosa sobre hacia dónde está evolucionando la IA generativa en medicina.

Dr. Francisco Sendra Portero

Editor de la sección de FORMACIÓN

Acceder al artículo

Acceder al .pdf - Inglés