Comparative Performance of ChatGPT and Bard in a Text-Based Radiology Knowledge Assessment

Espacio editorial virtual

Comparative Performance of ChatGPT and Bard in a Text-Based Radiology Knowledge Assessment

Canadian Association os Radiologists

Nikhil S Patil, Ryan S Huang, Christian B. van der Pol y Natasha Larocque.

Autor/es: Dr. Salvador Pedraza Gutiérrez

Los chatbots con inteligencia artificial (IA) tienen diversas utilidades de contextos, y sus aplicaciones dentro de la medicina son un área de investigación actual particularmente interesante. ChatGPT (Transformador preentrenado generativo de chat) por OpenAI es el chatbot más conocido, pero existen otros productos como Bard creado por Google.

En los últimos meses se han realizado numerosos estudios sobre el papel potencial de ChatGPT en el diagnóstico por la imagen, pero existen muy pocos estudios comparativos sobre el valor de las dos chatbox en Radiologia

El objetivo del estudio era comparar entre ChatGPT-4 y Bard la capacidad para responder con precisión a un examen de Radiología.

Los autores analizaron con los dos chatbox una batería de 318 preguntas del Diagnostic Radiology In Training (DXIT) del American College of Radiology (ACR) que es el banco de preguntas para preparar el examen anual del American Board of Radiology (ABR).

Se analizó la precisión de las respuestas, así como el tiempo para responder y la extensión de las respuestas de cada uno de los dos chatbox. Se valoró también los resultados en cada una de las subespecialidades radiológicas.

Al mismo tiempo los autores realizaron un subestadio en un panel de 32 preguntas por dos radiólogos expertos sobre la calidad de las respuestas de los dos chatbot evaluados.

Los resultados muestran que ChatGPT respondió significativamente con mayor precisión que Bard (87,11% frente a 70,44%, p <0,0001).

La longitud de la respuesta de ChatGPT fue significativamente más corta que la de Bard (935,28 ± 440,88 caracteres frente a 1437,52 ±

415,91 caracteres, p < 0,0001).

El tiempo de respuesta de ChatGPT fue significativamente más largo que el de Bard (26,79 ± 3,27 segundos frente a 7,55 ± 1,88 segundos, p < 0,0001). ChatGPT tuvo un rendimiento superior a Bard en neurorradiología (100,00% frente a 86,21%, p = 0,03), física general y (85,39 % frente a 68,54 %, p < 0,001), medicina nuclear (80,00 % frente a 56,67 %, p < 0,01), radiología pediátrica (93,75 % vs 68,75%, P = 0,03), y ultrasonido (100,00% vs 63,64%, P < 0,001). En el resto de las subespecialidades no hubo diferencias significativas.

La conclusión es que existen diferencias en el momento actual entre los dos chatbox estudiados y que ChatGPT mostró conocimientos radiológicos superiores respeto a Bard. Sin embargo, dada la rápida evolución de esta tecnología es importante la reevaluación continua del valor aportado en radiología por las diferentes opciones de chatbox.

PUNTOS DEBILES:

. El estudio se ha basado en preguntas, pero no en imágenes radiológicas.

. No se ha valorado la habilidad para interpretar estudios radiológicos.

. Posible sesgo en la selección de las preguntas de las diferentes áreas de la radiología.

PUNTOS FUERTES:

. Es un estudio prospectivo.

. Hay un comentario sobre las limitaciones del estudio.

. Propuesta de realizar más estudios sobre el valor del trabajo conjunto de radiólogo y chatbox en la práctica diaria y sobre el valor potencial para estudiantes de medicina.

Dr Salvador Pedraza

Editor de la sección de Educación (FORA).

Acceder al artículo

Acceder al .pdf - Español