Espacio editorial virtual
- Inicio
- Espacio editorial virtual
- Comparative Performance of ChatGPT and Bard in a Text-Based Radiology Knowledge Assessment
Comparative Performance of ChatGPT and Bard in a Text-Based Radiology Knowledge Assessment
Los chatbots con inteligencia artificial (IA) tienen diversas utilidades de contextos, y sus aplicaciones dentro de la medicina son un área de investigación actual particularmente interesante. ChatGPT (Transformador preentrenado generativo de chat) por OpenAI es el chatbot más conocido, pero existen otros productos como Bard creado por Google.
En los últimos meses se han realizado numerosos estudios sobre el papel potencial de ChatGPT en el diagnóstico por la imagen, pero existen muy pocos estudios comparativos sobre el valor de las dos chatbox en Radiologia
El objetivo del estudio era comparar entre ChatGPT-4 y Bard la capacidad para responder con precisión a un examen de RadiologÃa.
Los autores analizaron con los dos chatbox una baterÃa de 318 preguntas del Diagnostic Radiology In Training (DXIT) del American College of Radiology (ACR) que es el banco de preguntas para preparar el examen anual del American Board of Radiology (ABR).
Se analizó la precisión de las respuestas, asà como el tiempo para responder y la extensión de las respuestas de cada uno de los dos chatbox. Se valoró también los resultados en cada una de las subespecialidades radiológicas.
Al mismo tiempo los autores realizaron un subestadio en un panel de 32 preguntas por dos radiólogos expertos sobre la calidad de las respuestas de los dos chatbot evaluados.
Los resultados muestran que ChatGPT respondió significativamente con mayor precisión que Bard (87,11% frente a 70,44%, p <0,0001).
La longitud de la respuesta de ChatGPT fue significativamente más corta que la de Bard (935,28 ± 440,88 caracteres frente a 1437,52 ±
415,91 caracteres, p < 0,0001).
El tiempo de respuesta de ChatGPT fue significativamente más largo que el de Bard (26,79 ± 3,27 segundos frente a 7,55 ± 1,88 segundos, p < 0,0001). ChatGPT tuvo un rendimiento superior a Bard en neurorradiologÃa (100,00% frente a 86,21%, p = 0,03), fÃsica general y (85,39 % frente a 68,54 %, p < 0,001), medicina nuclear (80,00 % frente a 56,67 %, p < 0,01), radiologÃa pediátrica (93,75 % vs 68,75%, P = 0,03), y ultrasonido (100,00% vs 63,64%, P < 0,001). En el resto de las subespecialidades no hubo diferencias significativas.
La conclusión es que existen diferencias en el momento actual entre los dos chatbox estudiados y que ChatGPT mostró conocimientos radiológicos superiores respeto a Bard. Sin embargo, dada la rápida evolución de esta tecnologÃa es importante la reevaluación continua del valor aportado en radiologÃa por las diferentes opciones de chatbox.
PUNTOS DEBILES:
. El estudio se ha basado en preguntas, pero no en imágenes radiológicas.
. No se ha valorado la habilidad para interpretar estudios radiológicos.
. Posible sesgo en la selección de las preguntas de las diferentes áreas de la radiologÃa.
PUNTOS FUERTES:
. Es un estudio prospectivo.
. Hay un comentario sobre las limitaciones del estudio.
. Propuesta de realizar más estudios sobre el valor del trabajo conjunto de radiólogo y chatbox en la práctica diaria y sobre el valor potencial para estudiantes de medicina.
Dr Salvador Pedraza
Editor de la sección de Educación (FORA).