Espacio editorial virtual
- Inicio
- Espacio editorial virtual
- Effects of Expert-Determined Reference Standards in Evaluating the Diagnostic Performance of a Deep Learning Model: A Malignant Lung Nodule Detection Task on Chest Radiographs.
Effects of Expert-Determined Reference Standards in Evaluating the Diagnostic Performance of a Deep Learning Model: A Malignant Lung Nodule Detection Task on Chest Radiographs.

Artículo original sobre inteligencia artificial (IA) en radiología torácica que valora el uso de diferentes estándares de referencia determinados por expertos al evaluar el rendimiento de los modelos de detección automática de nódulos pulmonares basados en aprendizaje profundo o "deep learning" (DLAD) y su valor añadido a la valoración de los radiólogos, en comparación con el “gold standard” clínico que en este artículo es la anatomía patológica. Las medidas de rendimiento del modelo de IA pueden ser sustancialmente afectadas por estándares determinados por expertos cuando no se dispone del estándar de oro clínico. El objetivo fue evaluar la concordancia de varios estándares determinados por expertos, cinco en total, con el estándar de oro clínico en las estimaciones del rendimiento diagnóstico de los radiólogos para detectar nódulos pulmonares malignos en radiografías de tórax con y sin la ayuda de un modelo comercial de DLAD. Se analizaron un total de 100 radiografías de tórax (50 con diagnóstico anatomopatológico y 50 normales). Los estándares determinados por expertos causaron sesgos en la medición del rendimiento de diagnóstico del modelo de IA.
PUNTOS FUERTES:
- Minucioso diseño del estudio que analiza cinco estándares de referencia finales determinados por expertos con explicación detallada y simple del proceso de construcción y evaluación de los estándares de referencia.
- Texto comprensible para no expertos en el área de la IA.
PUNTOS DÉBILES:
- Muestra pequeña que no permite extrapolar resultados a otras tareas o algoritmos de IA.
- Lectura realizada por radiólogos torácicos expertos que puede sesgar los resultados del rendimiento diagnóstico del modelo de DLAD. Los radiólogos con menor experiencia tienden a ser más fuertemente influenciados por el modelo DLAD, por lo que se deberían incluir en estudios futuros.
Dra. Mariana Benegas
Sección de Radiología torácica - SEICAT