Espacio editorial virtual

The EMory BrEast imaging Dataset (EMBED): A Racially Diverse, Granular Dataset of 3.4 Million Screening and Diagnostic Mammographic Images.

Radiology
Jeong JJ, Vey BL, Bhimireddy A, Kim T, Santos T, Correa R, Dutt R, Mosunjac M, Oprea-Ilies G, Smith G, Woo M, McAdams CR, Newell MS, Banerjee I, Gichoya J, Trivedi H.
SERAM - Radiology Radiographics
Autor/es: Jeong JJ, Vey BL, Bhimireddy A, Kim T, Santos T, Correa R, Dutt R, Mosunjac M, Oprea-Ilies G, Smith G, Woo M, McAdams CR, Newell MS, Banerjee I, Gichoya J, Trivedi H.

Los sistemas de inteligencia artificial (IA) con Deep learning aplicados a la detección precoz de cáncer de mama cada vez son más frecuentes, pero requieren de bases de datos robustas y con representación demográfica diversa para asegurar que son reproducibles.  Sin embargo, las existentes actualmente en el mercado son racial y étnicamente homogéneas, pequeñas y con falta de información sobre la anatomía patológica.
De hecho, las pacientes afro-americanas están claramente infrarepresentadas a pesar de tener el cáncer de mama de peor pronóstico en estos casos.

La base de datos EMory BrEast (EMBED) es la única que contiene tanto mamografías de screening como diagnósticas, digitales y con tomosíntesis, con anotaciones a nivel de las lesiones de sospecha y con la información de anatomía patológica en pacientes racialmente diversas.

Como punto fuerte cabe destacar la gran cantidad de pacientes que contiene, así como la diversidad étnica y de datos diferentes. Sin embargo, esta ventaja se vuelve inconveniente debido a la complejidad de esta con numerosos sesgos a la hora de recogida y la clasificación de datos. De hecho aprox. el 20% de las lesiones fueron clasificadas como ambiguas debido a la presencia de varios ROIs que no pudieron ser clasificados automáticamente. El formato de las imágenes variaba entre las diferentes casas comerciales por lo que la extracción de datos DICOM también se vió dificultada en muchos casos al igual que su conversión a imágenes PNG. Por todo ello incluso se tuvo que reducir el almacenaje de datos en un 10% de los archivos. Tampoco se pudieron incluir todos los casos de cáncer de mama debido a la ausencia del diagnóstico / informe de anatomía patológica.

Por todo ello finalmente se concluye la necesidad de bases de datos más inclusivas, que tengan en cuenta una población más diversa siendo extrapolables y reproducibles.

 

Dra. Silvia Pérez

Sección de radiología de la mama –  SEDIM

Suscríbete

Comités

Sugerencias

Mantenimiento web

El próximo fin de semana, 2 y 3 de marzo, la web no estará operativa por labores de mantenimiento.
Podrás seguir accediendo a la plataforma de formación en http://aula.formacion.seram.es