Espacio editorial virtual
- Inicio
- Espacio editorial virtual
- The EMory BrEast imaging Dataset (EMBED): A Racially Diverse, Granular Dataset of 3.4 Million Screening and Diagnostic Mammographic Images.
The EMory BrEast imaging Dataset (EMBED): A Racially Diverse, Granular Dataset of 3.4 Million Screening and Diagnostic Mammographic Images.

Los sistemas de inteligencia artificial (IA) con Deep learning aplicados a la detección precoz de cáncer de mama cada vez son más frecuentes, pero requieren de bases de datos robustas y con representación demográfica diversa para asegurar que son reproducibles. Sin embargo, las existentes actualmente en el mercado son racial y étnicamente homogéneas, pequeñas y con falta de información sobre la anatomÃa patológica.
De hecho, las pacientes afro-americanas están claramente infrarepresentadas a pesar de tener el cáncer de mama de peor pronóstico en estos casos.
La base de datos EMory BrEast (EMBED) es la única que contiene tanto mamografÃas de screening como diagnósticas, digitales y con tomosÃntesis, con anotaciones a nivel de las lesiones de sospecha y con la información de anatomÃa patológica en pacientes racialmente diversas.
Como punto fuerte cabe destacar la gran cantidad de pacientes que contiene, asà como la diversidad étnica y de datos diferentes. Sin embargo, esta ventaja se vuelve inconveniente debido a la complejidad de esta con numerosos sesgos a la hora de recogida y la clasificación de datos. De hecho aprox. el 20% de las lesiones fueron clasificadas como ambiguas debido a la presencia de varios ROIs que no pudieron ser clasificados automáticamente. El formato de las imágenes variaba entre las diferentes casas comerciales por lo que la extracción de datos DICOM también se vió dificultada en muchos casos al igual que su conversión a imágenes PNG. Por todo ello incluso se tuvo que reducir el almacenaje de datos en un 10% de los archivos. Tampoco se pudieron incluir todos los casos de cáncer de mama debido a la ausencia del diagnóstico / informe de anatomÃa patológica.
Por todo ello finalmente se concluye la necesidad de bases de datos más inclusivas, que tengan en cuenta una población más diversa siendo extrapolables y reproducibles.
Dra. Silvia Pérez
Sección de radiologÃa de la mama – SEDIM