Evaluación del rendimiento de un sistema de IA en un programa de cribado mamográfico
La inteligencia artificial (IA) ha mostrado resultados prometedores para la detección del cáncer con mamografía. Sin embargo, las pruebas relacionadas con el uso de la IA en entornos reales de cribado siguen siendo escasas.
Larsen y coautores decidieron comparar el rendimiento de un sistema de IA comercialmente disponible con el consenso realizado en un programa de cribado basado en la población. Además, exploraron las características histopatológicas de los tumores con diferentes puntuaciones de IA.
¿Qué datos utilizaron?
En este estudio retrospectivo, se incluyeron 122,969 exámenes de cribado de 47,877 mujeres realizados en cuatro unidades de cribado en BreastScreen Noruega desde octubre 2009 hasta diciembre 2018.
El conjunto de datos incluyó 752 cánceres detectados en el cribado (6,1 por 1000 exámenes) y 205 cánceres de intervalo (1,7 por 1000 exámenes). Cada examen tenía una puntuación de IA entre 1 y 10, donde 1 indicaba bajo riesgo de cáncer de mama y 10 indicaba alto riesgo.
Métodos
El umbral 1, el umbral 2 y el umbral 3 se utilizaron para evaluar el rendimiento del sistema de IA como herramienta de decisión binaria (seleccionado vs no seleccionado). El umbral 1 se fijó en una puntuación de IA de 10, el umbral 2 se fijó para obtener una tasa de selección similar a la tasa de consenso (8,8%), y el umbral 3 se fijó para obtener una tasa de selección similar a la de un radiólogo individual promedio (5,8%). Se utilizaron estadísticas descriptivas para resumir los resultados del cribado.
Resultados
Un total de 653 de 752 cánceres detectados por cribado (86,8%) y 92 de 205 cánceres de intervalo (44,9%) recibieron una puntuación de 10 por parte del sistema de IA (umbral 1). Utilizando el umbral 3, se seleccionó el 80,1% de los cánceres detectados mediante cribado (602 de 752) y el 30,7% de los cánceres de intervalo (63 de 205). El cáncer detectado por cribado con puntuaciones de IA no seleccionadas y usando los umbrales, tenía características histopatológicas favorables en comparación con los seleccionados. Por otro lado, se observaron resultados opuestos para el cáncer de intervalo.
Conclusión
La proporción de cánceres detectados en el cribado que no fueron seleccionados por el sistema de inteligencia artificial (IA), en los tres umbrales evaluados fue inferior al 20% y varios de ellos probablemente también se detectarían en una fase temprana en la siguiente ronda de cribado. Los autores mencionan que el rendimiento general del sistema de IA fue prometedor dependiendo del cáncer detectado.
Finalmente, hacen énfasis en que «los estudios futuros también deberían examinar las características mamográficas identificadas por la IA, evaluar múltiples algoritmos de IA de forma comparativa, examinar la IA en poblaciones de cribado más diversas e incluir análisis de rentabilidad de su uso en el cribado».
Larsen, M., Aglen, C. F., Lee, C. I., Hoff, S. R., Lund-Hanssen, H., Lång, K., Nygård, J. F., Ursin, G., & Hofvind, S. (2022). Artificial Intelligence Evaluation of 122 969 Mammography Examinations from a Population-based Screening Program. Radiology. https://doi.org/10.1148/radiol.212381