Clasificación de Reportes de Radiología, Utilizando Machine Learning en el Control de Calidad
El control de calidad (CC) en la radiología hospitalaria es de suma importancia. Particularmente en las rutinas para el escaneo por tomografía computarizada (TC), debido a que representan casi el 70% de la exposición a la radiación recibida en procedimientos radiológicos de diagnóstico. Un parámetro básico del CC es la fracción de los exámenes que produce hallazgos positivos para un determinado subgrupo de pacientes. La cual puede ser una herramienta para indicar las áreas que deben revisarse.
Recientemente, investigadores noruegos del Hospital Universitario Akershus (HUA) se dedicaron a desarrollar una herramienta que puede utilizarse para estimar dicha fracción de hallazgos positivos en un conjunto de exámenes radiológicos para el HUA. El reto es que los informes radiológicos que utilizaron no están estructurados o están semiestructurados y carecen de resultados o conclusiones binarias. Para lograrlo examinaron el uso de diferentes técnicas de aprendizaje automático (machine learning, ML) para realizar tareas de procesamiento de lenguaje natural (PLN).
¿Cómo es actualmente?
En la actualidad el uso de PLN en los informes de radiología ha proporcionado datos a una serie de sistemas que realizan tareas como la codificación de los hallazgos, las sugerencias de repetición de exámenes y la detección de infecciones nosocomiales. Estas aplicaciones se realizaron con textos clínicos en inglés, aún hay muchos idiomas con los que no se han elaborado estas aplicaciones, pero estos autores se encargaron de utilizar textos radiológicos en lengua noruega.
Frederik et al, utilizaron 13,506 informes escritos de TC de niños (< 20 años) en el periodo de 2006-2017, abarcando una amplia gama de especialidades médicas. Además, incluyeron 1,000 informes elegidos al azar de escáneres de TC de adultos y 1,000 de rayos X de tórax de adultos para probar la validez externa de los modelos. Por otro lado, un clínico y un radiólogo se encargaron de etiquetar y reetiquetar 500 de estos informes para comprobar la fiabilidad del modelo, pero también fueron utilizados como valores de referencia de la actuación humana.
En conclusión
Se comprobaron 3 modelos de ML: Máquinas de Vector Soporte (SVM), modelo a corto plazo bidireccional (bi-LSTM) y el modelo de Red Neuronal Convolucional (CNN). Los tres modelos funcionaron muy bien en el conjunto de datos de prueba, con una precisión alrededor de 0.98. En total se etiquetaron 15,506 informes, con un número tan elevado es inevitable para un humano no cometer ningún error. Los modelos también obtuvieron buenos resultados en los conjuntos de datos de validación externa, obteniendo una precisión de alrededor de 0.95. Esto quiere decir que los modelos captan efectivamente un concepto genérico de anormalidad.
Los autores comentan que el objetivo del estudio era desarrollar modelos que pudieran utilizarse para el posterior control de calidad, y un rendimiento robusto es clave para tales aplicaciones. Aseguran que su contribución más importante puede ser la validación exitosa de los modelos en informes radiológicos relacionados con una población diferente (adultos vs niños); y una modalidad de imagen diferente (rayos X vs TC).
Cerraron su estudio afirmando que el trabajo realizado “indica que las herramientas de PLN pueden utilizarse para trazar nuestra práctica con una precisión suficiente para iniciar debates valiosos en nuestro esfuerzo continuo por mantener una buena calidad.”
Fredrik A. Dahl, Taraka Rama, Petter Hurlen, Pål H. Brekke, Haldor Husby, Tore Gundersen, Øystein Nytrø, & Lilja Øvrelid. (2021). Neural classification of Norwegian radiology reports: using NLP to detect findings in CT-scans of children. BMC Medical Informatics and Decision Making, 21(1), 1–8.