La calidad de reportaje de estudios con procesamiento de lenguaje natural: una revisión sistemática de estudios de reportes radiológicos

La calidad de reportaje de estudios con procesamiento de lenguaje natural: una revisión sistemática de estudios de reportes radiológicos

pacs nubix

Introducción

Los reportes de imagen médica contienen información valiosa sobre la salud y la enfermedad de los pacientes que no se capturan de forma rutinaria en conjuntos de datos administrativos estructurados de la atención médica. El acceso preparado para esta información sería de gran beneficio para la investigación y la mejora de la calidad del cuidado de la salud, en especial para examinar la salud de grandes poblaciones.

Sin embargo, esta fuente se considera no estilizada debido a la extracción manual de información de reportes de texto libre es bastante tardado. El procesado de lenguaje natural (NPL) es una técnica utilizada para analizar el lenguaje y convertirlo a un formato estructurado que es más fácil de utilizar. Por lo tanto, el NPL provee de medias para recuperar de los informes de imagenología, eludiendo la necesidad de la extracción manual y simplifica la investigación con estos datos.

La revisión sistemática de la literatura clínica sobre NPL es importante para identificar desarrollos prometedores, daños potenciales y ayudar a evitar la duplicación del esfuerzo. Sin embargo, la síntesis de la investigación en esta área se complica por la falta de coherencia en los métodos de estudio y los informes. No existen lineamientos claros para el NPL de estudios clínicos, tal vez porque el NPL es utilizado en tantos diseños de estudio. Se han publicado recientemente métodos y guías de porte para los exámenes clínicos utilizando machine learning (ML) y un se han desarrollado lineamientos extensos para el informe predictivo con modelos de ML.

Los protocolos para un NPL

Los protocolos de informe estructurado han sido sugeridos para el NPL en investigaciones de resultados clínicos y también códigos de práctica para el uso de inteligencia artificial (IA) en radiología. Sin embargo, publicaciones que han evaluado los estándares de informes de estudio con ML y su respectivo subcampo, deep learning (DL), en entornos clínicos han mostrado bajos estándares de informes que hacen que esta investigación sea difícil de interpretar, replicar o sintetizar. En las revisiones existentes no está si el NPL clínico en general tiene mejores informes.

Los autores decidieron realizar una revisión sistemática en donde examinaron la calidad del reportaje en estudios aplicando NPL clínico a informes de imagenología debido a su relativa accesibilidad y tamaño pequeño, con un vocabulario restringido lo cuál es ideal para el NPL.  

El trabajo consistió en una investigación de 4,836 publicaciones en las cuales se extrajeron 274 que eran potencialmente elegibles. Después de realizar una evaluación de elegibilidad completa se incluyeron 164 estudios que usaron NPL en reportes radiológicos. Se destacó que las aplicaciones más comunes del NPL en estudios fue acerca de información de enfermedades o su clasificación (28%) y diagnóstico y observación (27.4%), seguido por la estructuración del conocimiento y sus hallazgos (16.5%), calidad y su cumplimiento (12.2%) y finalmente como investigación (9.8%). De los métodos de NLP utilizados, el 26% fue de un sistema basado en reglas solamente y machine learning con un 24% fueron los que se aplicaron de manera más frecuentemente.

Además

Cabe destacar que la mayoría (86%) de los estudios radiológicos se encontraban en idioma inglés, mientras que los otros se contaban con otros idiomas; chino, español, alemán, francés, italiano, portugués, polaco y hebreo, por ejemplo. Las modalidades de imagenología que fueron reportadas eran mixtas (28%), tomografía computarizada (23%), resonancia magnética (9.8%); rayos-X (4.9%), ultrasonido (2.4%), mamografía (3%) y otros tipos (15%). El área más frecuente fue la oncología con un 24% e imágenes de regiones anatómicas mixtas fueron las más frecuentes (26.2%) seguido del tórax (19.5%), cabeza y cuello (15.2%). El tamaño de las bases de datos era bastante variado entre los diversos estudios; 11 estudios no dieron información acerca de tamaños, y otros estudios reportaron número de oraciones, pacientes o fuentes de información mixta en vez de números de reportes.

La revisión sistemática de la calidad de reportaje de reportes de NLP en reportes radiológicos entre 2015 y 2019. Los investigadores denotaron que hubo un incremento en la cantidad de publicaciones investigatorias pasando de 67 a 164. De igual forma, el enfoque principal del trabajo de estos investigadores en el NPL de estudios clínicos; halló que eran bastante precarios debido a que cumplían 8 de los 15 criterios preespecificados.

Los cuales eran los siguientes:

  • Muestreo.
  • Adquisición consistente de imagen.
  • Tamaño del conjunto de datos.
  • Conjunto de datos de entrenamiento.
  • Datos de prueba.
  • Conjunto de datos de validación.
  • Conjunto de datos anotado.
  • Dominio del experto para anotar.
  • Número de anotaciones.
  • Acuerdo inter-anotador.
  • Precisión.
  • Sensibilidad.
  • Validación externa.
  • Disponibilidad de datos.
  • Disponibilidad del código de NPL.

Los investigadores destacaron que, a diferencia de investigaciones con ML y DL, la mayoría de los algoritmos de NPL eran más privados y no se podían replicar por los desarrolladores en otros entornos. Por lo tanto, la validación externa resultaba problemática por la situación antes mencionada. Lo cual conduce a su siguiente punto, los múltiples factores institucionales, ya que algunos datos de salud particulares incluyen consideraciones de privacidad, inconsistencia en la toma de decisiones por cuerpo regulatorios, preocupaciones por la responsabilidad de estas tecnologías y acerca de ciberseguridad. Con esto el grupo consideró que existen problemas de estandarización debido al celo de compartir los códigos y bases de datos para poder establecer lineamientos en el uso de estas tecnologías y debido a esto la mayoría de las revisiones sistemáticas fallan por esto mismo es que aconsejan la mejora de la transparencia en las publicaciones de esta índole.

Conclusiones y recomendaciones

La revisión sistemática con el uso de NPL en reportes radiológicos, del periodo de 2015-2019, encontró un crecimiento substancial en la actividad de investigatoria. No obstante, no halló una clara mejora en el reportaje de información clave para permitir la reproductibilidad y la replicación. Esto impide la síntesis de este campo de investigación.

Davidson, E. M., Poon, M. T. C., Casey, A., Grivas, A., Duma, D., Dong, H., Suárez-Paniagua, V., Grover, C., Tobin, R., Whalley, H., Wu, H., Alex, B., & Whiteley, W. (2021). The reporting quality of natural language processing studies: systematic review of studies of radiology reports. BMC Medical Imaging, 21(1), 1–12. https://doi.org/10.1186/s12880-021-00671-8