Clasificación de reportes radiológicos en español, mediante el Procesamiento de Lenguaje Natural.
Ya se ha comentado la relevancia del Procesamiento Natural del Lenguaje (NLP, por sus siglas en ingles). Con el propósito de ser el motor de búsqueda de artículos radiológicos de interés mediante distintos algoritmos. Y es que gracias a esta, se pueden encontrar artículos referentes al tema de radiología, debido a que la computadora trata de “comprender el lenguaje”.
De igual modo, tal como lo muestra [1] gracias al NLP, se puede clasificar artículos, los cuales, informen sobre algún problema patológicos. Sin duda, uno de los mayores retos que se tuvieron al diseñar esta NLP, fue la barrera lingüística. Debido que, para realizar dicha tarea, se tenía que traducir primeramente el artículo a analizar en inglés, para que se pudiera diseñar el sistema.
Entre los retos lingüísticos que se reportaron fueron:
- Frecuencia de uso: Dado que son distintos idiomas, hubo términos ampliamente utilizados en el idioma español. Los cuales, son nulamente utilizados en inglés.
- Más de una palabra: Mientras que, para el inglés el término requiera una palabra; en español, se encontró que este necesitaba de 2 o más palabras, para ser referido.
Para poder realizar dicho sistema, se utilizaron cerca de 130 mil artículos de temas variados, pudiendo ser de Tomografías Computarizadas, Ultrasonido o Resonancia Magnética. Una vez encontrados los artículos, fue necesario primeramente traducirlos por el Traductor de Google. Mientras que los términos de interés que fueran distintos en el idioma español, fue necesario “traducirlos”, para que tuviera una mayor semejanza con el idioma inglés.
Una vez traducido, se encontraron las palabras o frases de mayor interés las cuales se buscaron en la herramienta Ralex (la cual permite buscar el término radiológico apropiado, como un diccionario de términos comunes en radiología). De esta manera encontrando las palabras de interés en cada artículo, fue necesario establecer condiciones (o entrar a la etapa de clasificación) las cuales permitieran discernir al sistema; si es que el artículo era referente a alguna patología o no.
Entre las limitaciones encontradas para esta primera etapa, se encontraron que la herramienta Ralex carecía de eficiencia, cuando el idioma era distinto al inglés. Por lo que, al traducir, pudiera fallar el enfoque del artículo analizado.
Cotik, V., Filippo, D., & Castaño, J. (2015). An Approach for Automatic Classification of Radiology Reports in Spanish. Studies in health technology and informatics, 216, 634–638