Big Data y su aplicación en imágenes médicas.
En un mundo dependiente del internet, la cantidad de información enviada y recibida llega a ser inimaginable. Ya que para el 2020 se percibía que la transmisión de información llegaría a costar en cuestión de almacenamiento hasta 10 mil millones de Terabytes. Sin embargo, dado la alta demanda que supone procesar esta información, para la recomendación de anuncios publicitarios, para el caso del marketing; o para procesar alguna anomalía en el caso de la medicina, hay una rama del Machine Learning que permite procesar la cantidad gigantesca de información, con los recursos disponibles en la actualidad.
A esta rama se le denomina Big Data, la cual permite la implementación del Machine Learning, pero con cantidades abismales de datos. Para este caso, [1] trató de implementar un algoritmo para procesar las mamografías y detectar cuales tenían anomalías, simulando su implementación con el Big Data.
Recordando un poco antes de introducirnos al artículo en cuestión.
Como se ha mencionado múltiples ocasiones, las imágenes en si son una matriz bidimensional de dimensiones MxN, y como toda matriz necesitan algoritmos especializados para su procesamiento. Dichos algoritmos pueden ser desde una simple operación aritmética, hasta operaciones exponenciales y algorítmicas.
Estos algoritmos permiten establecer una relación con la imagen de entrada, con respecto a los parámetros que se desean analizar. Algunos de estos algoritmos pueden permitir la visualización de bordes, obtener una imagen binarisada(es decir que solo predomine el blanco y negro), o permiten resaltar las texturas presentes de esta imagen.
Ahora bien si se desea utilizar una amplia base de datos de imágenes para entrenar a la computadora (Machine Learning), hay algunos términos a considerar, para la etapa de clasificación de nuestro algoritmo (es decir cuando se “toma las decisiones”). Uno de ellos es la eficacia que se define como:
Sin embargo, cuando en una clase hay demasiados datos y en la otra, casi no hay ninguno, la eficacia puede arrojar resultados altísimos, cuando verdaderamente no es caso. Para solucionar estos problemas, existen los conceptos de “recall” y precisión, los cuales se definen matemáticamente como:
Cabe mencionar que, dado que mientras uno evalúa las predicciones falsas positivas y otro las falsas negativas, hace que ambos sean inversamente proporcionales. Por lo que, si hay una mayor precisión, habrá un menor recall.
Con respecto al artículo
Para poder evaluar la eficacia de la simulación del Big Data en un ambiente médico, se evalúo un algoritmo, el cual permite visualizar las texturas de las mamografías, y posterior a ello, de manera Online, extraer dichas características observadas; para permitirle al algoritmo clasificar las imágenes con algún padecimiento o no.
En sus experimentos, se observaron que al evaluar una base de datos de 320 mamografías se tuvo un “recall” de 75%, con una precisión de 33%. Mientras que al evaluar una base médica extensa (no solo mamografías), se registró un “recall” de 70% con una precisión de 33%.
N. Bourkache, M. Laghrouch and S. Sidhom, «Gabor Filter Algorithm for medical image processing: evolution in Big Data context,» 2020 International Multi-Conference on: “Organization of Knowledge and Advanced Technologies” (OCTA), 2020, pp. 1-4, doi: 10.1109/OCTA49274.2020.9151681.