Evaluación de técnicas IA para el diagnóstico del cáncer de mama.
El cáncer se ha convertido en una de las causas dominantes de muerte en todo el mundo. Es tan mortal que se estima que sólo en 2018 provocó 9.6 millones de decesos. En palabras sencillas, en todo el mundo casi una de cada seis muertes se desencadena debido a las diferentes variantes de esta enfermedad.
Según el Centro Internacional de Investigaciones sobre el Cáncer (IARC) de la Organización Mundial de la Salud, en 2018 se registraron más de 2.09 millones de casos de cáncer de mama. Lamentablemente, se sitúa como la quinta causa de muerte en mujeres.
Como dice el refrán, «más vale prevenir que lamentar», el diagnóstico precoz del cáncer reduce los costes de tratamiento y también salva vidas. Por lo tanto, muchos investigadores están haciendo esfuerzos sorprendentes para luchar contra el cáncer de mama mediante el desarrollo de sistemas de predicción y detección, permitiendo un tratamiento exitoso. En este sentido, las técnicas de aprendizaje automático están desempeñando un papel importante.
Después de estudiar el cáncer de mama durante tanto tiempo, ahora es evidente que su predicción es un problema de dos clases; es decir, clase benigna o clase maligna. Asimismo, la naturaleza de la base de datos de la Enfermedad del Cáncer de Mama (ECM) es cuantitativa y consta de valores continuos, excepto la etiqueta de la clase (benigno/maligno).
¿Cómo es el panorama actual?
Ante una amplia gama de algoritmos y técnicas de aprendizaje automático, los técnicos, desarrolladores y médicos se ven en la necesidad de seleccionar una sola; evidentemente, quieren trabajar con el que arroje mejores resultados. Por ello, Kumar elaboró una investigación que pretende proporcionar una idea clara sobre el mejor modelo clasificador entre los siete candidatos que pueden utilizarse para predecir los resultados más precisos utilizando el conjunto de datos ECM.
Para lograr alcanzar el objetivo, se realizaron experimentos para evaluar la eficacia y la eficiencia de los distintos algoritmos en términos de parámetros como: exactitud del clasificador (CA), precisión (Pre.), especificidad (Spec.), recuperación (Rec.), puntuación F1 (F1), tasa de falsos positivos (FPR), valor predictivo negativo (NPV), tasa de clasificación errónea (RMC) y curva ROC.
El conjunto de datos de la ECM utilizado para este análisis empírico se descargó del repositorio de aprendizaje automático de la UCI. Este conjunto de datos contiene un total de 699 instancias, 458 muestras benignas y 241 malignas, y cada instancia consta de 11 atributos.
¿Qué resultados se obtuvieron?
Según los resultados obtenidos de estos clasificadores, el k-NN y Naïve Bayes (NB) mostraron la misma exactitud de clasificación del 97%, mientras que SVM, Random Forest, ANN y Regresión Lógica demostraron una exactitud de clasificación del 96%, el árbol de decisión ofreció la menor exactitud del 94%.
La predicción de la clase negativa (maligno) es el caso más sensible con respecto al paciente. Debido a que, si recibe una clasificación falsa, su situación puede tornarse peligrosa sin recibir ningún tratamiento. El k-NN y la regresión lógica mostraron el 5% FPR, todos los otros clasificadores demuestran 6% y 7% FPR.
Kumar concluyó que el clasificador k-NN es el más adecuado para tratar datos numéricos en los que el número de atributos de la base de datos no es grande. Además, funciona mejor cuando las características del conjunto de datos tienen la misma escala (1-10), como es el caso de la base de datos ECM.
En resumen, el k-NN es el sistema con mejor rendimiento en el conjunto de datos ECM con un 97% de exactitud, NB también presenta muy buena exactitud, pero una menor precisión. Esta herramienta sin duda permitirá realizar un diagnóstico preciso y temprano del cáncer de mama, no sólo reduciendo costos del tratamiento, sino que también salvando vidas. Solo queda en cada uno de nosotros dar el primer paso y asistir a una prueba de diagnóstico.
Kumar, V. (2020). Evaluation of computationally intelligent techniques for breast cancer diagnosis. Neural Computing and Applications, 33(8), 3195–3208. https://doi.org/10.1007/s00521-020-05204-y