Pontificia Universidad Católica Madre y Maestra, PUCMM
Emely Gómez y Justin Quijada
Introducción
Cada minuto que pasa durante un accidente cerebrovascular representa una pérdida neuronal irreversible: aproximadamente 1.9 millones de neuronas mueren cada 60 segundos si no se interviene a tiempo. Esta estadística, respaldada por estudios clínicos, fue el punto de partida para desarrollar un sistema de diagnóstico asistido por inteligencia artificial. En un país como el nuestro, República Dominicana, donde muchos hospitales enfrentan limitaciones en cuanto a disponibilidad de especialistas en neuroimagen, es común que los pacientes no sean diagnosticados en la ventana de tiempo crítica. Por eso, este proyecto propone una solución que no solo automatiza el análisis de imágenes médicas, sino que también actúa como una segunda opinión confiable, rápida y consistente.
La iniciativa fue desarrollada por Emely Gómez y Justin Quijada, estudiantes de Ingeniería en Ciencias de la Computación en la PUCMM, bajo la mentoría del profesor José Luis Alonso. La idea nació al observar una brecha recurrente en hospitales y clínicas: el proceso de interpretar una resonancia magnética (específicamente DWI) depende casi exclusivamente del criterio de un radiólogo experimentado, cuya carga de trabajo muchas veces impide un análisis exhaustivo. Nuestra propuesta introduce un modelo de deep learning entrenado con imágenes reales para detectar señales de ACV de forma automática, acompañada de una interfaz visual pensada para el médico.
Este proyecto se desarrolló en colaboración con la Clínica Materno Infantil en Santiago de los Caballeros, que facilitó un conjunto de imágenes DWI reales, garantizando su anonimización y calidad clínica. Asimismo, contamos con la asesoría de la Dra. Esmirna Y. Farington, especialista en neurología, quien orientó la validación clínica y los criterios diagnósticos que guiaron el desarrollo del sistema.
Cuando cada segunda cuenta: la urgencia de detectar un ACV
Los accidentes cerebrovasculares (ACV), también conocidos como strokes, son una de las primeras causas de discapacidad y muerte en el mundo. Se estima que cada año más de 15 millones de personas sufren un ACV, y al menos un tercio queda con secuelas neurológicas permanentes. En República Dominicana, como en muchos otros países en vías de desarrollo, los recursos de diagnóstico avanzado suelen concentrarse en grandes ciudades, lo que complica la atención de pacientes en regiones rurales o con menor infraestructura.
El ACV se presenta en dos formas principales: isquémico, cuando un coágulo bloquea el flujo sanguíneo hacia el cerebro, y hemorrágico, cuando un vaso sanguíneo se rompe y sangra dentro del tejido cerebral. Ambos requieren atención médica inmediata, pero el isquémico —que representa casi el 85% de los casos— puede beneficiarse significativamente si se detecta dentro de las primeras tres horas.
El problema radica en que los síntomas pueden ser sutiles o confundirse con otras condiciones, y que la herramienta más efectiva para detectarlos a tiempo —la resonancia magnética ponderada por difusión (DWI)— requiere interpretación experta, la cual no siempre está disponible.
En muchos hospitales, la carga de trabajo, la fatiga del personal y la falta de tecnología hacen que una imagen DWI se quede sin ser evaluada a tiempo. A esto se suma la variabilidad interobservadora, donde dos médicos podrían llegar a conclusiones distintas ante la misma imagen. Esta subjetividad, aunque natural, representa una amenaza al tratamiento oportuno. Por ello, vimos en la IA no una forma de sustituir al médico, sino de ofrecer una herramienta que aporte velocidad, precisión y objetividad al análisis.
Lo que se ha hecho antes: una base para mejorar
Diversos estudios han respaldado la efectividad del uso de modelos de aprendizaje profundo en la detección automatizada de accidentes cerebrovasculares. En su investigación, Mahmud et al. (2022) desarrollaron un sistema basado en redes neuronales convolucionales (CNN) personalizadas, denominado OzNet, diseñado para clasificar imágenes médicas de tomografía computarizada (CT) en categorías relacionadas con ACV. El modelo logró una precisión del 98.4 %, con un AUC de 0.99, al combinar técnicas de extracción automática de características con algoritmos supervisados como Naïve Bayes y SVM. Esta investigación valida el enfoque de aplicar CNN especializadas para tareas médicas críticas, reforzando la propuesta de nuestro proyecto, que utiliza modelos pre-entrenados adaptados para el análisis de imágenes por resonancia DWI.
Una IA al servicio del diagnóstico médico
Frente a las limitaciones del diagnóstico clínico tradicional de ACV, desarrollamos un sistema de apoyo médico basado en técnicas avanzadas de inteligencia artificial (IA), específicamente deep learning, capaz de analizar imágenes por resonancia magnética DWI y emitir una predicción automatizada sobre la presencia o ausencia de un accidente cerebrovascular. Esta solución se concibió no como un reemplazo del médico especialista, sino como una herramienta complementaria que actúe como una segunda opinión objetiva, rápida y reproducible, especialmente útil en centros con recursos limitados o alta carga asistencial.
El núcleo del sistema es un modelo de red neuronal convolucional (CNN) orientado a la clasificación de imágenes médicas. En la fase inicial se evaluaron varias arquitecturas avanzadas, entre ellas EfficientNetB3 y ResNet50, por su popularidad en tareas de visión computacional. Sin embargo, DenseNet121 demostró un desempeño superior en términos de estabilidad, precisión y capacidad para capturar patrones sutiles en imágenes DWI, lo que motivó su elección como modelo definitivo. Para maximizar su efectividad, se aplicó transfer learning, reutilizando pesos preentrenados en ImageNet y ajustando las capas superiores mediante fine-tuning, junto con regularización y técnicas de optimización para mejorar la generalización.
Para facilitar la interacción con el modelo, se desarrolló una interfaz gráfica de usuario utilizando la plataforma Streamlit, lo que permitió construir una aplicación web ligera, intuitiva y compatible con entornos hospitalarios. Esta interfaz permite cargar imágenes médicas, visualizar la predicción del sistema (stroke / no stroke), consultar métricas de confianza como el AUC y el F1-score, y observar mapas de activación generados con Grad-CAM, que resaltan las zonas que el modelo considera más relevantes para su decisión.
FIGURA 1: Diagrama de procesos
LINK: https://drive.google.com/file/d/1JGOIhBGLqtvdsAYQPbXTXdNo6e5YkAsU/view?usp=shar ing
A nivel técnico, la arquitectura del sistema no se limita únicamente al modelo predictivo, sino que representa una arquitectura completa que abarca desde el procesamiento inicial de la imagen hasta la generación de un informe visual interpretativo. Al cargar una imagen DWI, esta pasa por una etapa de preprocesamiento donde se normaliza su escala de grises, se redimensiona a una resolución estándar y se convierte en un tensor compatible con el modelo.
Posteriormente, la imagen procesada se alimenta a la red neuronal seleccionada —DenseNet121, EfficientNetB3 o ResNet50— la cual emite una predicción binaria sobre la presencia de un stroke. Esta predicción, junto con los mapas de activación generados por Grad-CAM, se traduce en una visualización comprensible para el usuario médico, facilitando tanto el diagnóstico como la validación clínica.
Una de las prioridades fue garantizar que el modelo no opere como una caja negra. A diferencia de otros modelos de IA que operan como cajas negras, este proyecto integró desde el inicio técnicas de explicabilidad para evitar decisiones automatizadas sin justificación. Gracias a Grad-CAM, el médico no solo recibe una respuesta del modelo, sino también una imagen con las áreas cerebrales destacadas que influyeron en la decisión. Esta capacidad es fundamental en entornos clínicos, donde cada diagnóstico debe estar respaldado por evidencia visual o estadística. Al promover la transparencia, se fortalece la aceptación del sistema dentro del equipo médico y se reducen las barreras éticas para su implementación.
Además, se integraron múltiples estrategias de preprocesamiento y aumento de datos para mejorar la robustez del sistema ante imágenes de diferentes formatos, calidades y condiciones clínicas. Esto incluyó normalización, redimensionamiento, simulación de variaciones clínicas mediante transformaciones visuales, y generación de imágenes sintéticas. Esta etapa fue clave para asegurar que el sistema pudiera adaptarse a diferentes entornos médicos reales.
Cómo diseñamos una IA confiable para imágenes médicas
El diseño de una herramienta de apoyo clínico basada en IA requiere mucho más que un buen modelo de predicción: implica entender el flujo clínico, las limitaciones tecnológicas de los centros médicos y los criterios éticos para construir confianza en un sistema automatizado. Por esta razón, el primer paso fue construir una base sólida de datos con imágenes reales de resonancia magnética DWI. Estas imágenes fueron proporcionadas por la Clínica Materno Infantil, cuidadosamente anonimizadas y validadas por profesionales del área médica. Esta etapa fue fundamental, ya que los modelos de aprendizaje profundo dependen críticamente de la calidad y la diversidad del conjunto de entrenamiento para aprender patrones fiables.
Uno de los mayores desafíos fue el desequilibrio de clases, es decir, la diferencia en la cantidad de imágenes de pacientes con ACV versus sin ACV. Este es un problema común en datasets médicos, que tiende a sesgar los modelos hacia la clase mayoritaria. Para enfrentarlo, se aplicaron técnicas de aumento de datos (data augmentation) y se generaron imágenes sintéticas utilizando transformaciones controladas. Estas incluían rotación, zoom, variación de contraste y simulaciones de artefactos clínicos comunes, como ruido de escáner. Estas estrategias ayudaron a expandir el conjunto de datos sin comprometer la veracidad clínica.
La arquitectura del modelo se basó en DenseNet121, elegida por su capacidad para reutilizar características entre capas densamente conectadas, reduciendo el riesgo de degradación del gradiente y maximizando la eficiencia en el aprendizaje. Inicialmente, se exploraron arquitecturas como ResNet50 y EfficientNetB3, pero tras múltiples pruebas comparativas, DenseNet121 mostró un mejor equilibrio entre desempeño, estabilidad y velocidad de convergencia. En lugar de entrenar desde cero, se aplicó transfer learning para aprovechar pesos previamente entrenados en ImageNet, adaptándolos a las imágenes DWI mediante fine-tuning en las capas superiores.
Para entrenar cada modelo, se utilizó validación cruzada estratificada por grupo de paciente, lo que garantiza que las imágenes del mismo paciente no aparezcan simultáneamente en los conjuntos de entrenamiento y validación. Esta estrategia evita el sobreajuste y simula un escenario clínico real, donde el modelo debe predecir correctamente imágenes de nuevos pacientes nunca antes vistos por la red. Además, se aplicó early stopping y regularización mediante dropout para controlar el sobreajuste.
La capa final de nuestro sistema fue el desarrollo de una interfaz amigable e intuitiva, pensada para ambientes clínicos reales. Para ello se utilizó Streamlit, una plataforma de desarrollo rápido de aplicaciones web en Python. La aplicación permite cargar imágenes DWI, recibir la predicción del modelo, visualizar métricas como F1-score y AUC, y observar mapas explicativos. Esta solución fue diseñada para poder ejecutarse de forma local en equipos con capacidad limitada, sin necesidad de conexión a internet, garantizando la portabilidad a centros rurales.
Desde el punto de vista técnico, la arquitectura completa sigue un flujo estandarizado: la imagen pasa por una etapa de preprocesamiento (normalización, redimensionamiento y conversión a tensor), luego es analizada por el modelo seleccionado, y finalmente se generan los mapas de activación y predicción. Este flujo fue modularizado y empaquetado para facilitar su integración en futuras soluciones hospitalarias o sistemas de archivo de imágenes médicas (PACS).
Figura 2: mapa conceptual del proyecto.
LINK:
https://drive.google.com/file/d/1Izt-uz44T2Bj4L9wD-K47jTefIXi1OM0/view?u sp=sharing
En paralelo, se implementaron funciones de monitorización del desempeño durante el entrenamiento, incluyendo seguimiento de curvas de aprendizaje y comparación de modelos. Esta información fue crucial para seleccionar el modelo con mejor equilibrio entre sensibilidad y especificidad, parámetros vitales en medicina donde los falsos negativos pueden costar vidas. Además, se exploró el uso de métricas personalizadas más allá de la precisión.
Resultados:
Los resultados que se presentan corresponden a DenseNet121, la arquitectura que, tras un análisis comparativo con modelos como ResNet50 y EfficientNetB3, demostró el mejor equilibrio entre precisión y estabilidad. Durante la validación cruzada (5-Fold CV), este modelo alcanzó un desempeño sobresaliente en métricas críticas como AUC y F1-score. Posteriormente, en el conjunto de prueba, mantuvo esta robustez, confirmando su capacidad para generalizar en escenarios clínicos reales:
Métrica | Valor promedio | |
Accuracy | 0.8539 | |
Precision | 0.8222 | |
Recall | 0.8368 | |
Specificity | 0.8487 | |
F1-Score | 0.8288 | |
AUC | 0.9146 | |
FNR | 0.1632 |
Estos resultados indican que el sistema mantiene una alta capacidad discriminativa (AUC ≈ 0.91), reduciendo falsos negativos, lo cual es esencial para no omitir casos de ACV. La combinación de recall elevado (0.8368) y specificity (0.8487) confirma que el modelo responde bien tanto a imágenes con ACV como a aquellas sin la condición.
Curvas de entrenamiento y validación:
Se observó que las métricas de entrenamiento convergieron rápidamente, mientras que la validación se mantuvo estable, lo que indica un buen ajuste sin sobreentrenamiento significativo.
Figura 3. Curvas de aprendizaje de DenseNet121: Accuracy, Loss, AUC y F1-score.
Evaluación en el conjunto de prueba
En la fase de prueba, el modelo DenseNet121 demostró una notable capacidad de generalización, manteniendo un rendimiento alineado con lo observado en la validación cruzada. La exactitud global (Accuracy = 86.58%) confirma que el sistema puede clasificar correctamente la mayoría de las imágenes DWI, incluso en escenarios no vistos durante el entrenamiento. Sin embargo, en contextos médicos, la precisión global no es suficiente: la diferencia entre un falso negativo y un falso positivo puede significar la vida del paciente o una intervención innecesaria.
Por ello, es fundamental analizar otras métricas:
- Recall = 86.25%, lo que indica que el modelo detecta la mayoría de los casos reales de ACV, reduciendo el riesgo de omitir diagnósticos críticos.
- Precision = 80.20%, un valor que refleja un buen equilibrio, aunque muestra que todavía existe margen para reducir falsos positivos.
- F1-Score = 83.11%, que combina sensibilidad y precisión, ofreciendo una medida robusta del desempeño general.
- Finalmente, el AUC de 0.9430 es particularmente relevante: significa que, ante cualquier umbral, el modelo conserva una alta capacidad para discriminar entre casos positivos y negativos. En la práctica clínica, esto se traduce en flexibilidad para ajustar el umbral según las prioridades médicas (por ejemplo, priorizar la detección temprana frente a la minimización de falsos positivos)
Figura 4. Matriz de confusión y curva ROC en el conjunto de prueba.
Ejemplos visuales de predicciones
Uno de los mayores desafíos en la implementación clínica de IA es la confianza del usuario médico. Para abordar esta necesidad, el sistema no solo devuelve un resultado binario (stroke / no stroke), sino que también ofrece ejemplos visuales de las predicciones realizadas, acompañadas de la probabilidad asociada. Esto permite al radiólogo no depender ciegamente de la tecnología, sino contrastar la salida del modelo con su propio juicio.
Para reforzar la confianza clínica, el sistema muestra la imagen DWI analizada junto con la clase predicha y su probabilidad asociada.
Figura 5. Ejemplos de predicciones sobre imágenes DWI, con etiqueta real, predicción y probabilidad.
Este nivel de interpretabilidad no es un detalle estético, sino un pilar ético y práctico: evita que la IA funcione como una “caja negra” y facilita la toma de decisiones compartidas, donde el modelo actúa como un asistente y no como un sustituto. Además, las probabilidades asociadas permiten configurar umbrales adaptativos en función del riesgo clínico, ofreciendo un control adicional en entornos donde cada minuto cuenta.
Conclusión:
Este proyecto marca un paso importante hacia la integración de la inteligencia artificial en entornos clínicos donde el tiempo y la precisión son determinantes. Si bien en la etapa inicial se evaluaron arquitecturas como ResNet50 y EfficientNetB3, DenseNet121 demostró ser la opción más adecuada gracias a su estructura densa, que optimiza la propagación del gradiente y la reutilización de características. Esta arquitectura alcanzó un AUC de 0.9430 y un F1-score superior al 83%, confirmando su capacidad para detectar ACV en imágenes DWI con alta confiabilidad y ofreciendo una base sólida para futuras aplicaciones clínicas.
Los resultados obtenidos evidencian un modelo sólido, con un AUC superior al 91% y un balance adecuado entre sensibilidad y especificidad, lo que permite confiar en su capacidad para detectar un ACV incluso en condiciones clínicas complejas. Más allá de las métricas, la verdadera fortaleza del sistema radica en su diseño explicable: herramientas como Grad-CAM aportan una transparencia que refuerza la confianza médica, un aspecto imprescindible cuando se trata de decisiones que afectan directamente la vida del paciente.
Sin embargo, ningún avance tecnológico está exento de desafíos. La dependencia de datos limitados y la necesidad de validación multicéntrica siguen siendo tareas pendientes, al igual que la adaptación para entornos con recursos reducidos. Estas limitaciones, lejos de ser un obstáculo, representan oportunidades para la evolución futura del proyecto: integración con sistemas PACS, optimización para dispositivos edge y validación en tiempo real son metas alcanzables que acercarán esta herramienta a su adopción clínica definitiva.
En última instancia, la relevancia de este trabajo trasciende lo técnico. Supone una reflexión sobre el papel de la IA en la medicina moderna: no como un reemplazo del juicio humano, sino como un aliado que aporta velocidad, consistencia y objetividad. Si cada minuto cuenta durante un ACV, cada innovación que reduzca ese tiempo es, en esencia, una herramienta que salva vidas.
Referencias:
- M. U. Emon, M. S. Keya, T. I. Meghla, M. M. Rahman, M. S. Al Mamun, and M. S. Kaiser, “Performance Analysis of Machine Learning Approaches in Stroke Prediction,” in Proc. 4th Int. Conf. Electron. Commun. Aerosp. Technol. (ICECA), Jan. 2020, pp. 1464–1469, doi: 10.1109/ICECA49313.2020.9297525
- C. Shorten and T. M. Khoshgoftaar, “A Survey on Image Data Augmentation for Deep Learning,” Journal of Big Data, vol. 6, no. 1, p. 60, 2019, doi: 10.1186/s40537-019-0197-0.
- M. Tan and Q. V. Le, “EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks,” in Proc. 36th Int. Conf. Mach. Learn. (ICML), Jun. 2019, pp. 10691–10700.
- R. R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh, and D. Batra, “Grad-CAM: Visual Explanations from Deep Networks via Gradient‑Based Localization,” in Proc. IEEE Int. Conf. Comput. Vis. (ICCV), Venice, Italy, Oct. 2017, pp. 618–626.
- Streamlit Documentation, Streamlit. [Online]. Available: https://docs.streamlit.io/. [Accessed: Jul. 16, 2025].
- J. M. Johnson and T. M. Khoshgoftaar, “Survey On Deep Learning With Class Imbalance,” J. Big Data, vol. 6, no. 1, p. 27, 2019, doi: 10.1186/s40537-019-0192-5
- J. Yosinski, J. Clune, Y. Bengio, and H. Lipson, “How transferable are features in deep neural networks?,” in Proc. Adv. Neural Inf. Process. Syst., Montreal, QC, Canada, Dec. 2014, pp. 3320–3328.
- R. R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh, and D. Batra, “Grad‑CAM: Visual Explanations from Deep Networks via Gradient‑Based Localization,” in Proc. IEEE Int. Conf. Comput. Vis. (ICCV), Venice, Italy, Oct. 2017, pp. 618–626.
- J. Amann et al., “Explainability for artificial intelligence in healthcare: a multidisciplinary perspective,” BMC Medical Informatics and Decision Making, vol. 20, no. 310, 2020, doi: 10.1186/s12911-020-01332-6.
- A. B. Arrieta et al., “Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI,” Information Fusion, vol. 58, pp. 82–115, 2020, doi: 10.1016/j.inffus.2019.12.012.
- M. Sajjad et al., “Multi-grade brain tumor classification using deep CNN with extensive data augmentation,” Journal of Computational Science, 2019, doi:
10.1016/j.jocs.2019.05.003.
- X. Lu et al., “Deep learning for detecting acute stroke on diffusion-weighted imaging: A systematic review and meta-analysis,” Journal of Stroke and Cerebrovascular Diseases, 2022, doi: 10.1016/j.jstrokecerebrovasdis.2022.106430.