Adaptación de técnicas de aprendizaje automático a datos censurados de registros de salud 

Las predicciones del riesgo de que un paciente experimente diversos resultados de salud o eventos adversos pueden ayudar a los médicos a optimizar la asignación de recursos, a desarrollar estrategias de intervención apropiadas para aquellos con alto riesgo de un resultado de salud adverso y a motivar a los pacientes a seguir cumpliendo con sus recomendaciones médicas o tratamientos. (Vock, D. M et al, 2016) 

Los datos de salud electrónicos de los grandes sistemas de atención médica contienen información sobre una gran población actual que busca atención y, por lo tanto, son una fuente atractiva de datos de capacitación para la predicción de riesgos clínicos. Sin embargo, las fuentes de macrodatos en biomedicina rara vez se recopilan explícitamente con fines de investigación, por lo que muchos sujetos pueden perderse durante el seguimiento debido a la desafiliación del sistema de salud. La creciente disponibilidad de datos electrónicos de salud (EHD) y otras fuentes de grandes datos biomédicos representa una oportunidad clave para mejorar los modelos de predicción de riesgos. (Vock, D. M et al, 2016) 

Vock. D.M. et al. proponen una técnica general para extraer right-censored time-to-event data. Es un paso simple de preprocesamiento que vuelve a ponderar los datos utilizando ponderaciones de probabilidad inversa de censura (IPC). Los datos ponderados por IPC se pueden analizar mediante cualquier técnica de aprendizaje automático que pueda incorporar ponderaciones de observación. (Vock, D. M et al, 2016) 

Explicado de una manera simple, Vock D.M. et al dividen a los sujetos en aquellos con estado de evento desconocido a los que se les da un peso cero y sujetos con un estado de evento conocido a quienes se les asignan ponderaciones que toman en cuenta los sujetos que habrían tenido el mismo tiempo de evento pero fueron censurados. A los sujetos con eventos de mayor duración se les asigna un mayor peso para tener en cuenta el hecho de que es más probable que sean censurados antes de experimentar el evento de interés. (Vock, D. M et al, 2016) 

Ejemplo de un set de datos: predicción del riesgo cardiovascular utilizando datos de salud electrónicos 

Vock D.M. et al ilustran la aplicación de métodos de predicción de riesgo ponderados por IPC al problema de predecir el riesgo de un evento cardiovascular a partir de datos electrónicos de salud. Los datos se extrajeron del almacén de datos virtual de la red de investigación HMO ( HMO Research Network Virtual Data Warehouse o HMORNVDW) asociado con ese sistema. (Vock, D. M et al, 2016) 

Este sistema de salud incluye tanto un plan de seguro como una red de atención médica en un sistema abierto que se superpone parcialmente. Esto significa que los pacientes del plan de seguro pueden ser atendidos por la red de atención médica interna o por proveedores de atención médica externos, y la red de atención médica atiende a pacientes dentro y fuera del plan de seguro. Los pacientes miembros que no visitan ninguna de las clínicas y hospitales de la red no tienen ninguna información médica incluida en la historia clínica electrónica (EMR) de este sistema.  (Vock, D. M et al, 2016) 

Los factores de riesgo utilizados como características en los modelos de aprendizaje automático incluyen edad, sexo, presión arterial sistólica, uso de medicamentos para la presión arterial, marcadores de colesterol (HDL y colesterol total), índice de masa corporal (IMC), tabaquismo y presencia / ausencia de diabetes. . Los eventos cardiovasculares se definieron como el primer accidente cerebrovascular registrado, infarto de miocardio (IM) u otros eventos cardiovasculares importantes después del período inicial, antes de los 5 años de seguimiento. (Vock, D. M et al, 2016) 

Se implementaron varias técnicas de aprendizaje automático, que incluyen regresión logística y regresión logística aditiva generalizada, redes bayesianas, árboles de clasificación, k vecinos más cercanos y métricas de evaluación de predicción de riesgos. (Vock, D. M et al, 2016) 

Los métodos anteriores para manejar estados de eventos desconocidos debido a la censura eran en gran medida apropiado o solo se aplicaban para una sola técnica de aprendizaje automático. Pero, Vock et al demostraron que una amplia variedad de técnicas flexibles de aprendizaje automático, cuando se contabiliza adecuadamente la censura mediante IPCW, se puede aplicar con éxito para predecir el riesgo con right-censored time-to-event data. (Vock, D. M et al, 2016) 

Si usted es un profesional de la salud o pertenece al grupo de responsables médicos del hospital o centro de salud en el que labora ¡contáctenos! Alcance cuenta con la experiencia para aplicar la AI a su práctica.  

Vock, D. M., Wolfson, J., Bandyopadhyay, S., Adomavicius, G., Johnson, P. E., Vazquez-Benitez, G., & O’Connor, P. J. (2016). Adapting machine learning techniques to censored time-to-event health record data: A general-purpose approach using inverse probability of censoring weighting. Journal of Biomedical Informatics, 61, 119–131. https://doi.org/10.1016/j.jbi.2016.03.009  

Deja una respuesta