Abstract:
CONDITION FOR PUBLICATION OF PROJECT. project developed a predictive model to estimate medical expenses covered by
insurance companies, using historical data from employees of corporate clients. Through
preprocessing techniques, dimensionality reduction (UMAP), clustering (KMeans), and
advanced regression models such as Random Forest, Gradient Boosting, and XGBoost, a
scalable and accurate tool was built. The model enables more precise forecasting of future
medical expenses, improving financial planning for both insurers and policyholders by
reducing information asymmetry in risk management. Additionally, an interactive visualization
tool was developed to help end users interpret the results with ease. The methodology is
proven to be replicable and shows clear opportunities for improvement, including the
incorporation of new explanatory variables and the use of more sophisticated algorithms.
Future versions of the model should integrate larger datasets to enhance the prediction of
specific health conditions.
Description:
CONDICIONAMIENTO DE PUBLICACION DE PROYECTO. Este proyecto desarrolló un modelo predictivo para estimar el gasto médico cubierto
por aseguradoras, utilizando datos históricos de empleados pertenecientes a clientes
corporativos. Mediante técnicas de preprocesamiento, reducción de dimensionalidad
(UMAP), segmentación (KMeans) y modelos de regresión avanzados como Random Forest,
Gradient Boosting y XGBoost, se construyó una herramienta precisa y escalable. El modelo
permite anticipar con mayor precisión los gastos futuros y facilitar la planificación financiera,
tanto para la aseguradora como para el asegurado, reduciendo la asimetría de la información
en la gestión del riesgo. Además, se diseñó una herramienta de visualización interactiva que
facilita la interpretación de los resultados por parte de los usuarios finales. Se concluye que
la metodología es replicable y que existen claras oportunidades de mejora, como la
incorporación de nuevas variables explicativas y el uso de algoritmos más sofisticados.
Futuras versiones del modelo deberán integrar una mayor cantidad de datos para optimizar
la predicción de ciertos tipos de afectaciones a la salud.