Authors

Affiliations

Álvaro Castillo-Carniglia

Full professor, Departamento Nacional de Salud Pública, Facultad de Medicina, Universidad San Sebastián y Núcleo Milenio para la Evaluación y Análisis de Políticas de Drogas

Andrés González-Santa Cruz

Ph.D. student, Public Health, UCH, Chile

Amaru Agüero Jiménez

Ph.D. student, Social Complexity Sciences, UDD, Chile

SISTRAT Datasets

This repository is organized into four main sections: data preparation, deduplication, predictive modeling, and documentation.

1. Data Preparation & Standardization

Core Datasets

2. Data Cleaning & Deduplication (C1)

3. Predictive Modeling Pipeline

Database Formatting

Machine Learning – XGBoost

Penalized Survival Models

Elastic Net Cox Proportional Hazards – Variable Importance & Performance Metrics

Deep Learning – DeepHit

Deep Learning – DeepSurv

Prediction & ML-informed survival modeling

4. Documentation

Codebook of C1

The main processes are summarized in the following figures.

Figure 1. Diagram of data preparation

To open in a new window

Diagram

Figure 2. Diagram of Thesis project

To open in a new window

Diagram