Predicción de la Inflamabilidad de Productos Químicos del Dataset Cramer-UDD mediante Machine Learning

Gómez Vargas, GermánElizalde, JuanVits Contreras, Sofía2026-03-182026-03-182025https://hdl.handle.net/11447/10636Proyecto de grado presentado a la Facultad de Ingeniería de la Universidad del Desarrollo para optar al grado académico de Magíster en Data ScienceLos productos químicos son clasificados en categorías de riesgo de acuerdo a su reactividad, inflamabilidad, perjuicios a la salud, y otros riesgos especiales relacionados con la naturaleza fisicoquímica de una fórmula. En este trabajo se analizará específicamente el punto de inflamación de una fórmula química. Esta característica es uno de los parámetros utilizados para evaluar la inflamabilidad de una sustancia química. La determinación de esta propiedad requiere la aplicación de mediciones experimentales específicas, las cuales pueden resultar ser muy costosas para una empresa desde los puntos de vista económico y temporal. Por este motivo, la empresa Cramer compartió sus datos para poder crear modelos de clasificación multiclase, con el propósito de clasificar la inflamabilidad de sus fórmulas líquidas. Las fórmulas fueron clasificadas en fórmulas que contienen compuestos líquidos con comportamiento gaseoso (más específicamente compuestos azufrados), fórmulas etanólicas, fórmulas acuosas, y fórmulas que contienen otros solventes orgánicos. Los modelos aplicados fueron regresión logística multiclase, Random Forest, LightGBM, y CatBoost. Todos estos modelos fueron calibrados mediante predicción conformal utilizando margin nonconformity score para dicho propósito. Posteriormente se realizó un análisis SHAP de los modelos LightGBM y CatBoost, comparando la importancia asignadas a cada variable por estos modelos, así como el estudio de los gráficos de dependencia de dichas variables.74 p.es070037SMachine learningPredicción conformalAnálisis SHAPClasificación multiclasePunto de inflamaciónPredicción de la Inflamabilidad de Productos Químicos del Dataset Cramer-UDD mediante Machine LearningThesis