Desarrollo y Evaluación de una Herramienta Computacional para la Vectorización de Datos de Microbioma Mediante Modelos de Lenguaje de ADN
| dc.contributor.advisor | Raveau Morales, María Paz | |
| dc.contributor.advisor | Oróstica Tapia, Karen | |
| dc.contributor.author | Ugalde Casanova, Juan Antonio | |
| dc.coverage.spatial | Santiago | |
| dc.date.accessioned | 2026-03-11T19:53:28Z | |
| dc.date.available | 2026-03-11T19:53:28Z | |
| dc.date.issued | 2026 | |
| dc.description | Proyecto de grado presentado a la Facultad de Ingeniería de la Universidad del Desarrollo para optar al grado académico de Magíster en Data Science | |
| dc.description.abstract | El microbioma humano es un sistema biológico de gran diversidad y complejidad, cuyo análisis computacional representa un desafío metodológico relevante. En este proyecto se desarrolló una herramienta computacional denominada vaultfinder-microbiome, para la vectorización de datos de microbioma a través de métodos composicionales y modelos de lenguaje para secuencias de ADN (DNABERT-2, DNABERT-S y GenomeOcean-500M). La metodología incluyó la evaluación de las cuatro estrategias de vectorización sobre dos conjuntos de datos: 42,321 secuencias del gen que codifica para el 16S rRNA provenientes de la base de datos Genome Taxonomy Database (GTDB) para análisis taxonómico y 3,110 muestras de microbioma intestinal provenientes del South American MicroBiome Archive (saMBA) para clasificación geográfica. En la evaluación se consideraron métricas de clustering no supervisado, análisis de varianza, y clasificación supervisada. Los resultados demostraron que los modelos de lenguaje tienen un mejor desempeño comparado a enfoques clásicos como los métodos composicionales. La combinación de DNABERT-S y XGBoost alcanzó el mejor rendimiento en tareas de clasificación geográfica (57,7% precisión y 43,9% macro F1). Aunque la señal geográfica detectada es más débil que en estudios ambientales, los resultados respaldan el uso de modelos de lenguaje de ADN como alternativa para el análisis de comunidades microbianas. | |
| dc.format.extent | 65 p. | |
| dc.identifier.uri | https://hdl.handle.net/11447/10620 | |
| dc.language.iso | es | |
| dc.publisher | Universidad del Desarrollo. Facultad de Ingeniería | |
| dc.subject | 070037S | |
| dc.subject | Microbioma | |
| dc.subject | Embeddings | |
| dc.subject | Modelos de lenguaje | |
| dc.title | Desarrollo y Evaluación de una Herramienta Computacional para la Vectorización de Datos de Microbioma Mediante Modelos de Lenguaje de ADN | |
| dc.type | Thesis | |
| dcterms.accessRights | Privado |
Files
Original bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- Vectorización de Datos de Microbioma Mediante Modelos de Lenguaje de ADN.pdf
- Size:
- 1.23 MB
- Format:
- Adobe Portable Document Format
- Description:
- Autor no autoriza publicacion acceso abierto
License bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- license.txt
- Size:
- 347 B
- Format:
- Item-specific license agreed upon to submission
- Description: